تعلمت ذراع روبوتية افتراضية حلَّ مجموعة واسعة من الألغاز المختلفة -مثل رص المكعبات وإعداد المائدة وترتيب قطع الشطرنج- دون الحاجة إلى إعادة تدريبها على أداء كل مهمة. وقد فعلت ذلك من خلال اللعب ضد ذراع روبوتية أخرى تم تدريبها على إعطاء الذراع الأولى تحديات تزداد صعوبتها أكثر فأكثر.
اللعب الذاتي
تتعلم ذراعا الروبوت المتطابقتان أليس وبوب -اللتان طورهما باحثون في مختبر أوبن إيه آي- من خلال لعب لعبة ضد بعضهما البعض ضمن عملية محاكاة، دون تدخل بشري. ويستخدم الروبوتان تقنية التعلم المعزز، وهي تقنية يتم فيها تدريب أنظمة الذكاء الاصطناعي، عن طريق التجربة والخطأ، على الإجراءات التي يجب اتخاذها في مواقف مختلفة لتحقيق أهداف محددة. وتتطلب اللعبة تحريك بعض الأجسام على سطح طاولة افتراضية، ومن خلال ترتيب هذه الأجسام بطرق معينة، تحاول أليس وضع ألغاز يصعب على بوب حلها، ثم يحاول بوب حل الألغاز التي وضعتها أليس. وبينما يتعلمان، تضع أليس ألغازاً أكثر تعقيداً وتتحسن قدرة بوب على حلها.
وبعد تدريب بوب على ألغاز المكعبات التي وضعتها أليس، يمكنه تعميم هذا التدريب على مجموعة من المهام، بما في ذلك إعداد المائدة وترتيب قطع الشطرنج.
تعدد المهام
عادةً ما يتعين إعادة تدريب نماذج التعلم العميق بين المهام. على سبيل المثال، يستخدم برنامج ألفازيرو (الذي يتعلم أيضاً من خلال اللعب ضد نفسه) خوارزمية واحدة لتعليم نفسه ألعاب الشطرنج وشوجي وجو، لكنه يتعلم لعبة واحدة فقط كل مرة. ولا يستطيع ألفازيرو الذي يلعب الشطرنج أن يلعب جو، ولا يمكن للبرنامج الذي يلعب الشطرنج أن يلعب شوجي. لذا، فإن بناء آلات يمكنها فعلاً تنفيذ مهام متعددة يمثل مشكلة كبيرة لم تُحل بعد، تعترض طريق الوصول إلى نظام ذكاء اصطناعي أكثر عمومية.
تدريب الذكاء الاصطناعي
إحدى المشكلات التي يواجهها الباحثون تتمثل في أن تدريب الذكاء الاصطناعي على تنفيذ مهام متعددة يتطلب عدداً هائلاً من الأمثلة، إلا أن مختبر أوبن إيه آي يتفادى هذا الأمر من خلال تدريب أليس على توليد الأمثلة لبوب، أي استخدام نظام ذكاء اصطناعي لتدريب نظام آخر. وقد تعلمت أليس أن تحدد أهدافاً لبوب، مثل بناء برج من المكعبات ثم التقاطه وموازنته. وتعلم بوب استخدام خواص البيئة (الافتراضية)، مثل الاحتكاك، للإمساك بالأجسام وتدويرها.
الواقع الافتراضي
لم يتم اختبار هذا النهج حتى الآن سوى في عمليات المحاكاة فقط، إلا أن قدرة الباحثين في مختبر أوبن إيه آي وفي غيره من الأماكن على نقل النماذج التي تم تدريبها في بيئات افتراضية إلى البيئات المادية تزداد تحسناً. وتُمكن عمليات المحاكاة أنظمة الذكاء الاصطناعي من التعامل سريعاً مع مجموعات ضخمة من البيانات خلال فترة زمنية قصيرة، قبل أن يتم ضبطها لتناسب ظروف العالم الحقيقي.
الطموح العام
يقول الباحثون إن هدفهم النهائي هو تدريب الروبوت على أداء أي مهمة قد يطلبها منه الإنسان. وعلى غرار نموذج جي بي تي-3، وهو نموذج لغوي يمكنه استخدام اللغة بمجموعة واسعة من الطرق المختلفة، فإن هذه الأذرع الروبوتية هي جزء من طموح أوبن إيه آي العام لتطوير نظام ذكاء اصطناعي متعدد المهام. وقد يشكل استخدام نظام ذكاء اصطناعي لتدريب نظام آخر جزءاً أساسياً من هذا الطموح.