في فبراير من العام الماضي، أعلن مختبر أوبن إيه آي (OpenAI) الذي يتخذ من سان فرانسيسكو مقراً له أن نظام الذكاء الاصطناعي الخاص به يستطيع كتابة مقاطع مقنعة باللغة الإنجليزية. وبمجرد تغذية هذا النظام -الذي سُمي جي بي تي-2- بمطلع جملة أو فقرة، فإنه كان يستطيع متابعة صياغة الكلام حتى ينتج نصاً بطول مقالة تتمتع باتساق يحاكي تقريباً النصوص التي ينتجها البشر.
واليوم، يستكشف المختبر ما سيحدث إذا تمت تغذية الخوارزمية بجزء من صورة عوضاُ عن جزء من نص. وقد حصلت النتائج على الجائزة المشرفة باعتبارها أفضل ورقة بحثية في المؤتمر الدولي للتعلم الآلي هذا الأسبوع؛ إذ تقدم هذه النتائج طريقة جديدة لتوليد الصور بما تحمله من فرص وعواقب.
مصدر الفيديو: بين باري | أوبن إيه آي
يعتبر نموذج جي بي تي-2 في جوهره محركاً جباراً للتنبؤ؛ فقد تعلم فهمَ بنية اللغة الإنجليزية من خلال تغذيته بمليارات الأمثلة من الكلمات والجمل والفقرات التي تم جمعها من أصقاع الإنترنت. وبعد فهمه لتلك البنية، يمكنه التلاعب بالكلمات ووضعها في جمل جديدة من خلال التنبؤ إحصائياً بالترتيب الذي ينبغي أن تَرِد فيه.
لذا قرر الباحثون في أوبن إيه آي استبدال الكلمات بالبيكسلات، وتدريب نفس الخوارزمية على الصور الموجودة في إيماج نِت (ImageNet)، وهي بنك الصور الأكثر استخداماً في مجال التعلم العميق. وبما أن الخوارزمية كانت مصممة للعمل مع بيانات أحادية البعد (أي سلاسل نصية)، فقد فكَّكَ الباحثون بيانات الصور لوضعها في تسلسل واحد من البيكسلات. ووجدوا أن النموذج الجديد -المسمى آي جي بي تي (iGPT)- ما زال قادراً على فهم البنى ثنائية الأبعاد للعالَم البصري؛ فعند تزويده بتسلسل البيكسلات للنصف الأول من الصورة، استطاع أن يتنبأ بنصفها الثاني بطرق يراها الإنسان معقولة.
يمكنك مشاهدة بضعة أمثلة في الصور أدناه. العمود الموجود في أقصى اليسار هو صور الإدخال، أما العمود الموجود في أقصى اليمين فيمثل الصور الأصلية، والأعمدة في الوسط هي الإكمالات المتوقعة لنموذج آي جي بي تي. (اطلع على المزيد من الأمثلة هنا).
تعتبر النتائج مثيرة للإعجاب بشكل مذهل، وترسم مساراً جديداً لاستخدام التعلم غير الموجَّه، الذي يتدرب على البيانات غير الموسومة، في تطوير أنظمة الرؤية الحاسوبية. وعلى الرغم من أن الأنظمة الأولية للرؤية الحاسوبية في منتصف العقد الأول من القرن الحادي والعشرين قد جربت مثل هذه التقنيات من قبل، إلا أنها فقدت الاهتمام بها بعدما تبين أن التعلم الموجَّه -الذي يستخدم البيانات الموسومة- كان أكثر نجاحاً بكثير. ومع ذلك، فإن فائدة التعلم غير الموجَّه تنبع من كونه يسمح لنظام ذكاء اصطناعي بالتعلم حول العالَم من دون الحاجة إلى تدخل بشري لترشيح البيانات، كما أنه يقلل بشكل كبير من العمل اليدوي اللازم لوسم البيانات.
إن حقيقة استخدام نموذج آي جي بي تي لنفس الخوارزمية المستخدمة في نموذج جي بي تي-2 تُظهر أيضاً قابليته الواعدة للتكيف. وهذا يتماشى مع أعظم طموحات أوبن إيه آي في الوصول إلى ذكاء آلي أكثر قابلية للتعميم.
في الوقت نفسه، يوفر هذا الأسلوب طريقة جديدة مقلقة لإنشاء صور عميقة التزييف؛ حيث ينبغي تدريب الشبكات التوليدية التنافسية -وهي الفئة الأكثر شيوعاً من الخوارزميات المستخدمة لإنشاء صور عميقة التزييف في الماضي- على البيانات عالية التنظيم. وعلى سبيل المثال، إذا كنت ترغب في الحصول على شبكة توليدية تنافسية لإنشاء وجه، يجب عندئذٍ أن تتضمن بيانات التدريب الخاصة بها صوراً للوجوه فقط. في المقابل، فإن نموذج آي جي بي تي يتعلم ببساطة ما يكفي من بنية العالَم البصري عبر ملايين ومليارات الأمثلة لإنتاج صور يُحتمل وجودها في هذا العالَم. ورغم أن تدريب النموذج لا يزال مكلفاً من الناحية الحسابية -وهو ما يوفر عائقاً طبيعياً أمام وصول الكثيرين إلى إمكاناته- إلا أن هذه الحال قد لا تدوم لفترة طويلة.
لم يوافق أوبن إيه آي على طلب مقابلة، ولكن في اجتماع لفريق السياسة الداخلية الذي حضرته إم آي تي تكنولوجي ريفيو العام الماضي، تنبأ مدير السياسة، جاك كلارك، بالمخاطر المستقبلية للمواد التي يتم توليدها باستخدام نماذج مشابهة لنموذج جي بي تي، بما في ذلك ما سيحدث إذا تم تطبيقه على الصور. وقال في الاجتماع: "سيأتي دور توليد الفيديو"، متوقعاً الوجهة التي سيتّجه إليها مسار البحث في هذا المجال. وأضاف: "في غضون خمس سنوات على الأرجح، سنحصل على إمكانية مشروطة لتوليد فيديو تتراوح مدته بين خمس إلى 10 ثوانٍ". ثم استرسل في وصف ما كان يتخيله: سنقوم بتزويد النموذج بصورة أحد السياسيين وصورة انفجار بجواره، ليقوم على الأرجح بتوليد خرج يتضمن مقتل ذلك السياسي.