صورة رائد فضاء يمتطي حصاناً: خطوة مهمة للذكاء الاصطناعي نحو فهم العالم

عندما كشفت "أوبن أيه آي" (OpenAI) عن شبكتها العصبونية "دال-إي" (Dall-E) لابتكار الصور في بدايات 2021، كانت قدرة ذلك البرنامج على جمع مفاهيم مختلفة بأساليب جديدة مذهلة وشبيهة بقدرات البشر. وعلى الرغم من أن مجموعة الصور التي أنتجها "دال إي" عند الطلب كانت سريالية وكرتونية الطابع، فإنها أظهرت أن الذكاء الاصطناعي تعلم دروساً قيمة حول طريقة تنظيم هذا العالم. وعلى سبيل المثال، فإن كراسي الأفوكادو التي ابتكرها "دال-إي" تحمل السمات الأساسية لكل من الكرسي والأفوكادو، كما أن الفجل الذي ينزه الكلاب مرتدياً تنورة التوتو كان يرتدي التنورة حول منطقة الخصر ويحمل رسن الكلب بيديه.

أما الآن، فقد أعلن المختبر الموجود في سان فرانسيسكو عن خليفة "دال-إي"، والذي يحمل اسم "دال-إي 2". ويتميز هذا الإصدار الجديد بأنه ينتج صوراً أفضل بكثير، كما أن استخدامه أسهل، وسيصبح متاحاً للعامة (في نهاية المطاف) على عكس النسخة الأصلية. وقد يتمكن "دال-إي 2" حتى من توسيع التعريف الحالي للذكاء الاصطناعي، ويرغمنا على إعادة النظر بهذا المفهوم ومعناه الحقيقي.

ما الذي تعنيه القفزة من دال-إي إلى دال-إي 2

يقول أورين إيتزيوني، الرئيس التنفيذي لمعهد آلين للذكاء الاصطناعي "أيه آي 2" (AI2) في سياتل: "إن القفزة من دال-إي إلى دال-إي 2 تشابه القفزة من جي بي تي 2 إلى جي بي تي 3". ومن الجدير بالذكر أن تطوير "جي بي تي 3" تم أيضاً في أوبن أيه آي.

رائد فضاء يمتطي حصاناً: خطوة مهمة للذكاء الاصطناعي نحو فهم العالم — "دببة محشوة تمزج مواداً كيميائية متلألئة مثل العلماء المجانين، ستيم بانك"/ "صورة بفيلم ماكرو مقاس 35 مم لعائلة كبيرة من الفئران التي ترتدي القبعات وتجلس بشكل مرتاح قرب الموقد.

لقد قطعت نماذج توليد الصور مثل "دال-إي" شوطاً كبيراً خلال بضع سنوات وحسب. ففي 2020، استعرض "أيه آي 2" شبكة عصبونية قادرة على توليد الصور بالاعتماد على تعليمات مثل "ثلاثة أشخاص يمارسون ألعاب الفيديو على أريكة". وعلى الرغم من أن النتائج كانت مشوهة ومغشاة، فإنها كانت شبه معبرة عن المحتوى المطلوب. وفي السنة الماضية، قامت شركة التكنولوجيا الصينية العملاقة "بايدو" (Baidu) بالتحسين على نوعية الصور لبرنامج "دال إي" الأصلي بنموذج يحمل اسم "إيرني فيلج" (ERNIE-ViLG).

غير أن "دال-إي 2" يتضمن تطويراً أكثر تطوراً حتى للطريقة الأصلية. ويمكن لابتكاراته أن تكون مذهلة، فإذا طلبت منه توليد صور لرائد فضاء يركب حصاناً، أو دب محشو عالم، أو ثعلب ماء بحري بأسلوب الرسام فيرمير، فسوف يقوم بذلك بدقة تكاد تضاهي دقة الصور الفوتوغرافية. إن الأمثلة التي نشرتها أوبن أيه آي (والموضحة أدناه)، إضافة إلى تلك التي رأيتها خلال عرض تجريبي قدمته الشركة لي مؤخراً، كانت ولا شك مختارة بعناية. وعلى الرغم من هذا، فقد كانت في معظمها مذهلة الجودة.

يقول إيليا سوتسكيفير، أحد مؤسسي أوبن أيه آي والعالم الأساسي فيها: "يمكنك أن تنظر إلى هذه الشبكة العصبونية على أنها تقدم الجمال المتميز كخدمة، فبين الحين والآخر، تقوم بتوليد شيء يحبس الأنفاس".

إعادة تصميم كاملة

يكاد الأداء المتفوق للبرنامج "دال-إي 2" يرقى إلى مستوى إعادة تصميم كاملة. فقد كانت النسخة الأصلية بمثابة امتداد للبرنامج "جي بي تي 3". ويمكن تشبيه "جي بي تي 3"، بكثير من الطرق، بوظيفة إكمال تلقائي هائلة القدرات، فهو يبدأ ببضع كلمات أو جمل وحسب، ويكمل التأليف بنفسه، ويتوقع بضع مئات من الكلمات التي يمكن أن ترد لاحقاً في هذا التسلسل. وقد كان "دال-إي" يعمل بنفس الطريقة تقريباً، ولكن بالاعتماد على البيكسلات بدلاً من الكلمات. فعند تلقي تعليمات مكتوبة، يعمل على "استكمال" النص بتوقع سلسلة البيكسلات التي يُرجح أنها ستأتي تالياً، ما يؤدي إلى إنتاج الصورة.

ولكن "دال-إي 2" ليس مبنياً على "جي بي تي 3". فضمن تركيبه الداخلي، يعمل على مرحلتين. في المرحلة الأولى، يعتمد على النموذج اللغوي "كليب" (CLIP) من أوبن أيه آي، وذلك لربط التوصيفات المكتوبة مع الصور، وترجمة التعليمات النصية إلى شكل وسطي يلتقط الميزات الأساسية التي يجب أن تحملها الصورة لمطابقة التعليمات المكتوبة (وفقاً لكليب). وفي المرحلة الثانية، يقوم "دال-إي 2" بتشغيل شبكة عصبونية معروفة باسم نموذج التوزيع لتوليد صورة تحقق معايير كليب.

ويتم تدريب نماذج التوزيع على صور تم تشويهها تماماً باستخدام بيكسلات عشوائية. وتتعلم تحويل هذه الصور إلى شكلها الأصلي. ولكن في حالة "دال-إي 2" ليس هناك صور موجودة مسبقاً. ولهذا، يأخذ نموذج التوزيع البيكسلات العشوائية، ووفقاً لتعليمات كليب، يقوم بتحويلها إلى صورة جديدة تماماً من الصفر لمطابقة التعليمات المكتوبة.

يتيح نموذج التوزيع للبرنامج "دال-إي 2" إنتاج صور بدقة أعلى وبسرعة أكبر مقارنة مع "دال إي". يقول أديتيا راميش في أوبن أيه آي: "هذه الطريقة تجعل البرنامج عملياً بدرجة أعلى، وأكثر متعة للاستخدام أيضاً".

وفي العرض التجريبي، عرض عليّ راميش وزملاؤه صوراً لقنفذ يستخدم آلة حاسبة، وكلب كورغي يلعب الشطرنج مع دب باندا، وقطة ترتدي لباس نابليون وتحمل قطعة من الجبن. وقد علقت على الاختيار الغريب لهذه النماذج. يقول راميش: "من السهل أن تضيع يوم عمل كامل وأنت تفكر بتعليمات لتلقيمها للبرنامج".

ولكن "دال-إي 2" ما زال يرتكب الأخطاء. وعلى سبيل المثال، يمكن أن يصاب بالارتباك لدى معالجة تعليمات تطلب منه جمع جسمين أو أكثر بصفتين أو أكثر، مثل "مكعب أحمر فوق مكعب أزرق". وتعتقد أوبن أيه آي أن هذا يُعزى إلى عدم قدرة كليب على إقران الصفات بالأجسام بشكل صحيح على الدوام.

وإضافة إلى تركيب الصور وفقاً للتعليمات النصية، يستطيع "دال-إي 2" أيضاً ابتكار تعديلات على صور موجودة مسبقاً. فقد قام راميش بتلقيم البرنامج بصورة للوحة مرسومة في الشارع خارج شقته. وبدأ الذكاء الاصطناعي على الفور بتوليد نسخ أخرى من المشهد مع لوحات مختلفة على الحائط. ويمكن استخدام كل من هذه الصور الجديدة لإطلاق سلسلة مستقلة من الصور المعدلة. يقول راميش: "يمكن أن تكون حلقة التغذية الراجعة المتكررة هذه مفيدة للغاية للمصممين".

تقول هولي هيرندون، وهي فنانة من أوائل مستخدمي البرنامج، إنها تستخدم "دال-إي 2" لابتكار صور مركبة جدارية. وتقول: "أستطيع أن أقوم بتركيب أعمال فنية كبيرة من عدة قطع، تماماً مثل بساط معلق مصنوع من رقع قماشية مختلفة، أو رحلة تعبر عن قصة معينة". "وأشعر أنني أعمل في وسط فني جديد".

تحذير ضروري

يبدو "دال-إي 2" أقرب إلى منتج مصنوع بعناية من نسخته السابقة. ولكن هذا لم يكن المقصود، كما يقول راميش. ولكن أوبن أيه آي تخطط لإطلاق "دال إي 2" للعامة بعد إطلاق أولي لمجموعة من المستخدمين الموثوقين، تماماً كما فعلت مع "جي بي تي 3". (يمكنك أن تسجل اشتراكك للوصول إلى البرنامج هنا).

يمكن أن ينتج "جي بي تي 3" نصوصاً مسيئة. ولكن أوبن أيه آي تقول إنها اعتمدت على ملاحظات مستخدميه لتدريب نسخة أكثر أماناً تحمل اسم "إنستراكت جي بي تي" (InstructGPT). وتأمل الشركة باتباع مسار مماثل مع "دال-إي 2"، والذي سيتم تعديله أيضاً وفق ملاحظات المستخدمين. ستشجع أوبن أيه آي المستخدمين الأوائل على تجربة النظام بكافة الأشكال، ومحاولة خداعه لتوليد صور مسيئة أو مؤذية. ومع عملها على معالجة هذه المشكلات، ستبدأ أوبن أيه آي بإتاحة "دال-إي 2" لمجموعة أكبر من الأشخاص.

أيضاً، ستقوم أوبن أيه آي بإطلاق سياسة استخدام لبرنامج "دال إي"، بحيث تحظر توجيه أي طلب للنظام لتوليد صور مسيئة –مثل الصور العنيفة والإباحية- أو صور سياسية الطابع. ولمنع الصور عميقة التزييف، لن يُسمح للمستخدمين بتوجيه طلب إلى "دال-إي" لتوليد صور أشخاص حقيقيين.

وإضافة إلى سياسة الاستخدام، قامت أوبن أيه آي بإزالة أنواع معينة من الصور من بيانات "دال-إي" التدريبية، بما فيها الصور العنيفة بشكل دموي. تقول أوبن أيه آي أيضاً إنها ستوظف مراقبين من البشر لدراسة كل صورة يتم توليدها على منصتها.

يقول برافولا داريوال في أوبن أيه آي: "هدفنا الرئيسي هنا هو ببساطة معالجة أكبر قدر ممكن من ملاحظات المستخدمين قبل البدء بمشاركة النظام على نطاق أوسع". "وآمل بأنه سيكون متاحاً للجميع في نهاية المطاف، بحيث يستطيع المطورون بناء تطبيقات بالاعتماد عليه".

ذكاء ابتكاري

تستطيع أنظمة الذكاء الاصطناعي متعددة المهارات أن تستعرض العالم وتعمل مع مفاهيم وأفكار بعدة أوساط مختلفة، مثل اللغة والرؤية، وهي تمثل خطوة نحو الذكاء لأغراض أكثر عمومية. ويمثل "دال-إي 2" واحداً من أفضل الأمثلة على هذا حتى الآن.

ولكن، وعلى الرغم من أن إيتزيوني معجب بالصور التي يولدها "دال-إي 2"، فإنه متحفظ على ما يعنيه هذا بالنسبة للتطور الإجمالي للذكاء الاصطناعي. ويقول: "هذا النوع من التطورات لن يجعلنا أقرب إلى تحقيق الذكاء الاصطناعي العام". "فنحن نعرف مسبقاً أن الذكاء الاصطناعي يتمتع بقدرات هائلة على حل المهام الضيقة والمحددة باستخدام التعلم العميق" "ولكن صياغة هذه المهام وتوجيه عمل التعلم العميق ما زال بيد البشر".

وبالنسبة لمارك ريدل، وهو باحث في الذكاء الاصطناعي في معهد جورجيا للتكنولوجيا في أتلانتا، فإن القدرات الابتكارية تمثل طريقة جيدة لقياس الذكاء. وعلى عكس اختبار تورينغ، والذي يتضمن قيام آلة بخداع شخص بشري عبر الحوار، فإن اختبار "لوفليس 2.0" الذي وضعه ريدل يحكم على ذكاء الآلة عبر قدرتها على الاستجابة إلى طلبات ابتكار شيء معين، مثل "صورة بطريق يرتدي بدلة فضائية على المريخ".

وفي هذا الاختبار، يحقق "دال-إي" علامات ممتازة. ولكن الذكاء ليس بالمفهوم الجامد والثابت. فمع بناء آلات أفضل بقدرات أعلى، يجب أن نقوم أيضاً بتعديل اختباراتنا للذكاء. فقد أصبحت الكثير من بوتات الدردشة بارعة للغاية في تقليد الحوار البشري، بحيث تحقق النجاح على نطاق ضيق في اختبار تورينغ. ولكنها ما زالت مجرد أنظمة تعمل دون تفكير.

"A penguin on Mars wearing a spacesuit walking a robot dog next to Santa Claus". 1 is a direct sample; 2 demonstrates "compositional in-painting" (3 rds: "A penguin on Mars wearing a spacesuit" + "walking a robot dog" + "next to Santa Claus" + a bit of selecting) pic.twitter.com/91WPyvHrE2

— Jack Hessel (@jmhessel) April 6, 2022

غير أن الأفكار حول معنى "الابتكار" و"الفهم" تتغير أيضاً، كما يقول ريدل. "هذه المصطلحات غامضة، وما زالت مثاراً للجدل حتى الآن". وعلى سبيل المثال، فإن النحلة تستطيع فهم أهمية اللون الأصفر، لأنها تتصرف على أساس هذه المعلومة. يقول ريدل: "إذا عرفنا الفهم على أنه الفهم البشري، فإن أنظمة الذكاء الاصطناعي ما زالت بعيدة للغاية عن تحقيقه. ولكن يمكنني أيضاً أن أقول إن هذه الأنظمة التي تولد الأعمال الفنية تمتلك درجة من الفهم الأساسي الذي يتقاطع مع الفهم البشري، فهي قادرة على إلباس الفجل تنورة التوتو (لباس ترتديه راقصة الباليه) في نفس المكان الذي سيضع البشري التنورة عليه".

وعلى غرار النحلة، يتصرف "دال-إي 2" وفقاً للمعلومات، وينتج صوراً تحقق التوقعات البشرية. إن الأنظمة مثل "دال-إي" تدفعنا إلى التفكير حول هذه الأسئلة، وما نقصده بتلك المصطلحات.

وتدرك أوبن أيه آي موقفها بالضبط من هذه المسألة. يقول داريوال: "نحن نسعى إلى بناء ذكاء عام". "ويمثل بناء الأنظمة المشابهة لنظام دال-إي 2، والتي تجمع ما بين الرؤية واللغة، خطوة هامة في سعينا نحو الهدف الأكبر المتمثل بتعليم الآلات فهم العالم كما يفهمه البشر، وتطوير الذكاء الاصطناعي العام في نهاية المطاف".