أصدرت شركة أوبن أيه آي (OpenAI) مولّد صور جديداً مصمماً بحيث تتوافق مخرجاته مع فن الذكاء الاصطناعي السريالي النموذجي بدرجة أقل، مع السماح في الوقت نفسه بإنشاء أعمال بصرية عملية ويمكن التحكم فيها إلى حد كبير، وهي علامة تشير إلى أن أوبن أيه آي تعتقد أن أدواتها جاهزة للاستخدام في مجالات مثل الإعلان وتصميم الرسوم المصورة (graphic design).
وعدت أوبن أيه آي في مايو/أيار الماضي بإطلاق مولّد الصور، الذي أصبح الآن جزءاً من النموذج "جي بي تي 4 أو" (GPT-4o) الخاص بها، ولكنه لم يصدر. حيث كان مولد الصور الأقدم الذي يسمى دال إي (DALL-E) يتولى تلبية طلبات إنشاء الصور المقدمة إلى تشات جي بي تي (ChatGPT). ومنذ ذلك الحين، تُجري أوبن أيه آي تعديلات على النموذج الجديد، وقررت إصداره بدءاً من 25 مارس/آذار وعلى مدار الأسابيع التالية، لمستويات المستخدمين كلها، ليحل محل النموذج القديم.
اقرأ أيضاً: لماذا ينبغي لك الحذر عند إنشاء الصور بأسلوب غيبلي على تشات جي بي تي؟
نموذج ناجح فيما فشلت فيه نماذج أخرى
يُحرز النموذج الجديد تقدماً في حل المشكلات التقنية التي عانتها مولدات صور الذكاء الاصطناعي لسنوات. مع أن غالبيتها كانت بارعة في إنشاء صور خيالية أو مزيفات عميقة واقعية، لكنها كانت سيئة للغاية فيما يسمى الربط، الذي يشير إلى القدرة على تحديد أجسام معينة بصورة صحيحة ووضعها في مكانها الصحيح (مثل لافتة مكتوب عليها "هوت دوغ" موضوعة بطريقة صحيحة فوق عربة طعام، وليس في مكان آخر في الصورة).
منذ بضع سنوات فقط بدأت النماذج تحقق نجاحاً في أشياء مثل "ضع المكعب الأحمر فوق المكعب الأزرق"، وهي ميزة ضرورية لأي استخدام احترافي إبداعي للذكاء الاصطناعي. تعاني المولدات أيضاً في توليد النصوص، وعادةً ما تُنشئ مجموعات مشوهة من أشكال الحروف التي تبدو أشبه ما تكون بأشكال حروف التحقق (Captcha) أكثر منها بنصوص مقروءة.
عيّنة الصور السابقة من أوبن أيه آي تُظهر مدى التقدم الذي حققه النموذج الجديد، فهذا النموذج قادر على توليد 12 رسماً منفصلاً داخل صورة واحدة -مثل رمز تعبيري للقطط أو صاعقة البرق- ووضعها وفق الترتيب الصحيح. وثمة صورة أخرى تُظهر 4 مشروبات مختلطة (كوكتيلات) مصحوبة ببطاقات وصفات تحتوي على نص دقيق ومقروء. وثمة المزيد من الصور التي تُظهر قصصاً هزلية مصورة مع فقاعات نصية وإعلانات وهمية ومخططات تعليمية. يتيح لك النموذج أيضاً تحميل الصور إلى الموقع لتعديلها، وسيكون متاحاً في مولّد الفيديو سورا (Sora) وكذلك في جي بي تي 4 أو.
اقرأ أيضاً: جوجل ديب مايند تطلق أداة لإضافة العلامات المائية إلى الصور المولدة بالذكاء الاصطناعي
أداة جديدة للتواصل
يقول غابي غو، المصمم الرئيسي للمولد في أوبن أيه آي، إنه "أداة جديدة للتواصل". ويوضح الباحث في أوبن أيه آي الذي عمل على الأداة أيضاً، كينجي هاتا، الأمر بطريقة مختلفة: "أعتقد أن الفكرة كلها هي أننا نبتعد عن الفن الجميل". ويضيف أن الأداة لا تزال قادرة على ذلك، لكنها ستنفذ مهام أكثر فائدة أيضاً. يقول هاتا: "يمكنك بالفعل الحصول على صور مفيدة بالنسبة لك، وليس مجرد النظر إليها فقط".
إنها إشارة واضحة إلى أن أوبن أيه آي تهيئ الأداة لتلبي استخدامات المحترفين المبدعين بدرجة أكبر، مثل مصممي الرسوم المصورة أو وكالات الإعلانات أو مدراء وسائل التواصل الاجتماعي أو الرسامين. ولكن مع دخول أوبن أيه آي هذا المجال، بات أمامها مساران، كلاهما صعب.
الخيار الأول، هو أن بإمكانها أن تستهدف المحترفين المهرة الذين يستخدمون برامج مثل أدوبي فوتوشوب (Adobe Photoshop) منذ فترة طويلة، التي هي أيضاً تستثمر بقوة في أدوات الذكاء الاصطناعي التي يمكنها ملء الصور بالذكاء الاصطناعي التوليدي.
يقول المؤسس المشارك والرئيس التنفيذي للتكنولوجيا في شركة إريفيرنت لابز (Irreverent Labs)، التي تعمل على توليد الفيديو بالذكاء الاصطناعي، ديفيد راسكينو: "تسيطر أدوبي حقاً على هذه السوق، وهي تتحرك بسرعة كافية لدرجة أنني لا أعرف كيف يمكن للمستخدمين الاقتناع بالبحث عن بديل لمنتجاتها".
والخيار الثاني هو استهداف المصممين العاديين الذين توافدوا على أدوات مثل كانفا (Canva)، (التي تستثمر أيضاً في الذكاء الاصطناعي). هذا هو الجمهور الذي ربما لم يكن يوماً في حاجة إلى برامج تتطلب الكثير من المتطلبات التقنية مثل فوتوشوب (Photoshop)، ولكنه سيستخدم أدوات تصميم أقل احترافية لإنشاء صور مرئية. ولتحقيق النجاح في هذا المجال، سيتعين على أوبن أيه آي جذب المستخدمين بعيداً عن المنصات المصممة لأغراض التصميم على أمل أن سرعة مولد الصور الخاص بها وجودته سيجعلان من فكرة الاستعاضة به عن تلك المنصات أمراً مجدياً (على الأقل في تنفيذ جزء من عملية التصميم).
من الممكن أيضاً للناس أن يلجؤوا إلى استخدام الأداة ببساطة كما هي الحال مع العديد من مولدات الصور الآن: لإنشاء صور سريعة "جيدة بما فيه الكفاية" لتكون جزءاً مرافقاً من منشورات وسائل التواصل الاجتماعي. ولكن مع تخطيط أوبن أيه آي لإجراء استثمارات ضخمة، بما في ذلك المشاركة في مشروع ستارغيت (Stargate) بقيمة 500 مليار دولار لبناء مراكز بيانات جديدة على نطاق غير مسبوق، يصعب تخيل أن مولد الصور لن يؤدي دوراً طموحاً في تحقيق الأرباح.
على أي حال، فإنّ تجاوز مولد الصور الجديد الخاص بأوبن أيه آي عقباتٍ تقنيةً بارزة، رفع سقف التوقعات لشركات الذكاء الاصطناعي الأخرى. يقول راسكينو إن تخطي تلك العقبات تطلّب على الأرجح الكثير من البيانات المحددة للغاية، مثل ملايين الصور التي يُعرض فيها النص بطريقة صحيحة وفق الكثير من الزوايا والاتجاهات المختلفة. والآن سيتعين على مولدات الصور المتنافسة مجاراة هذه الإنجازات لمواكبة التقدم الذي تحقق.
يقول راسكينو: "يجب أن تزداد وتيرة الابتكار في هذه الناحية".