جولة داخل عالم الذكاء الاصطناعي ورؤية إبداعه الفني والمرعب

في الفترة الماضية، قمنا بتوضيح أساسيات الذكاء الاصطناعي. لنستذكر بعض المعلومات الهامة بسرعة:

معظم تطورات وتطبيقات الذكاء الاصطناعي مبنية على نوع من الخوارزميات يعرف باسم خوارزميات التعلم الآلي، وهو الذي يقوم بكشف الأنماط في البيانات وإعادة تطبيقها.
يعتمد التعلم العميق -وهو أحد أهم أنواع التعلم الآلي- على الشبكات العصبونية لإيجاد وتضخيم الأنماط مهما كانت صغيرة.
الشبكات العصبونية هي طبقات من العُقَد الحاسوبية البسيطة التي تعمل بشكل مشترك لتحليل البيانات، بشكل مشابه للعصبونات في الدماغ البشري.

والآن، يمكن أن نبدأ بالجزء المسلي فعلاً، حيث إن استخدام شبكة عصبونية واحدة أمر رائع لتعلم الأنماط، غير أن استخدام اثنتين رائع أيضاً لابتكارها، وإذا استطعت فعل ذلك فأهلاً بك في العالم السحري والمرعب للشبكات التوليدية التنافسية، التي تعرف اختصاراً باسم GAN.

يبدو أن الشبكات التوليدية التنافسية تمر حالياً بمرحلة من التأثير الثقافي، فهي مسؤولة عن أول قطعة فنية للذكاء الاصطناعي قامت دار كريستي للمزادات العلنية ببيعها، إضافة إلى فئة جديدة من الصور الرقمية المزيفة المعروفة باسم: الصور عميقة التزييف.

ويكمن السر في طريقة عمل شبكتين عصبونيتين معاً، أو بالأحرى: عملهما ضد بعضهما البعض. ويبدأ العمل بتلقيم كلتا الشبكتين كمية كبيرة من بيانات التدريب وإعطاء كل منهما مهمة مستقلة؛ حيث تقوم الشبكة الأولى -المعروفة باسم: المولِّد- بإنتاج خرج مصطنع، مثل الكتابة بخط اليد أو الفيديوهات أو الأصوات، وذلك بدراسة بيانات التدريب ومحاولة تقليدها. أما الشبكة الأخرى -المعروفة باسم الحكم- فتقوم بتحديد ما إذا كان الخرج حقيقياً عن طريق مقارنته في كل مرة مع نفس بيانات التدريب. وفي كل مرة تنجح فيها الشبكة الحكم برفض خرج الشبكة المولد، تعود الشبكة المولد إلى المحاولة مرة أخرى.

ويمكن فهم الموضوع بشكل جيد بالاستعانة بتشبيه زميلي مارتن جايلز، الذي قال إن العملية "تشبه التجاذب بين مختص بالتزييف الفني ومدقق فني يحاولان -بشكل متواصل- التفوق على بعضهما البعض". وفي نهاية المطاف، تصبح الشبكة الحكم غير قادرة على التمييز بين الخرج وبيانات التدريب، أي أن المحاكاة أصبحت مماثلة للواقع.

يمكنك إذن أن ترى بسهولة أن عالم الشبكات التوليدية التنافسية يحمل مقادير متساوية من الجمال والقباحة؛ فمن ناحيةٍ يمكن للقدرة على محاكاة الميديا وغيرها من أنماط البيانات أن يتم استخدامها في تعديل الصور وتحريكها، وفي الطب (مثل تحسين نوعية الصور الطبية، والتغلب على مشكلة ندرة بيانات المرضى)، كما أنها تجلب أيضاً ابتكارات مبهجة مثل هذا:

#BigGAN is so much fun. I stumbled upon a (circular) direction in latent space that makes party parrots, as well as other party animals: pic.twitter.com/zU1mCh9UBe

— Phillip Isola (@phillip_isola) November 25, 2018

وهذا:

ولكن من ناحية أخرى، يمكن استخدام الشبكات التوليدية التنافسية بأساليب مرفوضة أخلاقياً، بل خطيرة، وذلك مثلاً بتركيب وجوه المشاهير على أجساد ممثلين إباحيين، أو جعل باراك أوباما مثلاً يقول أي شيء تريده، أو تزوير بصمة الإصبع أو غيرها من بيانات القياسات الحيوية لأي شخص، وهي قدرة بيَّنها باحثون في جامعة نيويورك وجامعة ميشيغان الحكومية ضمن هذا البحث.

ومن حسن الحظ، ما زالت الشبكات العصبونية التنافسية تعاني من بعض القيود الكفيلة بلجم خطرها، حيث إنها تحتاج إلى قوة حوسبة ضخمة وبيانات متقاربة لإنتاج شيء قابل للتصديق فعلياً. وعلى سبيل المثال: إذا أردنا إنتاج صورة ضفدع، فإن النظام سيحتاج إلى المئات من صور الضفادع من نوع معين، ويفضَّل أن تكون الصور بنفس الاتجاه أيضاً. وبدون هذه المواصفات المحددة، فقد تحصل على بعض النتائج الغريبة، مثل هذا المخلوق الذي يبدو خارجاً للتو من فيلم رعب:

ok these #BIGGAN results are incredible. #nature should take a hint. eyes distributed around the head is a winner #BIGGAN pic.twitter.com/hJBb3fUQ78

— Memo @ Neurips (@memotv) September 30, 2018

(من حسن حظك أنني لم أُرِك صورة العناكب)

ولكن الخبراء يخشون من أن هذه ليست سوى البداية، ومع تحسُّن الخوارزميات ستصبح الفيديوهات المليئة بالأخطاء والحيوانات المشوهة شيئاً من الماضي. وكما قال هاني فريد (وهو أخصائي بتحليل الصور الرقمية)، فنحن لسنا مستعدين على الإطلاق للتعامل مع هذه المشكلة.