في وقت سابق من هذا الصيف، مشيت عبر البهو الزجاجي لمكتب فاخر في لندن، ثم دخلت المصعد، مشيت بعدها عبر ممر يؤدي إلى غرفة نظيفة مفروشة بالسجاد. كان الضوء الطبيعي يتدفق من خلال نوافذها، وأضفى زوج كبير من أجهزة الإضاءة الشبيهة بالمظلات على الغرفة مزيداً من الإشراق. حاولت ألا أحدق وأنا أتخذ مكاني أمام حامل ثلاثي القوائم مزود بكاميرا كبيرة وجهاز كمبيوتر محمول يعرض جهاز عرض نصي. أخذت نفساً عميقاً وبدأت أقرأ النص.
أنا لست قارئة للأخبار أو ممثلة تجري تجربة أداء لفيلم، بل كنت في زيارة لشركة الذكاء الاصطناعي سينثيزيا لأقدم لها ما تحتاج إليه لإنشاء صورة رمزية فائقة الواقعية لي مولدة بالذكاء الاصطناعي. تعد الشخصيات الرمزية للشركة مقياساً جيداً لمدى التقدم المذهل الذي أحرزته في مجال الذكاء الاصطناعي على مدى السنوات القليلة الماضية، لذا كان ينتابني الفضول لمعرفة مدى دقة أحدث نماذج الذكاء الاصطناعي التي طرحتها الشركة الشهر الماضي في تقليدي.
عندما انطلقت سينثيزيا في عام 2017، كان هدفها الأساسي هو مطابقة نسخ الذكاء الاصطناعي للوجوه البشرية الحقيقية، على سبيل المثال، لاعب كرة القدم السابق ديفيد بيكهام مع أصوات مدبلجة تتحدث بلغات مختلفة. وبعد بضع سنوات، أي في عام 2020، بدأت الشركة تمنح الشركات التي اشتركت في خدماتها فرصة إنشاء عروض فيديو تقديمية احترافية تقدمها نسخ عاملة بالذكاء الاصطناعي من الموظفين أو الممثلين بعد الحصول على موافقتهم. لكن التكنولوجيا لم تكن مثالية، فقد بدت حركات أجساد الشخصيات الرمزية متشنجة وغير طبيعية في بعض الأحيان، وأحياناً كانت لهجاتها غير واضحة، ولم تكن المشاعر التي تشير إليها أصواتها تتطابق دائماً مع تعابير وجوهها.
والآن، حدثت سينثيزيا شخصياتها الرمزية كي تتمتع بتصرفات وحركات أكثر طبيعية، بالإضافة إلى أصوات معبرة تحافظ على لهجة المتحدث على نحو أفضل، ما يجعلها تبدو أكثر شبهاً بالبشر من أي وقت مضى. بالنسبة لعملاء سينثيزيا من الشركات، فإن هذه الشخصيات الرمزية ستقدم عروضاً أكثر سلاسة للنتائج المالية والاتصالات الداخلية وفيديوهات تدريب الموظفين.
لقد وجدت الفيديو الذي يعرض شخصيتي الرمزية مقلقاً بقدر ما هو مثير للإعجاب من الناحية التقنية. إنه متقن بما يكفي ليظهر على أنه تسجيل عالي الوضوح لخطاب مبهج للشركة، وإذا لم تكن تعرفني، فربما تظن أن هذا هو بالضبط ما كان عليه.
يوضح هذا العرض مدى صعوبة التمييز بين المصطنع والحقيقي. وقبل مرور وقت طويل، ستتمكن هذه الشخصيات الرمزية من التحدث إلينا. ولكن إلى أي مدى يمكنها أن تتحسن؟ وما هي تداعيات التفاعل مع نسخ الذكاء الاصطناعي علينا؟
عملية الإنشاء
عندما زارت زميلتي السابقة ميليسا استوديو سينثيزيا في لندن لإنشاء شخصية رمزية لنفسها العام الماضي، كان عليها أن تمر بعملية طويلة من معايرة النظام، وقراءة نص وهي تجسد حالات عاطفية مختلفة، والنطق بالأصوات اللازمة لمساعدة شخصيتها الرمزية على تشكيل الحروف المتحركة والحروف الساكنة. وبينما كنت أقف في الغرفة ذات الإضاءة الساطعة بعد مرور 15 شهراً، شعرت بالارتياح لسماع أن عملية الإنشاء قد جرى تبسيطها على نحو كبير. كان المشرف الفني في سينثيزيا، جوش بيكر-ميندوزا، يشجعني على الإيماء وتحريك يدي كما أفعل في أثناء المحادثة الطبيعية، بينما يحذرني في الوقت نفسه من الحركة المفرطة. كررت كما طلب مني قراءة نص متوهج للغاية مصمم لتشجيعي على التحدث بانفعال وحماس. وبدت النتيجة كما لو أن ستيف جوبز قد بعث من جديد على هيئة امرأة بريطانية شقراء ذات صوت رتيب ومنخفض.
كما أن لهذه العملية تأثيراً مؤسفاً جعلني أبدو موظفة في شركة سينثيزيا، حيث كنت أردد بحماس: "أنا سعيدة للغاية لوجودي معكم اليوم لعرض ما كنا نعمل عليه. نحن على أعتاب الابتكار، والاحتمالات لا حصر لها"، محاولة أن أبدو مفعمة بالحيوية بدلاً من الهوس. وتضيف: "لذا، استعدوا لتكونوا جزءاً من شيء سيجعلكم تدهشون لروعته، فهذه الفرصة ليست كبيرة فحسب، بل هي فرصة هائلة".
بعد ساعة واحدة فحسب، حصل الفريق على اللقطات التي احتاج إليها كلها. بعد أسبوعين، حصلت على شخصيتين رمزيتين لي: إحداهما تعمل بالاعتماد على النموذج السابق إكسبرس-1، والأخرى مصنوعة بالاعتماد على النموذج الأحدث إكسبرس-2. تزعم سينثيزيا أن هذا النموذج الأخير يجعل الكيانات البشرية الاصطناعية للشركة تقدم تجسيداً أكثر حيوية وواقعية للأشخاص الذين صممت على غرارهم، مع إيماءات يدين وحركات وجه وكلام أكثر قدرة على التعبير. يمكنك مشاهدة النتائج بنفسك أدناه.
في العام الماضي، وجدت ميليسا أن شخصيتها الرمزية التي تعتمد على النموذج إكسبرس-1 لا تطابق لهجتها القادمة من الطرف الآخر من المحيط الأطلسي. وكان نطاق انفعالاتها محدوداً أيضاً، فعندما طلبت من شخصيتها الرمزية قراءة نص ما بنبرة غاضبة، بدت متذمرة أكثر من أنها غاضبة. في الأشهر التي تلت ذلك، حسنت سينثيزيا النموذج إكسبرس-1، لكن نسخة شخصيتي الرمزية المصنعة باستخدام التكنولوجيا نفسها ترمش بسرعة ولا تزال تعاني صعوبة في مزامنة حركات الجسم مع الكلام.
على النقيض من ذلك، أنا مندهشة من مدى تشابه شخصيتي الرمزية الجديدة القائمة على النموذج إكسبرس-2 معي: فملامح وجهها تعكس ملامح وجهي تماماً. كما أن صوتها دقيق إلى حد مخيف أيضاً، وعلى الرغم من أنها تحرك يديها أكثر مني، فإن حركات يديها تتوافق عموماً مع ما أقوله.
لكن العلامات الصغيرة التي تشير إلى آثار توليد الذكاء الاصطناعي لا تزال موجودة إذا عرفت أين تنظر. راحتا يدي ورديتان زاهيتان وناعمتان كالمعجون. خصلات شعري تتدلى وهي متماسكة حول كتفي بدلاً من أن تتحرك معي. عيناها تحدقان بنظرة زجاجية ونادراً ما ترمشان. وعلى الرغم من أن الصوت يبدو لي بلا شك، ثمة أمر غريب بعض الشيء في نبرات صوت نسختي الرقمية وأنماط كلامها؛ تنطق شخصيتي الرمزية عبارة "هذا رائع!" بوتيرة عشوائية، قبل أن تعاود استخدام نبرة أكثر هدوءاً.
تقول الباحثة في علم النفس في مرحلة ما بعد الدكتوراة في جامعة هومبولت في برلين التي درست كيفية تفاعل البشر مع الوجوه التي تبدو مولدة باستخدام التزييف العميق، آنا إيزيربيك، إنها غير متأكدة من أنها كانت ستتمكن من التعرف على شخصيتي الرمزية على أنها مزيفة للوهلة الأولى.
لكنها لاحظت في النهاية شيئاً ما غير طبيعي. لا يتعلق الأمر بالتفاصيل الصغيرة التي تكشف الأمر فحسب، كقرطي الثابتين على نحو غريب، والطريقة التي يتحرك بها جسدي أحياناً في شكل رعشات صغيرة ومفاجئة. إنه أمر أعمق من ذلك بكثير، كما أوضحت.
تقول إيزيربيك: "ثمة شيء يبدو فاقداً للروح. أعلم أن الشخصية الرمزية لا تمتلك مشاعر حقيقية، فهي ليست كائناً واعياً. إنها فاقدة للمشاعر". منحتها مشاهدة الفيديو "هذا النوع من الشعور الغريب".
إن نسختي الرقمية، ورد فعل إيزيربيك تجاهها، يجعلانني أتساءل عن مدى الواقعية التي يجب أن تكون عليها هذه الشخصية الرمزية.
أدرك أن شعوري بعدم الارتياح تجاه شخصيتي الرمزية يعود جزئياً إلى أنها تتصرف بطريقة نادراً ما أضطر إليها. فنبرتها الغريبة تتعارض تماماً مع الطريقة التي أتحدث بها عادة؛ فأنا بريطانية ساخرة ومتحمسة للغاية وأجد صعوبة في ضخ الحماس في صوتي حتى عندما أكون متحمسة أو متشوقة حقاً. هذه هي طبيعتي. بالإضافة إلى ذلك، فإن مشاهدة الفيديوهات بصورة متكررة تجعلني أتساءل عما إذا كنت حقاً ألوح بيدي بهذه الطريقة أو أحرك فمي بهذه الطريقة الغريبة. إذا كنت تعتقد أن مواجهتك لوجهك في مكالمة تجريها عبر تطبيق زووم كان أمراً مستغرباً، فانتظر حتى تنظر إلى شخصية رمزية كاملة لك.
عندما انطلقت منصة فيسبوك أول مرة في المملكة المتحدة منذ ما يقرب من 20 عاماً مضت، ظننت أنا وأصدقائي أن تسجيل الدخول غير المشروع إلى حسابات بعضنا بعضاً ونشر تحديثات الحالة الأكثر فظاعة أو إثارة للغضب هو قمة الكوميديا. أتساءل عما إذا كان ما يعادل ذلك قريباً هو جعل الشخصية الرمزية لشخص آخر تقول شيئاً محرجاً حقاً: التعبير عن الدعم لسياسي مخز أو (في حالتي) الاعتراف بإعجابي بموسيقى إد شيران.
يعيد النموذج إكسبرس-2 نمذجة كل شخص تقدمه له الشركة ليصبح متحدثاً محترفاً ومتقناً يتمتع بلغة الجسد التي يتمتع بها مؤد موسيقي يتميز بنشاط مفرط. وعلى الرغم من أن هذا منطقي تماماً بالنسبة لشركة تركز على صناعة مقاطع فيديو لامعة في مجال الأعمال، فإن مشاهدة شخصيتي الرمزية لا تبدو كأنني أشاهد نفسي على الإطلاق. بل تبدو كأنها شيء آخر تماماً.
اقرأ أيضاً: القرين الرقمي: هل يمكن لنسختك المولدة بالذكاء الاصطناعي أن تؤدي عملك حقاً؟
طريقة العمل
يقول أستاذ الذكاء الاصطناعي في كلية إمبيريال كوليدج لندن، بيورن شولر، إن التحدي التقني الحقيقي هذه الأيام لا يتعلق بإنشاء شخصية رمزية تتطابق مع مظهرنا بقدر ما يتعلق بجعلها تحاكي سلوكنا. ويقول: "ثمة الكثير من الأمور التي يجب مراعاتها للحصول على نتيجة متقنة؛ يجب أن يكون لديك الإيماءة الدقيقة المناسبة، ونبرة الصوت الصحيحة، والصوت الصحيح، والكلمة الصحيحة. لا أريد للشخصية العاملة بالذكاء الاصطناعي أن تعبس في اللحظة غير المناسبة، فقد يرسل ذلك رسالة مختلفة تماماً".
ولتحقيق مستوى محسن من الواقعية، طورت سينثيزيا عدداً من نماذج الذكاء الاصطناعي الصوتية والمرئية الجديدة. ابتكر الفريق نموذجاً للاستنساخ الصوتي للحفاظ على لهجة المتحدث البشري ونبرته وتعبيره، على عكس النماذج الصوتية الأخرى، التي يمكن أن تسطح اللهجات المميزة للمتحدثين إلى أصوات ذات نبرة أميركية عامة.
عندما يعمد المستخدم إلى تحميل نص إلى النموذج إكسبرس-1، يحلل نظامه الكلمات لاستنتاج النغمة الصحيحة لاستخدامها. ثم يجري تلقيم هذه المعلومات إلى نموذج انتشار يجعل تعابير وجه الشخصية الرمزية وحركاتها متوافقة مع الكلام.
إلى جانب نموذج الصوت، يستخدم النموذج إكسبرس-2 ثلاثة نماذج أخرى لإنشاء الشخصية الرمزية وتحريكها. يتولى النموذج الأول من بينها توليد إيماءات الشخصية الرمزية كي تترافق مع الكلام المدخل إليه بالاعتماد على نموذج إكسبرس-فويس. ويتولى النموذج الثاني تقييم مدى توافق الصوت المدخل مع الإصدارات المتعددة للحركة المولدة قبل اختيار الأفضل من بينها. ثم يتولى النموذج الثالث والأخير تصيير الشخصية الرمزية بالاعتماد على تلك الحركة المختارة.
نموذج التصيير الثالث هذا أقوى بكثير من سابقه إكسبرس-1. ففي حين أن النموذج السابق كان يحتوي على بضع مئات الملايين من المتغيرات الوسيطة، فإن المتغيرات الوسيطة لنموذج التصيير الخاص بإكسبرس-2 يبلغ عددها بالمليارات. وهذا يعني أن إنشاء الشخصية الرمزية يستغرق وقتاً أقل، على حد قول رئيس قسم البحث والتطوير في سينثيزيا، يوسف علمي مجاتي، الذي يضيف: "عند استخدام النموذج إكسبرس-1، كان يحتاج أولاً إلى رؤية شخص ما يعبر عن مشاعره ليتمكن من تمثيلها. أما الآن، ولأننا دربناه على بيانات أكثر تنوعاً ومجموعات بيانات أكبر بكثير، ومع قدرات حوسبة أكبر بكثير، فإنه يتعلم هذه الارتباطات تلقائياً دون الحاجة إلى رؤيتها.
تضييق "وادي الغريب"
على الرغم من أن الشخصيات الرمزية الشبيهة بالبشر المولدة بالذكاء الاصطناعي موجودة منذ سنوات، فإن الطفرة الأخيرة التي شهدها مجال الذكاء الاصطناعي التوليدي تجعل إنشاء بشر اصطناعيين نابضين بالحياة عملية أسهل وأقل تكلفة على نحو متزايد، وقد بدأ استخدامها بالفعل. ولا تنفرد شركة سينثيزيا وحدها في هذا المجال، فالشركات المتخصصة بإنشاء الشخصيات الرمزية العاملة بالذكاء الاصطناعي مثل يوزو لابز وكريتيفاي وأركدادز وفيديارد تتيح للشركات الأدوات اللازمة لإنشاء مقاطع فيديو بسرعة وتحريرها، وهي فيديوهات يقدمها إما ممثلون عاملون بالذكاء الاصطناعي وإما نسخ اصطناعية من الموظفين، ما يعد بتوفير طرق فعالة من حيث التكلفة لإنشاء إعلانات جذابة يتفاعل معها الجمهور. وبالمثل، ازدادت شعبية النسخ المولدة بالذكاء الاصطناعي من مقدمي البث المباشر في أنحاء الصين كلها في السنوات الأخيرة، ويعود ذلك جزئياً إلى قدرتها على بيع المنتجات على مدار الساعة طوال أيام الأسبوع دون تعب أو الحاجة إلى تلقي أجر.
في الوقت الحالي على الأقل، تركز سينثيزيا بشدة على قطاع الشركات. لكنها لا تستبعد التوسع في قطاعات جديدة مثل الترفيه أو التعليم، على حد قول كبير المسؤولين التقنيين في الشركة، بيتر هيل. وفي خطوة واضحة نحو ذلك، عقدت سينثيزيا مؤخراً شراكة مع شركة جوجل لدمج نموذجها الجديد القوي للفيديو التوليدي "فيو 3" في منصتها، ما يتيح للمستخدمين إنشاء مقاطع فيديو وتضمينها مباشرة في مقاطع الفيديو الخاصة بسينثيزيا. ويشير ذلك إلى أنه في المستقبل، قد يتولى هؤلاء البشر الاصطناعيون الفائقو الواقعية أدواراً رئيسية في عوالم مفصلة مع خلفيات قابلة للتغيير باستمرار.
في الوقت الحاضر، قد يتضمن ذلك، على سبيل المثال، استخدام "فيو 3" لإنشاء فيديو لآلات تجهيز اللحوم، مع وجود شخصية رمزية من سينثيزيا بجانب الآلات تتحدث عن كيفية استخدامها بأمان. لكن الإصدارات المستقبلية من تكنولوجيا سينثيزيا يمكن أن تؤدي إلى إنتاج مقاطع فيديو تعليمية قابلة للتخصيص حسب مستوى معرفة الفرد، على حد قول رئيس الشؤون المؤسسية والسياسات في سينثيزيا، أليكس فويكا. على سبيل المثال، يمكن تعديل مقطع فيديو حول تطور الحياة على الأرض ليلائم من يحملون شهادة في علم الأحياء أو من هم في مرحلة الدراسة الثانوية. ويقول فويكا: "ستكون هذه الطريقة أكثر تفاعلية ومخصصة بدرجة أكبر لتقديم المحتوى، وهو ما يثير حماستي حقاً".
اقرأ أيضاً: لماذا يفشل فيو 3 (3 VEO) في احترام طلبات «دون ترجمة»؟
وفقاً لسينثيزيا، ستكون المحطة التالية، هي الشخصيات الرمزية التي يمكنها التحدث، و"فهم" المحادثات مع المستخدمين والرد في الزمن الحقيقي. تخيل أن لديك تشات جي بي تي، ولكن مع وجود إنسان رقمي نابض بالحياة.
وقد أضافت سينثيزيا بالفعل عنصراً تفاعلياً من خلال السماح للمستخدمين بالنقر على الأسئلة التي تظهر على الشاشة في أثناء الاختبارات التي تقدمها الشخصية الرمزية. لكنها تستكشف أيضاً إمكانية جعلها تفاعلية حقاً: يمكن للمستخدمين في المستقبل أن يطلبوا من الشخصية الرمزية التوقف مؤقتاً والتوسع في فكرة معينة، أو طرح سؤال عليها. يقول علمي مجاتي: "نحن نسعى جاهدين لتقديم أفضل تجربة تعليمية، وهذا يعني من خلال فيديو ممتع ومخصص وتفاعلي. هذا بالنسبة لي هو الجزء المفقود في تجارب التعلم عبر الإنترنت اليوم، وأنا أعلم أننا قريبون جداً من حل هذه المشكلة".
نحن نعلم بالفعل أن البشر يستطيعون -وقد فعلوا ذلك بالفعل- تكوين روابط عاطفية عميقة مع أنظمة الذكاء الاصطناعي، حتى مع بوتات الدردشة النصية البسيطة. يقول الأستاذ المساعد في مختبر الوسائط المتعددة بمعهد ماساتشوستس للتكنولوجيا، بات باتارانوتابورن، إن الجمع بين تكنولوجيا الوكلاء -القادرة بالفعل على تصفح الإنترنت والبرمجة وممارسة ألعاب الفيديو دون إشراف- والوجه البشري الواقعي قد يفسح المجال أمام نوع جديد تماماً من إدمان الذكاء الاصطناعي.
يقول باتارانوتابورن: "إذا جعلت النظام واقعياً للغاية، فقد يبدأ الناس في تكوين أنواع معينة من العلاقات مع هذه الشخصيات. لقد رأينا العديد من الحالات التي حرض فيها رفقاء الذكاء الاصطناعي على سلوكيات خطيرة حتى عندما كانت طريقة التفاعل معها عبر الأوامر النصية. إذا كان الشخصية الرمزية على هيئة بشرية قادرة على التحدث، فسيكون التأثير الإدماني أكبر".
ويوافق شولر على أن الشخصيات الرمزية في المستقبل القريب ستكون محسنة على نحو مثالي لضبط المستويات المتوقعة من العاطفة والجاذبية بحيث يبقى جمهورها البشري متفاعلاً أطول فترة ممكنة. ويقول شولر: "سيكون من الصعب جداً على البشر منافسة الذكاء الاصطناعي المفعم بالجاذبية في المستقبل، فهو حاضر دائماً، ويستمع إليك دائماً، ويتفهمك دائماً. سيغير الذكاء الاصطناعي التواصل البشري كما نعرفه اليوم".
بينما أتوقف مؤقتاً وأعيد تشغيل شخصيتي الرمزية المبنية على النموذج إكسبرس-2، أتخيل أنني أجري محادثات معها؛ هذا المنتج الغريب، المتفائل دائماً والمتاح دائماً، المكون من البكسلات والخوارزميات، والذي يشبهني في الشكل والصوت ولكنه ليس أنا. لم تضحك ريانون الافتراضية أبداً حتى دمعت عيناها، ولم تقع في الحب، ولم تركض في ماراثون، ولم تشاهد غروب الشمس في بلد آخر.
ولكنني أعترف أنها تستطيع تقديم عرض تقديمي رائع عن الأسباب التي تجعل إد شيران أعظم موسيقي خرج من المملكة المتحدة. ولن يعرف سوى أصدقائي المقربين وعائلتي أنها ليست شخصيتي الحقيقية.