نظام ذكاء اصطناعي من شركة سوني يهزم منافسيه البشر في سباق السيارات

"لحظة، ماذا يحدث؟ وكيف؟" هذا ما قالته سائقة سيارات ألعاب الفيديو إميلي جونز في قرارة نفسها، فهي ليست معتادة على أن تحل بالمراكز الأخيرة في السباقات. وهكذا، قامت هذه السائقة المحترفة والحاصلة على عدة جوائز، بتحريك مقود القيادة في منصة الرياضات الإلكترونية بحدة، مثبتة عينيها على الشاشة. "أنا أندفع بسرعة هائلة فقط لمجاراة هذا البرنامج، كيف يستطيع أن يقود هكذا؟". قالت جونز ذلك فيما كانت الإطارات تسرع على الطريق، فقد انطلقت بسيارتها الافتراضية على المضمار الافتراضي بسرعة 193 كيلومتراً في الساعة، ومن ثم 225 كيلومتراً في الساعة، ومن ثم 241 كيلومتراً في الساعة، وهي تلاحق أسرع سائق في لعبة غران توريزمو (Gran Turismo) في العالم.

أطلقت شركة سوني (Sony) مختبراً بحثياً باسم سوني أيه آي (Sony AI) في عام 2020، وقام المختبر ببناء غران توريزمو صوفي (Gran Turismo Sophy)، وهو برنامج حاسوبي مدرب على التحكم بسيارات السباق في لعبة الفيديو غران توريزمو، المشهورة بمحاكاتها للسيارات ومسارات السباق الحقيقية بواقعية فائقة. وفي سلسلة من الأحداث التي أقيمت ضمن أجواء مغلقة، اختبرت سوني برنامجها في مواجهة أفضل سائقي السيارات الافتراضية المحترفين.

وقد اكتشف المختبر الكثير من الأشياء خلال هذه السباقات ضمن مضمار السباق –وما تبعها لاحقاً- ويمكن لهذه الأشياء أن تساعد في رسم مستقبل الآلات التي تعمل جنباً إلى جنب مع البشر، أو تشاركنا الطرقات.

وفي يوليو/ تموز من عام 2021، لم تكن جونز، التي تسكن في ميلبورن بأستراليا، تدري ما الذي ينتظرها، وهي سائقة تشارك في السباقات لصالح فريق الرياضات الإلكترونية ترانس تاسمان ريسينغ (Trans Tasman Racing). وتقول بعد سنة من هذه المنافسة: "لم يقل لي أحد شيئاً عما سيحدث، وقالوا لي ألا أتدرب وألا أنظر إلى لفات السباق. وفكرت حينها بأن هذه السرية الفائقة تعني أن البرنامج سيكون بارعاً للغاية من دون شك". وفي نهاية المطاف، تمكن جي تي صوفي (وهو الاسم المختصر للبرنامج بالإنجليزية) من تحطيم أفضل زمن لفة حققته جونز بمقدار 1.5 ثانية. وعلى هذا المستوى من اللعب، في حين يتم تحطيم الأرقام القياسية بفوارق لا تتجاوز الميلي ثانية، يمثل الفارق 1.5 ثانية دهراً كاملاً.

ولكن سرعان ما أدركت سوني أن السرعة وحدها لم تكن كافية لكي يحقق جي تي صوفي الفوز. فقد تمكن البرنامج من التفوق على جميع السائقين البشر على مضمار فارغ، وحقق أزمنة لفة خارقة بالنسبة للبشر على جميع المسارات الافتراضية الثلاثة المختلفة. ولكن، عندما اختبرت سوني برنامج جي تي صوفي في سباق مع عدة سائقين بشر، حيث يحتاج الفوز إلى الذكاء بقدر حاجته إلى السرعة، خسر البرنامج. فقد كان البرنامج يقود في بعض الأحيان بعدائية شديدة، متسبباً لنفسه بعقوبات نتيجة القيادة المتهورة، وفي أحيان أخرى، قد كان يقود بخجل، ويفسح المجال للسيارات الأخرى في لحظات لا تتطلب ذلك.

وهكذا، قررت سوني أن تتدارك الأمر، وأعادت تدريب نظام الذكاء الاصطناعي، ونظمت منافسة ثأرية في أكتوبر/ تشرين الأول الماضي. هذه المرة، حقق جي تي صوفي الفوز بسهولة. فما الذي صنع هذا الفارق؟ منحت سوني البرنامج شبكة عصبونية أكبر، ما منح البرنامج المزيد من القدرات التي يستطيع الاستعانة بها لحظة الحاجة إليها. ولكن الفارق الحقيقي كان منح جي تي صوفي شيئاً أطلق عليه مدير سوني أيه آي في أميركا، بيتر وورمان، اسم "الإتيكيت"، أي القدرة على الموازنة بين العدائية واللطافة، واختيار السلوك الأفضل للوضع الحالي.

وهو أيضاً ما يجعل أهمية جي تي صوفي تتجاوز لعبة غران توريزمو. فالسلوكيات المتبادلة بين السائقين على المضمار مثال محدد على السلوك المتغير والذي يعتمد على السياق، والذي يجب أن تعتمد عليه الروبوتات عند تفاعلها مع البشر، كما يقول وورمان.

وسيكون الوعي في اختيار المخاطرة أو الحذر مفيداً للذكاء الاصطناعي القادر على التفاعل مع البشر، هذا سيكون مفيداً على أرض المصنع أو في المنزل أو في السيارات ذاتية القيادة.

يقول وورمان: "لا أعتقد أننا تعلمنا المبادئ العامة حتى الآن، والتي تتمحور حول التعامل مع المعايير البشرية الواجب احترامها. ولكن هذا العمل يمثل خطوة أولى، ونأمل بأن يقدم لنا تصوراً حول المسألة بشكل عام".

عمل مهم للغاية

يمثل جي تي صوفي الحلقة الأحدث في سلسلة من أنظمة الذكاء الاصطناعي التي تغلبت على أفضل البشر في ألعاب مختلفة، بدءاً من الشطرنج وغو وصولاً إلى ألعاب الفيديو مثل ستاركتافت (Starctaft) ودوتا (DOTA). ولكن لعبة غران توريزمو قدمت لسوني تحدياً من نوع جديد. فخلافاً للألعاب الأخرى، خصوصاً التي تعتمد على اللعب بالدور، فإن إتقان غران توريزمو يعني التحكم بالسيارة ضمن الحدود الفيزيائية في الزمن الحقيقي، وعلى مسافة قريبة من لاعبين آخرين يحاولون تحقيق نفس الشيء.

وتندفع السيارات على المنعطفات بسرعة تزيد على 160 كيلومتراً في الساعة، ولا يفصل بينها سوى مسافة قليلة. وعند سرعات كهذه، يكفي ارتكاب أصغر خطأ لوقوع حادث. تعبّر غران توريزمو عن الجوانب الفيزيائية للعالم الحقيقي بدقة هائلة، حيث تقوم بمحاكاة خصائص الانسياب الهوائي للسيارة، واحتكاك عجلاتها على المضمار. بل وتُستخدم هذه اللعبة في بعض الأحيان لتدريب واختيار السائقين للسباقات الحقيقية.

يقول مدير مجموعة الروبوتات والاستشعار في جامعة زوريخ في سويسرا ديفيد سكاراموتزا: "تقدم هذه اللعبة أداءً رائعاً من حيث الواقعية". لم يشارك سكاراموتزا في تصميم جي تي صوفي، ولكن فريقه استخدم غران توريزمو لتدريب نظام للقيادة يعتمد على الذكاء الاصطناعي، ولكن ذاك النظام لم يخضع للاختبار في مواجهة البشر.

لا ينظر جي تي صوفي إلى اللعبة كما يراها البشر. وبدلاً من قراءة البيكسلات على الشاشة، يحصل البرنامج على تحديثات حول مواضع سيارته على المضمار ومواضع السيارات القريبة منه. كما يتلقى أيضاً معلومات حول القوى الفيزيائية الافتراضية التي تتعرض لها سيارته. واستجابة لهذه المعلومات، يقوم جي تي صوفي بتغيير الاتجاه أو الضغط على الفرامل. ويحدث هذا التفاعل ثنائي الاتجاه بين جي تي صوفي واللعبة 10 مرات في الثانية، وهو ما يقول وورمان وزملاؤه إنه يطابق زمن ردة الفعل لدى اللاعبين البشر.

استخدمت سوني التعلم المعزز لتدريب جي تي صوفي بدءاً من الصفر بطريقة التجربة والخطأ. ففي البداية، واجه نظام الذكاء الاصطناعي صعوبة كبيرة في إبقاء السيارة على الطريق. ولكن، وبعد التدرب على عشرة أجهزة بلايستيشن 4، كل منها يقوم بتشغيل 20 نسخة من البرنامج، تمكن جي تي صوفي من مضاهاة الذكاء الاصطناعي الخاص باللعبة، والذي يعتمد عليه اللاعبون الهواة للتدريب، وذلك خلال فترة ثماني ساعات تقريباً. وخلال 24 ساعة، بدأ البرنامج بتحقيق أزمنة لفات تقارب الأرقام القياسية لأبرع اللاعبين في قائمة اللاعبين المتفوقين على الإنترنت، والتي تتضمن 17,700 لاعب.

وقد استمر جي تي صوفي بتحسين أزمنة اللفات بمقدار أجزاء من الثانية طوال تسعة أيام، قبل أن يصل إلى أقل زمن تسمح به قدراته. وبحلول ذلك الوقت، كان قد أصبح أكثر سرعة من أي لاعب محترف.

تعلم نظام الذكاء الاصطناعي من سوني كيفية قيادة السيارة على حدود إمكانات اللعبة، منفذاً حركات لا يستطيع اللاعبون البشر سوى الشعور بالدهشة إزاءها. وقد أصيبت جونز بالذهول على وجه الخصوص من طريقة جي تي صوفي في اجتياز المنعطفات، حيث يستخدم الفرامل مبكراً قبل زيادة السرعة على مسار أقرب إلى الداخل مما اعتادت هي على تنفيذه.

وتقول: "يستخدم البرنامج المنعطفات بطريقة غريبة ويعتمد على حركات لم أفكر حتى فيها". على سبيل المثال، غالباً ما يقوم جي تي صوفي بالسير بعجلة واحدة على العشب في أطراف المسار، وبعد ذلك يجتاز المنعطفات. تقول: "ليس من مصلحتك أن تقوم بهذه الحركة، لأنك سترتكب خطأ ما دون شك، فهي أشبه ما يكون بحادث متعمد. قد أنجح شخصياً في تأدية هذه الحركة مرة واحدة كل مئة محاولة".

لقد تتمكن جي تي صوفي من إتقان التعامل مع الجوانب الفيزيائية للعبة بسرعة. ولكن أكبر مشكلة كانت الحكام. فعلى المستوى الاحترافي، تقوم لجنة من الحكام البشر بمشاهدة سباقات غران توريزمو، وتقوم بفرض نقاط سلبية للقيادة الخطرة. لقد كان تراكم النقاط السلبية سبباً أساسياً في خسارة جي تي صوفي في الجولة الأولى من السباقات في يوليو/ تموز العام الماضي، على الرغم من تفوقه في السرعة على جميع السائقين البشر. وعندما تعلم كيفية تجاوز هذه المشكلة، أحدث فرقاً كبيراً في الأداء.

شرس ولكنه نزيه

كان وورمان يعمل على جي تي صوفي منذ عدة سنوات. وهناك لوحة معلقة على الجدار خلف مكتبه لسيارتين تتنازعان للحصول على مركز متقدم. "إنها سيارة جي تي صوفي وهي تتجاوز ياماناكا"، كما يقول وورمان، مشيراً إلى تومواكي ياماناكا، وهو أحد سائقي السباقات الافتراضية اليابانيين المحترفين الأربعة الذين تسابقوا مع جي تي صوفي في السنة الماضية.

ولا يستطيع وورمان تذكر السباق الذي التقطت فيه هذه الصورة. فإذا كانت الصورة مأخوذة من سباقات أكتوبر/ تشرين الأول، فمن المرجح أن ياماناكا كان يمضي وقتاً ممتعاً وهو يتسابق بأقصى قدراته ضد خصم شرس ولكنه نزيه. أما إذا كانت مأخوذة من سباقات يوليو/ تموز، فمن المرجح أنه كان يكيل الشتائم للحاسوب.

وقد أخبرني زميل ياماناكا في الفريق، تاكوما ميازونو، ما حدث في سباق يوليو/ تموز، وذلك عبر مترجم. ويقول: "لقد تعرضنا بضع مرات للدفع إلى خارج المضمار بسبب عدائية البرنامج في القيادة عند دخول المنعطفات. وهو ما أدى إلى إرباكنا. وقد اضطر السائقون البشر لتخفيف السرعة عند المنعطفات لتفادي الخروج من الطريق".

يقول وورمان إن تدريب الذكاء الاصطناعي على اللعب بطريقة نزيهة دون خسارة أفضليته التنافسية لم يكن بالأمر السهل. فالحكام البشر يطلقون أحكاماً ذاتية تعتمد على السياق، ما يزيد من صعوبة نمذجة قراراتهم على شكل أفعال ممنوعة ومسموحة يستطيع الذكاء الاصطناعي التعلم منها.

وقد حاول باحثو سوني منح الذكاء الاصطناعي الكثير من الدلالات المختلفة، وعدلوها أثناء العمل على أمل العثور على تركيبة ناجحة. فقد جربوا معاقبته على الخروج عن الطريق أو الاصطدام بالجدران. كما عاقبوه على الحوادث التي تسبب بها، وعلى الحوادث التي لا يمكن تحديد قرار الحكم فيها. كما أجروا التجارب على مستويات متعددة من العقوبات لكل من هذه الأفعال، ودرسوا كيفية تأثيرها على قيادة جي تي صوفي.

أيضاً، رفعت سوني من مستوى المنافسة التي واجهها جي تي صوفي في أثناء التدريب. فمن قبل، كان البرنامج يتدرب في أغلب الأحيان ضد إصدارات سابقة من نفسه. ولكن في الفترة السابقة للجولة الثانية في أكتوبر/ تشرين الأول، قامت سوني باختبار نظامها كل أسبوع أو كل أسبوعين في مواجهة مع سائقين محترفين، مع مواصلة إجراء التعديلات. ويقول وورمان: "لقد تمكنا بهذه الطريقة من الحصول على الملاحظات المطلوبة للعثور على التوازن الصحيح بين العدائية والجبن".

وقد نجحت هذه الطريقة. فعندما خاض ميازونو سباقاً ضد جي تي صوفي، بعد ثلاثة أشهر، وجد أن العدائية قد اختفت، ولكن نظام الذكاء الاصطناعي توقف أيضاً عن التراجع ببساطة. ويقول: "عند دخول السيارات في المنعطف جنباً إلى جنب، سيترك لك مساحة تكفي لمرور سيارتك وحسب. وهو ما يجعلك تشعر فعلاً بأنك تتسابق مع شخص حقيقي آخر".

ويضيف: "إن القيادة ضد شيء يتفاعل معك بهذه الطريقة تمنحك نوعاً مختلفاً من الشغف والتسلية. لقد تركت هذه المنافسة انطباعاً كبيراً في ذهني".

أما سكاراموتزا، فينظر بإعجاب إلى عمل سوني. ويقول: "نحن نقيس تقدم الروبوتات مقارنة بما يستطيع البشر القيام به". ولكن إيليا كوفمان، والذي يعمل مع سكاراموتزا في جامعة زيوريخ، يشير إلى أن الباحثين البشر هم من يختارون نسخة سلوكيات جي تي صوفي المكتسبة التي يعملون عليها خلال التدريب. ويقول: "يعود تحديد أسلوب التسابق الجيد أو التسابق السيئ إليهم. وسيكون من المثير للاهتمام رؤية ما إذا كان بالإمكان القيام بهذا بشكل مؤتمت". ولن تتمتع آلة كهذه بسلوكيات جيدة وحسب، بل ستكون قادرة أيضاً على تمييز السلوكيات الجيدة، وتكييف سلوكها وفق أي محيط جديد.

يقوم فريق سكاراموتزا الآن بتطبيق بحثه الخاص بغران توريزمو على سباقات الطائرات المسيرة في العالم الحقيقي، حيث يقومون بتدريب الذكاء الاصطناعي على الطيران باستخدام مدخلات من مقاطع فيديو حقيقية، بدلاً من بيانات ناجمة عن عملية محاكاة. ومنذ فترة قصيرة، قاموا بدعوة بطلين عالميين في سباقات الطائرات المسيرة لمنافسة الحاسوب. وكما هو متوقع، فقد تفوق الحاسوب عليهما. يقول سكاراموتزا: "لقد كان من المثير للاهتمام رؤية ملامح وجهيهما بعد رؤيتهما لأداء نظام الذكاء الاصطناعي. لقد أصيبا بالذهول".

يعتقد سكاراموتزا إن الانتقال إلى العالم الحقيقي أمر في غاية الأهمية لتحقيق التقدم في الروبوتات. ويقول: "سيبقى هناك على الدوام فرق بين المحاكاة والعالم الحقيقي. وهو ما يميل البعض إلى نسيانه عند التحدث عن إنجازات كبيرة للذكاء الاصطناعي. فهذا صحيح من وجهة نظر استراتيجية". ولكن من وجهة نظر الاستخدام في العالم الحقيقي، فما زلنا في حاجة إلى الكثير من العمل دون شك".

في الوقت الحالي، ما زالت سوني تقتصر في عملها على الألعاب. فهي تخطط لوضع جي تي صوفي في إصدار لاحق من غران توريزمو. يقول المدير التنفيذي لسوني أيه آي في أميركا، بيتر ستون: "نرغب بأن يصبح هذا النظام جزءاً من المنتج. فسوني شركة ترفيهية، ونرغب بأن نجعل هذه اللعبة أكثر ترفيهاً".

تعتقد جونز أن أوساط السباقات الافتراضية يمكن أن تتعلم الكثير من جي تي صوفي ما إن يتاح للمزيد من الأشخاص مراقبة البرنامج وهو يقود. وتقول: "هناك الكثير من مسارات السباق التي كنا نقود عليها بطريقة محددة، والتي يمكن أن يقود البرنامج عليها بطريقة مختلفة تؤدي إلى سرعة أكبر". يقول ميازونو إنه حاول تقليد بعض المسارات التي يتخذها نظام الذكاء الاصطناعي في جوار المنعطفات، بعدما رأى أن هذا أمر ممكن.

تقول جونز: "إذا تغير معيار التفوق، فسوف يدفع هذا بالجميع إلى رفع مستواهم أيضاً".