خوارزمية تُطور بوتات ألعاب الفيديو وتدرب السيارات ذاتية القيادة أيضاً

أصبحت سيارات وايمو ذاتية القيادة تمتلك قاسماً مشتركاً مع الأدمغة التي توجه السيارات العادية، وهو أن الذكاء ينتج جزئياً من عملية التطور.

قام مهندسو شركة وايمو بالتعاون مع باحثي ديب مايند المختصة في الذكاء الاصطناعي -وكلتاهما تتبع لشركة ألفابيت- بالبحث عن عملية أكثر فعالية لتدريب ومعايرة خوارزميات الشركة للقيادة الذاتية، ولهذا اعتمدوا على طريقة التدريب المبني على المجموعات الخوارزمية (بي بي تي PBT اختصاراً)، التي طورتها ديب مايند سابقاً من أجل تحسين خوارزميات ألعاب الفيديو. تستوحي بي بي تي طريقة عملها من التطور البيولوجي؛ حيث تسرع اختيار خوارزميات التعلم الآلي والمعاملات المخصصة لمهمة معينة بسحب الرماز البرمجي المرشح من بين "أفضل" العينات -أي الخوارزميات التي تؤدي مهمة معينة بفعالية أكبر- من ضمن كامل مجموعة الخوارزميات.

إن تحسين الخوارزميات بهذه الطريقة قد يؤمن أيضاً أفضلية لوايمو، حيث إن الخوارزميات التي توجه السيارات ذاتية القيادة يجب أن تخضع لإعادة تدريب وإعادة معايرة مع جمع المركبة للمزيد من البيانات ووضعها ضمن مواقع جديدة. وتتسابق العشرات من الشركات لاستعراض أفضل تكنولوجيات القيادة الذاتية على الطرقات الحقيقية، وتدرس وايمو عدة أساليب أخرى لأتمتة وتسريع تطوير خوارزميات التعلم الآلي لديها. وبالفعل، فإن زيادة فعالية أساليب إعادة تدريب الرماز البرمجي للتعلم الآلي يجب أن تسمح بزيادة مرونة الذكاء الاصطناعي واستخدامه في عدة بيئات مختلفة.

ويقول ماثيو ديفين، مدير البنية التحتية للتعلم الآلي في وايمو: "من أهم التحديات التي يواجهها أي شخص يشغّل التعلم الآلي ضمن نظام صناعي هو القدرة على إعادة بناء النظام للاستفادة من رماز برمجي جديد، فنحن بحاجة إلى إعادة تدريب الشبكة وإعادة كتابة الرماز البرمجي باستمرار. وعند إعادة التدريب، قد ترغب بمعايرة معاملاتك".

وتعتمد معظم السيارات الحديثة ذاتية القيادة على تركيبة شديدة التعقيد من الخوارزميات والتكنولوجيات، حيث تعمل عدة خوارزميات تعلم آلي على تحليل بيانات الحساسات لكشف خطوط الطريق والشاخصات المرورية والسيارات الأخرى والمشاة. وتعمل هذه الخوارزميات بالتنسيق مع الرماز البرمجي التقليدي، أو المكتوب يدوياً، للتحكم في السيارة والاستجابة للأحداث المختلفة. ويجب أن يخضع كل إصدار جديد من نظام القيادة الذاتية إلى اختبارات محاكاة شاقة.

وتعتمد السيارات ذاتية القيادة حالياً بشكل خاص على التعلم العميق إلى حد كبير. غير أن بناء شبكة عصبونية عميقة بالمواصفات والمعاملات الصحيحة (أي القيم التي تُدخل ضمن الرماز البرمجي في البداية) أمرٌ أقرب إلى فن صعب؛ فإما أن تُختار الشبكات والمعاملات المرشحة يدوياً، وهو ما يمكن أن يستغرق الكثير من الوقت، أو تُعدل عشوائياً باستخدام الحاسوب، وهو ما يتطلب استطاعة حاسوبية كبيرة.

تقول يوسين (جويس) تشين، وهي مهندسة في البنية التحتية للتعلم الآلي في وايمو: "نقوم في وايمو بتدريب الكثير من الشبكات العصبونية المختلفة، ويمضي الباحثون الكثير من الوقت لدراسة أفضل الطرق لتدريبها. لقد رأينا أن هذه الطريقة قد تلبي حاجاتنا، وقررنا أن نستغل الفرصة دون تأخير".

تقول تشين إن فريقها الآن يستخدم التدريب المبني على المجموعات الخوارزمية لتحسين تطوير الرماز البرمجي للتعلم العميق المستخدم لكشف علامات مجازات الطرق، والسيارات، والمشاة، وتأكيد دقة البيانات المصنفة التي ستُلقَّم لخوارزميات تعلم آلي أخرى. وتضيف أن هذه الطريقة خفضت من الاستطاعة الحاسوبية المطلوبة لإعادة تدريب شبكة عصبونية إلى حوالي النصف، كما ضاعفت سرعة حلقة التطوير مرتين أو ثلاث مرات.

وتعمل جوجل على تطوير مجموعة من التكنولوجيات للمساعدة على أتمتة عملية تدريب نماذج التعلم الآلي، وقدمت بعضاً منها إلى العملاء عبر مشروع يحمل اسم كلاود أوتو إم إل. ولا شك في أن زيادة فعالية تدريب الذكاء الاصطناعي وأتمتته أمر هام يصب في مصلحة الانتشار التجاري لهذه التكنولوجيا وجني الأرباح منها.

يقول أوريول فينيالز، وهو باحث علمي أساسي في ديب مايند، وأحد مبتكري هذه الطريقة، إن فكرة استخدامها في وايمو ظهرت عندما كان يزور ديفين. فقد طورت ديب مايند هذه الطريقة لأول مرة في 2017 لتسريع تدريب الشبكات العصبونية، واستخدمتها لاحقاً لمساعدة الحاسوب على ممارسة لعبة ستاركرافت 2، وهي لعبة فيديو حربية صعبة على وجه الخصوص بالنسبة للآلات. وقد بدأ تعاون ديب مايند مع وايمو قبل أن تنشر بحثها المتعلق بعلبة ستاركرافت في يناير من 2019.

إضافة إلى ذلك، فإن الطبيعة التطورية لهذه الطريقة تسهّل من فهم كيفية تعديل وتحسين خوارزميات التعلم العميق، وذلك وفق مفهوم أقرب إلى شجرة العائلة. يقول فينيالز: "من الأشياء الرائعة أنه يمكنك مشاهدة تطور المعاملات مرئياً. إنها طريقة جيدة حتى تتأكد من أنك تستوعب ما يحدث فعلاً".