مقابلة مع الدكتور نزار حبش حول كيفية مواجهة التحديات التي تعوق تطوير أنظمة ذكاء اصطناعي عربية

بدءاً من القواعد النحوية والصرفية المعقدة والغنية، حتى التنوع الكبير للهجات المستخدمة في مختلف أنحاء المنطقة العربية، تشكّل اللغة العربية تحدياً لأنظمة الذكاء الاصطناعي المدرَّبة بالأساس على اللغات ذات التركيبات الأبسط نسبياً مثل اللغة الإنجليزية. علاوة على ذلك، فإن النقص في بيانات التدريب عالية الجودة باللغة العربية يؤدي إلى تفاقم التحديات ويعوق التدريب الفعّال والضبط الدقيق لنماذج الذكاء الاصطناعي.

ومع بروز منطقة الشرق الأوسط وشمال إفريقيا مركزاً للابتكار التكنولوجي والنمو الاقتصادي، أصبح الطلب على حلول الذكاء الاصطناعي باللغة العربية أكبر من أي وقتٍ مضى. لذلك، تستثمر الكثير من الحكومات والشركات والمؤسسات البحثية موارد كبيرة في تطوير أنظمة ونماذج ذكاء اصطناعي يمكنها معالجة اللغة العربية، مدركة قدرتها على فتح فرص جديدة أمام أكثر من 400 مليون متحدث باللغة العربية والارتقاء بمستوى الابتكار في هذا المجال.

يرى أستاذ علوم الحاسوب في جامعة نيويورك أبوظبي، الدكتور نزار حبش، أن نوعية البيانات المتاحة باللغة العربية أكثر أهمية من محدوديتها عند الحديث عن العقبات التي تواجه تطوير أنظمة ذكاء اصطناعي عربية. كما يشير إلى أن الجهود التي تبذلها دول مثل الإمارات العربية المتحدة والمملكة العربية السعودية هي الطريق الصحيح لتطوير البنية التحتية الضرورية في هذا المجال.

وفي هذه المقابلة، يتحدث حبش، الذي اُختير ضمن قائمة إم آي تي تكنولوجي ريفيو لأبرز خبراء الذكاء الاصطناعي العرب 2022، عن أهم المشروعات التي يعمل عليها حالياً في "مختبر كامل" (CAMeL Lab)، وعن ضرورة النظر إلى تأثير الذكاء الاصطناعي في الوظائف من منظور المهام المتضمنة داخل كل وظيفة، بدلاً من المنظور العام الذي يركّز على أنواع الوظائف المهددة أو تلك التي سيولّدها الذكاء الاصطناعي.

في البداية هل يمكن أن تقدّم لنا نبذة عامة حول أبحاثك أو مشاريعك الحالية في مجال الذكاء الاصطناعي؟

أنا أستاذ في برنامج علوم الحاسوب في جامعة نيويورك أبوظبي، ومدير مختبر الأساليب الحاسوبية لنمذجة اللغة "مختبر كامل"، وهو مختبر يركّز على بناء أنظمة ذكاء اصطناعي متخصصة باللغة العربية. أُنشئ هذا المختبر قبل نحو 10 أعوام تقريباً، ونفّذ العديد من المشروعات. ثمة الكثير لأتحدث عنه، لكني سأركّز هنا على مشروعين نعمل على تنفيذهما حالياً: الأول هو مشروع يختصُّ بالتصحيح الآلي للأخطاء الإملائية والأخطاء اللغوية في اللغة العربية. أمّا المشروع الثاني فيتعلق بتحديد مستوى "الانقرائية" في النصوص العربية، بمعنى تحديد الأعمار والقدرات القرائية المناسبة لقراءة وتعلم نص معين باللغة العربية، بالإضافة إلى العمل على تحويل أو إعادة صياغة الجمل لتسهيل قراءتها.

المشروعات كلها التي نعمل على تنفيذها في المختبر ترتبط ببعضها بعضاً ضمن مجموعة أدوات تُسمَّى أدوات كامل (CAMeL tools). وأحد الأهداف التي نسعى إليها هو أن تكون مشروعات المختبر مفتوحة المصدر بقدر المستطاع؛ وذلك لمساعدة الأشخاص الآخرين العاملين في هذا المجال، وهو أمر عانيته بشكلٍ شخصي عندما بدأت العمل في هذا المجال منذ نحو 20 عاماً. وحتى الآن لا تزال هناك صعوبات أمام الوصول إلى الكثير من البيانات والأدوات ما لم تكن تعمل في جامعة كبيرة تمتلك رخصة لاستخدام هذه الأدوات. لذلك فإن هدفنا هو التغلب على هذا العائق وجعل الأدوات مفتوحة المصدر. وقد نجح هذا الأسلوب بشكلٍ كبير في اللغة الإنجليزية، لذلك فإننا نحاول أن نستخدمه أيضاً في مجال معالجة اللغة العربية.

معظم أنظمة الذكاء الاصطناعي طُوِّرت بالأساس باستخدام بيانات باللغة الإنجليزية ومؤخراً بدأت الشركات الصينية بتطوير نماذج متخصصة في اللغة الصينية، فما أبرز التحديات أمام بناء أنظمة ذكاء اصطناعي تركّز على اللغة العربية؟ هل الأمر يتعلق بمحدودية البيانات أم بتعدد اللهجات أم بمستوى تعقيد اللغة؟

عندما نتحدث عن النماذج الضخمة الموجودة حالياً فإنها عادة ما تستخدم خوارزميات تُقدم على أنها غير مصنفة لخدمة لغة معينة. وثمة باحثون يطرحون تساؤلاً حول ما إذا كانت هذه الخوارزميات صالحة للاستخدام بالفعل مع لغات العالم كلها. ويجب ألّا ننسى أن اللغتين الإنجليزية والصينية هما لغتان بسيطتان من ناحية التصريف. اللغة الصينية لا يوجد فيها تصريف تماماً، بينما اللغة الإنجليزية تصريفها بسيط للغاية مع أن الاشتقاق فيها معقد أكثر من اللغة العربية.

ثمة مشكلات أخرى تتعلق بطبيعة اللغة العربية، منها مثلاً أننا نكتب 98% من الكلمات دون تشكيل، وهو ما يُضيف أحياناً درجة عالية من الالتباس عند القراءة. ومع ذلك، ينبغي الإشارة إلى أن اللغة العربية ليست أصعب اللغات ولا أسهلها، وإنما تقع في الوسط تقريباً من عدة نواحٍ. فمثلاً هناك لغات أخرى أصعب في الإعراب، مثل اللغة الفنلندية. والأمر نفسه بالنسبة لكمية الموارد المتاحة، فاللغة العربية هي إحدى اللغات الست المعتمدة في الأمم المتحدة، وإذا ما قارناها بلغة يتحدث بها عددٌ أكبر من الأشخاص مثل الهندية سنجد أن اللغة العربية تتفوق من ناحية الموارد المتاحة.

تمثّل النقاط التي ذُكِرت في السؤال بالفعل تحديات أمام بناء أنظمة تركّز على معالجة اللغة العربية. لكن من ناحية التعقيد اللغوي، لا أعتقد أنه يمثّل مشكلة كبيرة بالنسبة للغة العربية، باستثناء مشكلة الالتباس في الإملاء. بل إن البعض لا يعتبر هذا الأمر مشكلة من الأساس، لأنه إذا كان الجهاز يخلط بين كلمتين في الكتابة بسبب أن الاختلاف بينها هو في التشكيل فقط، فالقارئ البشري سيفهم المقصود في النهاية.

أمّا محدودية البيانات فعلى الرغم من أنها تمثّل مشكلة كبيرة، فإننا ينبغي ألّا نتحدث عن كمية البيانات وننسى نوعية البيانات نفسها. فمثلاً هناك الكثير من البيانات بلهجات مختلفة لكنها أحياناً تكون في موضوعات لا تمثّل قيمة كبيرة، وفيها قدر كبير من الزيادة والتكرار دون إضافة مهمة.

إحدى المشكلات المرتبطة بنوعية البيانات هي الاختلافات والأخطاء الإملائية في اللغة العربية الفصحى نفسها، الأمر الذي يؤثّر سلباً في قدرة الذكاء الاصطناعي على التعلم منها. لكن أنظمة الذكاء الاصطناعي تتعلم في نهاية المطاف تفادي هذه المشكلات. فمثلاً عندما تلاحظ أن هناك أعداداً كبيرة من الكلمات لا تُستخدم فيها الهمزات في مواضعها الصحيحة، فإنها تستخدم طريقة تشبه طريقة البشر في تخطي هذه الأخطاء وفهم فكرة النص بغض النظر عن الأخطاء، لكن هذا يعني أنك تحتاج إلى بيانات أكثر نسبياً حتى تصل إلى المستوى المطلوب.

من بين الحلول التي ابتُكِرت لحل مشكلة محدودية البيانات، ما لجأ إليه الفريق المطور للنموذج اللغوي الكبير جيس (Jais) في جامعة محمد بن زايد للذكاء الاصطناعي، حيث استخدموا الترجمة الآلية لترجمة كميات كبيرة من البيانات من اللغة الإنجليزية وأضافوها إلى البيانات المستخدمة لتدريب الذكاء الاصطناعي على اللغة العربية. يُطلق على هذا النوع من البيانات اسم البيانات المصطنعة (Synthetic Data)، وهو من الأساليب التي أثبتت جدارتها. لكن إحدى المشكلات الغريبة التي تنتج عن هذا النوع من البيانات هو أنها تؤدي أحياناً إلى عملية نسخ للحضارة الأجنبية أو تخلط بين أفكار متعارضة لحضارات مختلفة.

ولكن بما أن البيانات تعبّر في الغالب عن البيئة التي جاءت منها، فهل يمكن أن تعكس البيانات الموّلّدة بهذا الأسلوب ثقافة مختلفة عن الثقافة السائدة في المنطقة العربية؟

ينبغي أن نفرق هنا بين اللغة والحضارة. فهناك اختلافات بين الأفراد داخل أي مجتمع، سواء كان هذا المجتمع في الولايات المتحدة أو في دولة عربية. هناك مثلاً تباين كبير بين الأشخاص المحافظين والمنفتحين. وعلى الرغم من أن المتوسط العام في منطقتنا مختلف في نواحٍ كالخصوصية مثلاً، فإن الاتجاه الحالي لبناء أنظمة الذكاء الاصطناعي الأساسية هو أن تكون قادرة على إدراك وجود أكثر من طريقة للحياة وأكثر من رأي. وذلك على عكس الأنظمة التي تعمل على تطبيق معين أو لخدمة مجموعة معينة من الأشخاص، ففي هذه الحالة يُضفى الطابع الشخصي عليها وفقاً للغرض منها.

شهدنا خلال السنوات الماضية زيادة كبيرة في الجهود التي تبذلها بعض الدول العربية لا سيما الإمارات العربية المتحدة والمملكة العربية السعودية في مجال الذكاء الاصطناعي، سواء عن طريق إطلاق مبادرات أو إنشاء مؤسسات تعليمية متخصصة، كيف ترى تأثير هذه الجهود في تطوير أنظمة ذكاء اصطناعي أفضل في معالجة وفهم اللغة العربية؟

بالتأكيد، تؤثّر هذه الجهود بشكلٍ إيجابي. عندما تطلع على تاريخ العمل على الذكاء الاصطناعي واللغة العربية، تجد أن البدايات تعود إلى ثمانينيات القرن الماضي، عن طريق شركات مثل شركة صخر وأشخاص مثل الدكتور نبيل علي، وغيرهم من رواد هذا المجال. في المراحل الأولى، كان معظم العمل يتم داخل شركات معينة وبالتأكيد كانت هذه الشركات تسعى إلى حماية ما تبنيه لكي تتمكن من بيع منتجاتها.

عندما نقارن هذا مع ما يحدث حالياً في الإمارات والسعودية، خصوصاً الدعم المالي المقدم من الحكومتين، نجد أن هذا هو الطريق الصحيح فعلاً، لأن هذه الجهود تركّز ببساطة على بناء البنية التحتية. الأمر يشبه إقامة مدينة كبيرة ذات بنايات عالية، هذه المدينة تحتاج في المقام الأول إلى طرق وبنية تحتية، وهذه البنية التحتية يجب أن تُبنى بدعم حكومي وبطريقة حكيمة تركّز على المستقبل، بهدف وضع الأساس الذي ستبني عليه الشركات فيما بعد.

وللعلم فإن الولايات المتحدة استخدمت هذا الأسلوب نفسه، فمنذ انتهاء الحرب العالمية الثانية وخلال الفترة التي تلتها قدّمت الحكومة الأميركية والجيش الأميركي دعماً بمئات الملايين من الدولارات لتطوير هذا المجال. وعلى الرغم من أن هذا الدعم كان على هيئة مشروعات حكومية أو مشروعات لصالح الجيش، فإنها دائماً ما كانت تشترط وجود باحثين وعلماء من شركات وجامعات تعمل في هذا المجال. وبما أن النتائج التي نتوصل إليها تكون مفتوحة المصدر، فقد استخدمت الكثير من الشركات هذه التقنيات فيما بعد أساساً لأعمالها دون حاجة إلى العمل من الصفر في كل مرة.

وهذا هو ما يحدث حالياً في بعض الدول العربية، وأتمنى أن يستمر هذا الفكر الذي يهدف إلى تطوير بنية تحتية تمكّن الشركات من البناء عليها.

أعتقد أن الحديث عن التمويل والدعم ينقلنا إلى مسألة مرتبطة بها، وهي التنسيق بين الباحثين والعلماء الذين يعملون في مجال معالجة اللغة العربية والذكاء الاصطناعي.

من ناحية التنسيق، هناك بالطبع نوع من المنافسة في هذا المجال، لكن هذه المنافسة عندما تحدث بطريقة صحية فإنها تكون مفيدة فعلياً. وعلى المستوى الشخصي، أنا واحد من عددٍ كبيرٍ من الأشخاص الذين يعملون في مجال معالجة اللغة العربية ويقيمون في دول عربية وأجنبية مختلفة. في الكثير من الأحيان نحاول أن ننسق معاً كيفية تقييم طرق أو أبعاد عمل معينة. هذا النوع من التنسيق بدأ بالفعل، لكنه قد يحتاج إلى وقت.

وثمة نقطة يجب أن نذكرها هنا ألَا وهي مسألة تدريب الجيل القادم من الشباب العربي العاملين في هذا المجال. فالظروف التي تمر بها بعض البلدان أحياناً تؤثّر في العاملين في الذكاء الاصطناعي وتدفع الكثيرين منهم للانتقال إلى دول غربية. لذلك فإن مهمة الحكومات هي أن تجد طرقاً لمساعدتهم وجعلهم أكثر اهتماماً بالعودة إلى منطقتنا العربية والعمل على الموضوعات المهمة بالنسبة لنا.

بالحديث عن هذه النقطة، ما النصيحة التي تقدّمها للعلماء أو الباحثين العرب الطموحين في مجال الذكاء الاصطناعي؟

أولاً، بالنسبة للأشخاص المهتمين بالذكاء الاصطناعي بصورة عامة، أعتقد أن نقطة البداية هي الحصول على درجة علمية في مجال مرتبط بعلوم الحاسب أو علوم البيانات. وبعد ذلك، هناك ضرورة لقراءة ومتابعة ما يحدث يومياً في هذه الصناعة. النقطة التالية هي إيجاد طريقة للتواصل مع المختبرات التي تعمل في الذكاء الاصطناعي ومحاولة المشاركة في تجاربها حتى لو بشكلٍ تطوعي، لأن المشروعات التي تُجرى في هذه المختبرات لها فائدة كبرى.

ثانياً، بالنسبة للأشخاص المهتمين بمجال اللغة العربية ومعالجتها، هناك مهمة إضافية ألَا وهي ضرورة فهم اللغة نفسها. الأمر لا يتطلب التعمّق كثيراً في علوم وآداب اللغة، لكن هناك أساسيات لا بُدّ من الاطلاع عليها وفهمها أولاً قبل التخصص في معالجة اللغة العربية. وينبغي أن نذكر أيضاً أن دراسة الذكاء الاصطناعي في حد ذاته ليست شرطاً للبدء، إذ توجد الكثير من المجالات البحثية المتقاربة للغاية، وهناك تواصل مستمر بين الباحثين في هذه المجالات.

سأتحدث من واقع تجربتي الشخصية: بعد دراسة الدكتوراة التي حصلت عليها عام 2003، كان هدفي هو التركيز على اللغة العربية، لكن بسبب عدم وجود ما يكفي من الموارد آنذاك، ركزت على دراسة اللغة الإسبانية، كما عملت على اللغة الصينية كجزء من التدريب. ومع ذلك، فقد كان هذا الأمر مفيداً للغاية فيما بعد عندما بدأت العمل على اللغة العربية، لأن الكثير من الأفكار التي تعلمتها من العمل على هاتين اللغتين بالإضافة إلى اللغة الإنجليزية استخدمتها في مجال اللغة العربية.

أود أيضاً أن أشير إلى وجود مجموعة على الإنترنت تضم أكثر من 800 متخصص وباحث في مختلف جوانب معالجة اللغة الطبيعية العربية، تحت اسم (SIGARAB). وتعقد هذه المجموعة مؤتمراً سنوياً، بالإضافة إلى ورشة عمل إضافية كل عامين. نصيحتي للأشخاص المهتمين بهذا المجال هي الانضمام إلى المجموعة ومتابعة آخر التطورات التي تحدث حالياً، وطرح الأسئلة والاطلاع على ما يدور في أذهان العاملين في هذا القطاع.

وبجانب التعليم، ثمة ضرورة أن يكون لدى المهتم بالذكاء الاصطناعي اطلاع واسع على ما يدور في العالم والمشكلات الاجتماعية التي تعانيها مناطق أخرى غير تلك التي ينتمي إليها، بالإضافة إلى الاطلاع على نظريات أخرى خارج المجال التقني. الفكرة ببساطة هي أنه مع تحول الذكاء الاصطناعي إلى جزء من حياتنا، فإن النظرة الضيقة والمعرفة الضحلة بما يجري تصبح خطراً لأنها تحوّلنا إلى عبيد للنتائج التي تتوصل إليها هذه الأنظمة.

أحد الأمثلة التي يمكن طرحها هنا هو أنه في المستقبل قد يمكن لأي شخص أن يكتب شعراً باللغة الصينية حتى لو لم يكن يفهم حرفاً من هذه اللغة. وبالتالي فإن ما يمكن أن نُطلق عليه خط الأساس قد أصبح مرتفعاً لدرجة تحتم على الشخص أن يفكر فيما يمكن أن يميزه وكيفية استخدام هذه التكنولوجيا لمساعدته.

هناك نقاش دائم بشأن المخاوف من أن يؤدي الذكاء الاصطناعي إلى فقدان الوظائف وتزايد البطالة في مختلف الصناعات، فما رأيك في ذلك؟ وما الوظائف المهددة وتلك التي ستولد بسبب الذكاء الاصطناعي؟

عند الحديث عن هذه النقطة ينبغي ألّا نفكر في الوظيفة نفسها بقدر التفكير في نوعية المهام التي تتضمنها هذه الوظيفة. بعض الوظائف تكون غالبية المهام المتضمنة فيها روتينية ومكررة، فيما تعتمد وظائف أخرى على القدرة على حل المشكلات وفهم الاختلافات السياقية، ولإنجازها تحتاج إلى درجة عالية من التخصص.

قد تختفي نسبة كبيرة من هذه المهام الروتينية المتكررة لأن الأنظمة الميكانيكية الذكية ستتمكن من إنجازها على نحو أسرع من البشر. ومع ذلك، أعتقد أنه في المستقبل المنظور، لن نصل إلى مرحلة يمكن فيها حذف البشر من هذه المعادلة. بالتأكيد سيكون الوجود البشري ضرورياً، لكن أعداد المهام التي كانت تحتاج تاريخياً إلى عدم التفكير كثيراً أو تميلُ إلى التكرار ستقل مع الوقت.

لوهلة، قد يبدو أن هذا التأثير يرتبط بنوعية معينة من الوظائف التي تحتاج إلى عمل ذهني أو تلك التي يقوم بها أصحاب الياقات البيضاء (White-collar Workers)، لكنها في الواقع تتعلق بالوظائف التي تحتاج إلى درجة عالية من الاهتمام بالسياق، لأن الذكاء البشري يمكن أن ينتبه لأشياء لا ترتبط فقط بالبيانات والموارد. وأحد الأمثلة على ذلك وظيفة عامل الكهرباء. فعلى الرغم من أنه يعتبر من أصحاب الياقات الزرقاء (Blue-collar Workers)، فإن مهام عمله معقدة للغاية -لا سيما في المنطقة العربية- لأنه يحتاج إلى درجة عالية من فهم السياق، كما أن الحصول على بيانات لتدريب الذكاء الاصطناعي على مثل هذه المهام ليس سهلاً.

بالإضافة إلى ذلك، لدينا أنواع من الوظائف يصعب على الذكاء الاصطناعي تنفيذها مهما بلغت درجة ذكائه، لأنها تحتاج إلى جوانب أخرى غير البيانات كالمشاعر. وأفضل مثال هو العمل الذي يقوم به الطبيب النفسي. قد تسأل بوت "تشات جي بي تي" مثلاً عن مشكلة خاصة بك فينصحك بعدة خطوات لكي تتمكن من التغلب عليها. لكن إذا كانت لديك مشكلة نفسية فعلية، فستحتاج إلى درجة عالية من الثقة في شخص طبيعي تعرف أنه مر بتجارب بشرية تجعله قادراً على فهم ما تمر به وما تتحدث عنه.

كيف ترى تطور الذكاء الاصطناعي خلال السنوات القليلة القادمة؟ وما التأثير الذي تعتقد أنه سيتركه على المجتمع خلال الفترة القادمة؟

سأتحدث من ناحية الأسلوب البحثي الذي أتبعه. أعتقد أن بناء الأنظمة الضخمة سوف يستمر، لكننا سنصل إلى مرحلة لن نتمكن فيها من بناء أنظمة أكبر لأن كمية الموارد المتاحة لن تزيد بالسرعة نفسها، كما أن الاعتماد على استخدام نتائج الذكاء الاصطناعي كموارد إضافية لتدريب الذكاء الاصطناعي قد يخلق حلقة مفرغة (Feedback Loop). لذلك، فإن الاتجاه الذي سنركّز عليه هو التطبيقات، أي استخدام هذه الأنظمة لتطوير تطبيقات ناجحة تخدم المستهلك.

أنا لست ممن يعتقدون بأننا سنصل إلى مرحلة الذكاء الاصطناعي العام (AGI) خلال السنوات الخمس أو العشر القادمة. وبالمناسبة فإن تاريخ الذكاء الاصطناعي مليء بجملة "خلال السنوات الخمس القادمة"، لكن التوقعات التي تضمنت هذه الجملة لم تكن دقيقة في معظم الأحيان.