تخيّل أنك ذاهب لتناول العشاء مع مجموعة من الأصدقاء الذين يتنقلون بين لغات مختلفة لا تتحدثها، ولكنك ما تزال قادراً على فهم ما يقولونه. هذا السيناريو هو مصدر إلهام لنظام سماعات رأس جديد يعمل بالذكاء الاصطناعي يترجم كلام عدة متحدثين في وقت واحد وفي الزمن الحقيقي.
يتتبع النظام، الذي يُسمى "سبيشال سبيتش ترانسليشن" (Spatial Speech Translation)، الاتجاه والخصائص الصوتية لكل متحدث، ما يساعد الشخص الذي يرتدي سماعات الرأس على تحديد الشخص المتحدث ومعرفة ما يقوله في بيئة جماعية.
نظام ترجمة يكسر الحواجز بسهولة
يقول الأستاذ في جامعة واشنطن، شيام جولاكوتا، الذي عمل على المشروع: "ثمة الكثير من الأشخاص الأذكياء في أنحاء العالم كافة، ويمنعهم حاجز اللغة من امتلاك الثقة اللازمة للتواصل. أمي لديها أفكار رائعة عندما تتحدث باللغة التيلوغية، ولكن من الصعب عليها التواصل مع الناس في الولايات المتحدة عندما تأتي من الهند لزيارتهم. نحن نعتقد أن هذا النوع من الأنظمة يمكن أن يُحدث تحولاً جذرياً في حياة أمثالها".
على الرغم من وجود الكثير من أنظمة الترجمة المباشرة الأخرى التي تعمل بالذكاء الاصطناعي، مثل النظام الذي يعمل على نظارات راي-بان الذكية من شركة ميتا (Meta’s Ray-Ban)، فهي تركز على متحدث واحد، وليس على عدة أشخاص يتحدثون في وقت واحد، وتقدم ترجمات آلية تبدو كأنها صادرة عن روبوت. النظام الجديد مصمم ليعمل مع سماعات الرأس الحالية الجاهزة التي تعمل على إلغاء الضوضاء والمزودة بميكروفونات، والموصولة بجهاز كمبيوتر محمول يعمل بشريحة إم 2 السيليكونية من شركة آبل (Apple M2)، والتي يمكنها دعم الشبكات العصبونية. الشريحة نفسها موجودة أيضاً في سماعة الرأس آبل فيجن برو (Apple Vision Pro). قُدّم البحث في "مؤتمر جمعية آلات الحوسبة" حول "العوامل البشرية في أنظمة الحوسبة" (ACM CHI) في مدينة يوكوهاما باليابان هذا الشهر.
على مدى السنوات القليلة الماضية، أدت النماذج اللغوية الكبيرة إلى تحسينات كبيرة في ترجمة الكلام. ونتيجة لذلك، أصبحت الترجمة بين اللغات التي يتوفر لها الكثير من بيانات التدريب (مثل اللغات الأربع المستخدمة في هذه الدراسة) قريبة من الكمال على تطبيقات مثل جوجل ترانسليت (Google Translate) أو في نظام الدردشة بالذكاء الاصطناعي التوليدي تشات جي بي تي (ChatGPT). لكنها لا تزال غير سلسة وغير فورية عبر العديد من اللغات. تقول الأستاذة المساعدة في جامعة لايدن (Leiden University) في هولندا، التي تدرس اللغويات الحاسوبية ولم تشارك في المشروع، ألينا كاراكانتا، إن هذا هدف تعمل شركات كثيرة على تحقيقه. وتقول: "أشعر بأن هذا تطبيق مفيد، فهو قادر على مساعدة الناس".
اقرأ أيضاً: التكنولوجيا القابلة للارتداء: إلى أي مدى نقترب من أن نصبح «سايبورغ»؟
الترجمة المكانية
تتكون الترجمة المكانية للكلام من نموذجين من نماذج الذكاء الاصطناعي، يقسم أولهما المساحة المحيطة بالشخص الذي يرتدي سماعات الرأس إلى مناطق صغيرة ويستخدم شبكة عصبونية للبحث عن المتحدثين المحتملين وتحديد اتجاهاتهم.
يتولى النموذج الثاني بعد ذلك ترجمة كلمات المتحدثين من الفرنسية أو الألمانية أو الإسبانية إلى نص إنجليزي باستخدام مجموعات البيانات المتاحة للعموم. يستخرج النموذج نفسه الخصائص الفريدة والنبرة العاطفية لصوت كل متحدث، مثل درجة الصوت وسعته، ويطبق هذه الخصائص على النص، ما يؤدي عملياً إلى إنتاج صوت "مستنسخ". وهذا يعني أنه عند نقل النسخة المترجمة من كلمات المتحدث إلى مرتدي سماعة الرأس بعد بضع ثوانٍ، يبدو الصوت كما لو كان صادراً عن المتحدث، ويبدو الصوت شبيهاً بصوت المتحدث نفسه إلى حد كبير، وليس صوتاً آلياً يشبه صوته، وليس صوت كمبيوتر يتحدث كالروبوت.
يقول باحث ما بعد الدكتوراة في معهد تقنيات اللغة بجامعة كارنيغي ميلون (Carnegie Mellon University’s Language Technologies Institute)، الذي لم يعمل في المشروع، سامويل كورنيل، إنه بالنظر إلى أن فصل الأصوات البشرية أمر صعب بما فيه الكفاية بالنسبة إلى أنظمة الذكاء الاصطناعي، فإن القدرة على دمج هذه القدرة في نظام ترجمة في الزمن الحقيقي، وتعيين المسافة الفاصلة بين مرتدي الجهاز والمتحدث، وتحقيق زمن استجابة مقبول على جهاز حقيقي، أمر مثير للإعجاب.
ويقول: "إن ترجمة الكلام إلى كلام في الزمن الحقيقي أمر صعب للغاية. نتائجها جيدة جداً في بيئات الاختبار ذات المتغيرات المحدودة. لكن بالنسبة إلى منتج حقيقي، سيحتاج المرء إلى المزيد من بيانات التدريب، ربما مع الضوضاء والتسجيلات الواقعية من سماعة الرأس، بدلاً من الاعتماد فقط على البيانات الاصطناعية".
اقرأ أيضاً: 5 طرق تساعد بها التكنولوجيا على تقليل مدة الاجتماعات وجعلها أكثر فاعلية ومتعة
التحدي الأكبر
يركز فريق غولاكوتا الآن على تقليل مقدار الوقت الذي تستغرقه ترجمة الذكاء الاصطناعي بعد أن يقول المتحدث شيئاً ما، ما سيتيح إجراء محادثات تبدو طبيعية بين الأشخاص الذين يتحدثون لغات مختلفة. يقول غولاكوتا: "نريد أن نقلل زمن التأخير إلى حد كبير حتى يصبح أقل من ثانية، حتى تتمكن من الاستمتاع بأجواء المحادثة".
ويظل هذا تحدياً كبيراً، لأن السرعة التي يمكن لنظام الذكاء الاصطناعي أن يترجم بها لغة إلى أخرى تعتمد على بنية اللغات. يقول الباحث في جامعة يوهانس غوتنبرغ (Johannes Gutenberg University) بمدينة ماينتس في ألمانيا، الذي لم يعمل في المشروع، كلاوديو فانتينولي، إن من بين اللغات الثلاث التي دُرب نظام ترجمة الكلام المكاني عليها، سجل النظام أعلى سرعة في الترجمة من اللغة الفرنسية إلى الإنجليزية، تلتها الإسبانية ثم الألمانية، وهو ما يعكس أن اللغة الألمانية، على عكس اللغات الأخرى، تضع أفعال الجملة والكثير من معانيها في النهاية وليس في البداية.
ويحذر فانتينولي من أن تقليل زمن التأخير قد يجعل الترجمات أقل دقة، حيث يقول: "كلما طال انتظارك [قبل الترجمة]، حصلت على سياق أطول، وكانت الترجمة أفضل. إنها عملية تنطوي على الموازنة".