استمع أولاً إلى هذا المقطع الصوتي باللغة الإسبانية:
وفيما يلي الترجمة الإنجليزية الصوتية عندما نُدرج المقطع الإسباني الآنف في نظام ترجمة آلية تقليدي:
والآن إليك كيف يبدو المقطع عندما نُدرجه في نظام الترجمة الآلية الجديد الذي طورته شركة جوجل:
صحيح أن النتيجة ليست مثالية، لكنك بلا شك تستطيع إدراك كيف تمكَّن "مُترجم جوجل" من الإبقاء على النبرة والطابع الصوتي للمُتحدث الأصلي. وقد تمكّن "نظام ترجمة جوجل" من القيام بذلك لأنه يحوّل المقطع الصوتي المُدخَل مباشرةً إلى مقطع صوتيّ كنتيجة دون أي خطوات بَيْنِية، وهذا ما لا تقوم به نُظُم الترجمة التقليدية، بل إنها تحوّل الصوت إلى نصّ أولاً، ثم تترجم النص، ومن ثم تؤلّف المقطع الصوتي من الصفر، مما يؤدي إلى الفقدان الكلي لمميزات الصوت الأصلي.
ويتكوّن نظام الترجمة الجديد -المُسمى "ترانسلاتوترون" (Translatotron)- من ثلاثة عناصر، تقوم جميعها بتفحّص المخطط الطيفي لصوت المتحدث الأصلي، حيث يتمثل المخطط الطيفي في صورة للتردّدات التي تظهر أثناء تشغيل الصوت، وغالباً ما تُدعى: "بصمة صوتية" (voiceprint). ويستخدم العنصر الأول شبكةً عصبونية مُدرّبة على التقاط المخطط الطيفي للمقطع الصوتي باللغة المصدر (المُدخَل) ورسم المخطط الطيفي للمقطع الصوتي للغة الهدف (المُخرَج). وبعد ذلك يقوم العنصر الثاني بتحويل ذلك المخطط الطيفي إلى موجة صوتية يُمكن تشغيلها، وعندئذ يقوم العنصر الثالث بإدراج الخصائص الصوتية للمتحدث الأصلي في المقطع الصوتيّ النهائي.
ولا تقتصر هذه الطريقة على إنتاج ترجمات صوتية أكثر دقة لأنها تحتفظ بالأمارات غير اللفظية الهامة فحسب، بل تستطيع -نظرياً- أن تقلل من أخطاء الترجمة أيضاً، وذلك بسبب أن النظام يخفّض خطوات عملية الترجمة إلى عدد أقلّ.
إذن فإن الترجمة تعتبر -بالنسبة لهذا الذكاء الاصطناعي- برهاناً على جدوى النظام وفكرته. ويُذكر أن الباحثين لم يجرّبوا، أثناء إجراء اختباراتهم على النظام الذكي إلا الترجمة من الإسبانية إلى الإنجليزية، وقد تطلبت وحدها إعداد كمٍّ كبير من بيانات التدريب المُنقّحة وعالية الجودة. ومع ذلك تُظهِر النتائج النهائية، مثل المقطع الصوتي أعلاه، إمكانية الاستفادة التجارية من هذا النظام مستقبلاً. وختاماً: إذا كنت تريد الاستماع إلى المزيد من المقاطع المماثلة فزُر هذا الرابط.