ما هو الوضع الصوتي المتقدم في تشات جي بي تي؟ وكيف تستخدمه؟

تقول الشركة إن النسخة المحدّثة تستجيب لمشاعرك ونبرة صوتك وتسمح لك بمقاطعتها في أثناء كلامها.

قررت شركة أوبن أيه آي (OpenAI) أن توسّع نطاق الوصول إلى الوضع الصوتي المتقدم (Advanced Voice Mode)، وهو ميزة في تشات جي بي تي (ChatGPT) تُتيح لك أن تتكلم مع نموذج الذكاء الاصطناعي على نحو أقرب إلى الكلام الطبيعي. يُتيح لك هذا الوضع مقاطعة إجابات النموذج في أثناء كلامه، ويستطيع استشعار مشاعرك وتفسيرها بناءً على نبرة صوتك، وتعديل إجاباته وفقاً لذلك.

لمحت الشركة إلى هذه الميزات في مايو/أيار عندما أعلنت جي بي تي 4 أو (GPT-4o)، غير أنها لم تطلقها حتى يوليو/تموز، وكانت في ذلك الحين متاحة فقط لمجموعة من المستخدمين الذين تلقوا دعوة مباشرة من الشركة لتجربتها. في البداية على الأقل، بدا أنه ثمة بعض المشكلات المتعلقة بالسلامة في النموذج، فقد منحت أوبن أيه آي عدة مراسلين من مجلة وايرد (WIRED) إمكانية الوصول إلى الوضع الصوتي في مايو/أيار، لكن المجلة أوردت أن الشركة "سحبت إمكانية الوصول هذه في صباح اليوم التالي، معللة ذلك بوجود مشكلات تتعلق بالسلامة". أمّا المستخدمون الذين تمكنوا من تجربة الوضع الصوتي، فقد وصف أغلبهم النموذج بأنه أشبه بمساعد صوتي يتميز بدرجة مثيرة للإعجاب من السرعة والديناميكية والواقعية، ما جعل الوصول المحدود إليه مصدراً للإحباط البالغ لدى بعض مستخدمي أوبن أيه آي الآخرين.

أمّا الآن، فهذه هي المرة الأولى التي وعدت فيها أوبن أيه آي بفتح المجال للوصول إلى الوضع الصوتي الجديد أمام شريحة واسعة من المستخدمين، ونقدّم فيما يلي بعض المعلومات المفيدة حول هذه المسألة.

ماذا بإمكان الوضع الصوتي الجديد أن يفعل؟

على الرغم من أن تشات جي بي تي يوفّر حالياً وضعاً صوتياً قياسياً للمستخدمين المشتركين بالخدمة المدفوعة، فإن تفاعلاته قد تكون خرقاء بعض الشيء. فعلى سبيل المثال، لا يمكنك عند استخدام التطبيق المخصص للهاتف الذكي أن تستخدم صوتك لمقاطعة إجابات النموذج، التي غالباً ما تكون طويلة ومسهبة، ولا يمكن فعل ذلك إلّا من خلال نقرة على الشاشة. تتضمن النسخة الجديدة حلاً لهذه المسألة، وتَعِد الشركة بأن هذه النسخة ستعدل إجاباتها بناءً على المشاعر التي تستشعرها في صوتك. على غرار النسخ الأخرى من تشات جي بي تي، يمكن للمستخدمين أيضاً تخصيص الوضع الصوتي من خلال الإيعاز إلى النموذج بتذكر المعلومات الشخصية المتعلقة بهم. يظهر الوضع الجديد أيضاً تحسناً على صعيد نطق الكلمات في اللغات المغايرة للإنجليزية.

وقد نشرت المستثمرة في مجال الذكاء الاصطناعي آلي ميلر عرضاً توضيحياً لهذه الأداة في أغسطس/آب، حيث أبرزت الكثير من نقاط القوة نفسها التي ظهرت في مقاطع الفيديو التي نشرتها أوبن أيه آي، فالنموذج سريع وبارع في تغيير لهجته ونبرته ومحتوى كلامه حتى يتوافق مع احتياجاتك.

I’m testing the new Advanced Voice Mode and I just snorted with laughter.

In a good way.

Watch the whole thing ⬇️ شاهد على إكس

— Allie K. Miller (@alliekmiller) August 2, 2024

يتضمن التحديث أصواتاً جديدة أيضاً. بعد إطلاق جي بي تي 4 أو بفترة قصيرة، تعرضت أوبن أيه آي إلى انتقادات حادة بسبب مقاطع الفيديو للعروض التوضيحية الخاصة بالنموذج، فقد كان الصوت الأنثوي في هذه المقاطع، الذي يحمل اسم "سكاي" (Sky)، شبيهاً بصوت الممثلة سكارليت جوهانسون، التي مثلت دور نظام ذكاء اصطناعي يدخل في علاقة عاطفية في فيلم "هي" (Her). بعد ذلك، أزالت أوبن أيه آي هذا الصوت. والآن، أطلقت الشركة خمسة أصوات جديدة، تحمل الأسماء التالية: "أربور" (Arbor)، "ميبل" (Maple)، "سول" (Sol)، "سبروس" (Spruce)، "فايل" (Vale)، وستكون متاحة في الوضع الصوتي القياسي والوضع الصوتي المتقدم على حد سواء. لم تسنح الفرصة لأي مراسل من مجلة إم آي تي تكنولوجي ريفيو لسماع هذه الأصوات بعد، لكن أوبن أيه آي تقول إنها كوّنت هذه الأصوات من خلال الاستعانة بممثلين صوتيين محترفين من أنحاء العالم كافة. يقول متحدث رسمي باسم الشركة: "أجرينا مقابلات مع العشرات من الممثلين للعثور على أولئك الذين يتمتعون بأصوات جذابة نعتقد أن الناس سيستمتعون بتبادل الحديث معها لساعات متواصلة، فهي أصوات دافئة وودودة وفضولية، وتتميز بدرجة من الغنى في النغمة والنبرة".

اقرأ أيضاً: هل سنقع في حب الروبوتات قريباً كما حدث في فيلم Her؟

مَن يستطيع الوصول إلى هذا الوضع ومتى؟

حالياً، ستُتيح أوبن أيه آي الوصول إلى الوضع الصوتي المتقدم لمستخدمي تشات جي بي تي بلس (ChatGPT Plus)، الذين يدفعون 20 دولاراً شهرياً لقاء استخدام النسخة المدفوعة المميزة، ومستخدمي تشات جي بي تي تيم (ChatGPT Team)، الذين يدفعون 30 دولاراً شهرياً مع حدود أعلى للرسائل. أما المجموعة التي سيتاح لها الوصول إلى هذا الوضع بعد ذلك فتتضمن شريحتي مستخدمي تشات جي بي تي إنتربرايز (ChatGPT Enterprise) ومستخدمي تشات جي بي تي إيديو (ChatGPT Edu). أما التوقيت الدقيق فهو غامض، حيث يقول متحدث رسمي باسم أوبن أيه آي إن الشركة "ستتيح إمكانية الوصول لجميع مستخدمي بلس وتيم بالتدريج، وستُتيح إمكانية الوصول لشرائح مستخدمي إنتربرايز وإيديو بدءاً من الأسبوع المقبل". لم تلتزم الشركة بموعد نهائي محدد لحصول المستخدمين جميعهم في هذه الفئات على إمكانية الوصول إلى الوضع الجديد. تشير رسالة في تطبيق تشات جي بي تي إلى أن الوصول إلى الوضع الجديد سيصبح متاحاً لمستخدمي بلس جميعهم "بحلول نهاية الخريف".

أيضاً، فرضت الشركة بعض القيود الجغرافية، فالميزة الجديدة غير متاحة حتى الآن في الاتحاد الأوروبي والمملكة المتحدة وسويسرا وآيسلندا والنرويج وليختنشتاين،

وليست هناك خطة فورية لإتاحة الوضع الصوتي المتقدم لمَن يستخدمون النسخة المجانية (ما زال الوضع القياسي متاحاً للمستخدمين المشتركين بالخدمة المدفوعة).

ما هي الخطوات التي اتخذتها الشركة لضمان السلامة في هذا الوضع الجديد؟

أشارت الشركة عند الإطلاق الأولي للوضع الجديد في يوليو/تموز، وقد أكدت ثانية هذا الأسبوع، فقد خضع الوضع الصوتي المتقدم لاختبارات سلامة عديدة بإشراف خبراء خارجيين "يبلغ إجمالي اللغات التي يتحدثونها 45 لغة مختلفة، كما يمثلون 29 منطقة جغرافية مختلفة". تشرح وثيقة نتائج تقييم النظام للنموذج جي بي تي 4 أو كيف يتعامل النموذج الأساسي مع مسائل مثل توليد الخطاب العنيف أو الإباحي، وتقليد الأصوات دون موافقة أصحابها، وتوليد المحتوى المحمي بموجب حقوق النشر.

على الرغم من هذا، فإن نماذج أوبن أيه آي ليست مفتوحة المصدر. ومقارنة بالنماذج المفتوحة المصدر، التي تتصف بدرجة أعلى من الشفافية حول بياناتها التدريبية و"أوزان النموذج" التي تنظّم كيفية توليد نظام الذكاء الاصطناعي لإجاباته، فإن تقييم نماذج أوبن أيه آي المغلقة المصدر من حيث السلامة والتحيز والأضرار المحتملة يمثل مهمة أصعب بالنسبة إلى الباحثين المستقلين.