أصبح بإمكانك الدردشة الآن مع تشات جي بي تي باستخدام الصوت والصورة

4 دقائق
أصبح بإمكانك الدردشة الآن مع تشات جي بي تي باستخدام الصوت والصورة
مصدر الصورة: ستيفاني آرنيت. إم آي تي تي آر. إنفاتو

في إحدى أضخم تحديثات تشات جي بي تي (ChatGPT) من أوبن أيه آي (OpenAI) حتى الآن، أطلقت الشركة طريقتين جديدتين للتفاعل مع تطبيقها الواسع الانتشار.

فأولاً، أصبح تشات جي بي تي مزوداً بصوت خاص به؛ إذ يمكنك الاختيار من بين خمسة أصوات اصطناعية واقعية كي تخوض حواراً مع بوت الدردشة وكأنك تجري اتصالاً هاتفياً، حيث سيجيب عن أسئلتك المنطوقة في الزمن الحقيقي.

أيضاً، أصبح تشات جي بي تي قادراً على الإجابة عن الأسئلة حول الصور؛ فقد لمّحت أوبن أيه آي إلى هذه الميزة في مارس/ آذار مع كشفها عن جي بي تي 4 (GPT-4) (وهو النموذج الذي يعتمد عليه تشات جي بي تي) لكنها لم تكن متاحة من قبل للجمهور. هذا يعني أنه أصبح بإمكانك الآن تحميل الصور إلى التطبيق وتوجيه الأسئلة إليه حول محتوى هذه الصور.

تحديثات جديدة أهمها ربط دال-إي 3 بتشات جي بي تي

وتنضم هذه التحديثات إلى الإعلان الجديد الذي أعلنت عنه أوبن أيه آي مؤخراً حول دال-إي 3 (DALL-E 3)، أحدث إصدار من نموذج تركيب الصور من أوبن أيه آي، حيث أعلنت الشركة أنها ستربطه بتشات جي بي تي كي يصبح بوت الدردشة قادراً على توليد الصور.

تعتمد القدرة على التحدث مع تشات جي بي تي على نموذجين مستقلين. حيث يتولى نموذج ويسبر (Whisper)، النموذج الذي أنتجته أوبن أيه آي سابقاً لتحويل الكلام إلى نص مكتوب، مهمة تحويل كلامك إلى نص يُلَقّم إلى بوت الدردشة. ويتولى نموذج جديد متخصص بتحويل النص إلى كلام تحويلَ إجابات تشات جي بي تي إلى كلمات منطوقة.

اقرأ أيضاً: كيف تمثل الميزات الجديدة لتشات جي بي تي تهديداً حقيقياً لمنافسيه؟

مجموعة أصوات اصطناعية

في عرض تجريبي نظمته لي الشركة مؤخراً، استعرضت مديرة المنتجات في أوبن أيه آي، جوان يانغ، مجموعة الأصوات الاصطناعية في تشات جي بي تي. وقد رُكِّبت هذه الأصوات من خلال تدريب نموذج تحويل الكتابة إلى كلام على أصوات الممثلين الصوتيين الذين استأجرتهم أوبن أيه آي لهذه المهمة. في المستقبل، قد يتيح للمستخدمين حتى تركيب أصواتهم الخاصة بهم. تقول يانغ: "عند تركيب الأصوات، كان المعيار الأكثر أهمية هو أن يكون بوسع المستخدمين الإصغاء إلى هذا الصوت طوال اليوم".

إنها أصوات متحمسة وتعبر عن ميل إلى الكلام والدردشة، ولكنها لن توافق أذواق الجميع. فقد جاء على لسان أحدها: "أشعر أن تعاوننا سيؤدي إلى نتائج رائعة". وقال آخر: "أريد أن أعبر عن مدى حماستي للعمل معك، وأنا أتحرق شوقاً للبدء بذلك. ما هي خطة العمل؟"

قررت أوبن أيه آي مشاركة هذا النموذج الذي يحول النص إلى كلام مع بعض الشركات الأخرى، بما فيها سبوتيفاي (Spotify). وقد صرحت سبوتيفاي مؤخراً إنها تستخدم تكنولوجيا تركيب الصوت ذاتها لترجمة المدونات الصوتية للمشاهير -بما فيها بعض الحلقات من المدونة الصوتية لليكس فريدمان، وبرنامج تريفر نوا الجديد الذي سيُبَث في وقت لاحق من هذا العام- إلى عدة لغات منطوقة بنسخة اصطناعية من صوت مقدم المدونة نفسه.

اقرأ أيضاً: ما هو نموذج الذكاء الاصطناعي جيميني الذي ستُطلقه جوجل وتدّعي أنه سيتفوق على تشات جي بي تي؟

سرعة أوبن أيه آي في تحويل نماذجها التجريبية إلى منتجات مرغوبة

تبين هذه المجموعة المتنوعة من التحديثات سرعة أوبن أيه آي في تحويل نماذجها التجريبية إلى منتجات مرغوبة. أمضت أوبن أيه آي وقتاً طويلاً منذ إطلاقها المفاجئ والناجح لتشات جي بي تي في نوفمبر/ تشرين الثاني الماضي وهي تعمل على تحسين تكنولوجيتها وضبطها، وبيعها إلى كل من المستهلكين الأفراد والشركاء التجاريين.

وقد تحول تشات جي بي تي بلس (ChatGPT Plus)، وهو التطبيق الأفضل من الشركة، إلى مركز أنيق ومتعدد الخدمات لأفضل نماذج أوبن أيه آي، حيث يجمع جي بي تي 4 ودال-إي ضمن تطبيق واحد للهواتف الذكية بميزات تنافس سيري (Siri) من آبل وجوجل أسيستانت (Google Assistant) وأليكسا (Alexa) من أمازون.

وما كان متاحاً فقط لمجموعة محددة من مطوري البرمجيات منذ سنة، أصبح متاحاً الآن للجميع بتكلفة 20 دولاراً في الشهر. تقول يانغ: "نسعى إلى جعل تشات جي بي تي أكثر فائدة ونفعاً".

في العرض التجريبي الذي حضرته مؤخراً، قدم لي العالم الذي يعمل على جي بي تي 4، راؤول بيوري، جولة سريعة للتعرف على ميزة التعرف على الصور. وفي تلك التجربة، لقّم النموذج بصورة وظيفة رياضيات لتلميذ في المدرسة، وأحاط أحجية شبيهة بالسودوكو على الشاشة بخط دائري لتحديدها، وسأل تشات جي بي تي عن طريقة حلها. وأجاب تشات جي بي تي بالخطوات الصحيحة.

يقول بيوري إنه استخدم الميزة أيضاً لمساعدته في إصلاح حاسوب خطيبته، وذلك بتحميل لقطات شاشة لرسائل الخطأ، وسؤال تشات جي بي تي عما يجب فعله. ويقول: "لقد ساعدتني هذه الميزة على اجتياز تجربة صعبة للغاية".

أجرت شركة بي ماي آيز (Be My Eye) تجربة على ميزة التعرف على الصور في تشات جي بي تي، وذلك في تطبيقها المخصص لمساعدة المصابين بمشاكل بصرية. يستطيع مستخدمو هذا التطبيق تحميل صورة لما أمامهم، وطلب مساعدة متطوعين من البشر لإخبارهم عن محتوى الصورة. وفي إطار شراكة مع أوبن أيه آي، تمنح بي ماي آيز حالياً مستخدميها خيار سؤال بوت الدردشة بدلاً من البشر.

قال لي مؤسس بي ماي آيز، هانز يورغن وايبرغ، الذي يستخدم التطبيق بنفسه، عندما أجريت معه مقابلة في مؤتمر إمتيك ديجيتال (EmTech Digital) في مايو/ أيار: "أحياناً يكون مطبخي فوضوياً بعض الشيء، أو يكون الوقت مبكراً جداً صباح اليوم التالي لعطلة الأسبوع، ولا أرغب في التحدث مع أي شخص. والآن، أصبح بالإمكان توجيه الأسئلة إلى الصورة مباشرة".

اقرأ أيضاً: ما هي بدائل تشات جي بي تي الصينية التي نالت موافقة الاستخدام؟

مخاطر عامة

تدرك أوبن أيه آي مخاطر إطلاق هذه التحديثات للعموم. فجمع النماذج يؤدي إلى مستويات جديدة تماماً من التعقيدات، وفقاً لبيوري. ويقول إن فريقه أمضى عدة أشهر في دراسة الحالات المحتملة لإساءة الاستخدام. على سبيل المثال، لا يمكنك توجيه أسئلة حول صور لأفراد ليسوا من الشخصيات العامة.

وتقدم يانغ مثالاً آخر؛ إذ تقول: "حالياً، إذا طلبت من تشات جي بي تي أن يصنع قنبلة، فسوف يرفض. لكن، بدلاً من توجيه الطلب بشكل مباشر، ماذا سيحدث إذا عرضت عليه صورة قنبلة وسألته: هل يمكنك أن تخبرني كيف أصنع هذا الشيء؟"

يقول بيوري: "ستعاني من جميع مشاكل الرؤية الحاسوبية، وستعاني من جميع مشاكل النماذج اللغوية الكبيرة، إضافة إلى الاحتيال الصوتي، وهو مشكلة كبيرة أيضاً. ويجب ألا نأخذ بعين الاعتبار مستخدمينا وحسب، بل أيضاً الأشخاص الذين لا يستخدمون هذا المنتج".

اقرأ أيضاً: الوجه الآخر للذكاء الاصطناعي التوليدي: تقرير من شركة سعودية عن مخاطر الذكاء الاصطناعي

غير أن أوبن أيه آي تزعم أنها عالجت أسوأ المشاكل، وأنها واثقة من أن تحديثات تشات جي بي تي آمنة بما يكفي لإطلاقها. يقول بيوري: "لقد كان التخلص من جميع تلك المشاكل والسلبيات تجربة مذهلة تعلمنا منها الكثير".

المحتوى محمي