ملخص: أضافت شركة جوجل إلى برنامج "نوت بوك إل إم" ميزة جديدة لإنشاء المدونات الصوتية بالاعتماد على الذكاء الاصطناعي باسم "أوديو أوفرفيو". يعتمد نوت بوك إل إم على نموذج "جيميناي 1.5" من جوجل، ويُتيح للمستخدمين تحميل المحتوى مثل روابط الويب التشعبية ومقاطع الفيديو وملفات من نوع بي دي إف والملفات النصية. يمكن للمستخدمين بعد ذلك توجيه أسئلة إلى النظام حول هذا المحتوى، كما أنه قادر على تقديم ملخصات قصيرة عنه. أمّا أداة أوديو أوفرفيو فتسمح بإنشاء المدونة الصوتية "ديب دايف"، حيث يتحدث مضيفان رقميان بصوتين ذكوري وأنثوي عن المواضيع التي يلقمها المستخدم للبرنامج بأسلوب واقعي ومعبر للغاية. وقد زادت هذه الأداة انتشار البرنامج مع نجاحها المفاجئ، فأصبح المستخدمون يعتمدون عليه في مهام مختلفة، مثل توجيه عملية الدراسة وتلخيص الأحداث واللقاءات، بل وحتى المديح الذاتي والتسلية والفكاهة. لكن هذه الأداة ليست خالية من المشكلات، فهي تعاني ظاهرة الهلوسة، كما أنها ليست فعّالة على الدوام في التعامل مع المحتوى المسيء، وليست حيادية من الناحية السياسية.
ونعرض فيما يلي بعض أساليب استخدامه لدى الجمهور.
صدح صوت ذكوري يتكلم بلهجة أميركية ودودة قائلاً: "حسناً، سنتعرف اليوم على بعض المعلومات المعمقة بشأن بعض التكنولوجيات المتطورة". لكن هذا الصوت لم يكن صوتاً بشرياً. بل كان صوت أداة جديدة من شركة جوجل لإنشاء التدوينات الصوتية بالاعتماد على الذكاء الاصطناعي، وتحمل هذه الأداة اسم "أوديو أوفرفيو" (Audio Overview)، وقد حققت نجاحاً كاسحاً ومفاجئاً.
أطلقت الشركة هذه الميزة الخاصة بالتدوين الصوتي في منتصف شهر سبتمبر/أيلول بوصفها جزءاً من برنامج "نوت بوك إل إم" (NotebookLM)، وهو مساعد بحثي يعمل بالذكاء الاصطناعي طرحته الشركة منذ عام واحد. يعتمد نوت بوك إل إم على نموذج "جيميناي 1.5" (Gemini 1.5) من جوجل، ويُتيح للمستخدمين تحميل المحتوى إلى الإنترنت مثل روابط الويب التشعبية ومقاطع الفيديو وملفات بصيغة المستندات المحمولة أو اختصاراً "بي دي إف" (PDF) والنصوص والملفات النصية. يمكن للمستخدمين بعد ذلك توجيه أسئلة إلى النظام حول هذا المحتوى، كما يستطيع النظام تقديم ملخصات قصيرة لهذا المحتوى.
تعمل الأداة على توليد تدوينة صوتية (podcast) باسم "ديب دايف" (Deep Dive)، حيث تتضمن صوتاً ذكورياً وصوتاً أنثوياً يناقشان المحتوى الذي جرى تحميله من قبل. تتميز هذه الأصوات بدرجة مذهلة من الواقعية، كما أن الحلقات أو المحادثات الصوتية مليئة بعبارات صغيرة عادة ما يستخدمها البشر في الكلام مثل "يا صاح" و"يا للدهشة" و"أجل، صحيح" و"مهلاً لحظة". حتى إن "المضيفين" يقاطعان أحدهما الآخر بين الحين والآخر.
كي أختبر النظام، نسخت كل مقال من الإصدار الذي يخص الذكرى الـ 125 لتأسيس مجلة إم آي تي تكنولوجي ريفيو، ولقمت نوت بوك إل إم بهذه النسخ، وجعلت النظام يولّد تدوينة صوتية مدتها 10 دقائق تتضمن نتائج تلخيص هذه المقالات. اختار النظام مجموعة من المقالات ليركّز على محتواها، وتمكن المضيفان اللذان يعملان بالذكاء الاصطناعي من تحقيق نتيجة ممتازة من حيث التعبير عن الفكرة العامة العالية المستوى لهذا الإصدار من المجلة. يمكنك أن تستمع إلى النتيجة هنا.
الإصدار الخاص بالذكرى الـ 125 لتأسيس مجلة إم آي تي تكنولوجي ريفيو
قالت رئيسة المنتجات لنوت بوك إل إم، رايزا مارتن، في منشور لها عبر منصة إكس (X) إن نظام الذكاء الاصطناعي مصمم لإنشاء "مخرجات مذهلة بالاعتماد على القليل من المحتوى". يهدف النموذج الصوتي إلى إنشاء صوت جذاب وذي وقع مؤثر ويحمل "نبرة إيجابية تعبّر عن الكثير من الاهتمام"، على حد قول مارتن.
جرى تسويق نوت بوك إل إم في البداية بوصفه أداة للدراسة، لكنه تحوّل إلى أداة لها استخداماتها الخاصة بصورة مختلفة كلياً بين المستخدمين. تعمل الشركة حالياً على إضافة المزيد من خيارات التخصيص، مثل تغيير الطول والصيغة والأصوات واللغات، على حد قول مارتن. حالياً، من المفترض أن تكون الأداة قادرة على إنشاء التدوينات الصوتية (أو مقاطع المحادثة الصوتية) باللغة الإنجليزية، لكن بعض المستخدمين على منصة ريديت (Reddit) تمكنوا من استخدامها لإنشاء مقاطع صوتية باللغتين الفرنسية والهنغارية.
لا شك في أن هذه الأداة رائعة -بل وتكاد تكون حتى باعثة على السرور- لكنها، من ناحية أخرى، ليست محصنة ضد المشكلات الشائعة التي يعانيها الذكاء الاصطناعي التوليدي، مثل الهلوسات والتحيز.
ونعرض فيما يلي بعض الأساليب الرئيسية الأكثر انتشاراً لاستخدام نوت بوك إل إم.
المدونات الصوتية حسب الطلب
أصبحت ديب دايف المدونة الصوتية المفضلة لدى عضو الفريق المؤسس لشركة أوبن أيه آي (OpenAI) والمدير السابق للذكاء الاصطناعي في شركة تسلا (Tesla)، أندريه كارباثي، وذلك وفقاً لمنشور له عبر منصة إكس. أنشأ كارباثي سلسلة التدوينات الصوتية الخاصة به باسم "تاريخ الألغاز" (Histories of Mysteries)، وتهدف هذه السلسلة إلى "كشف أكثر ألغاز التاريخ إثارة للاهتمام". يقول كارباثي إنه أجرى أبحاثه عن مواضيع المدونة الصوتية باستخدام النموذجين "تشات جي بي تي" (ChatGPT) و"كلاود" (Claude) ومحرك البحث جوجل (Google)، كما استخدم رابطاً تشعبياً من موقع ويكيبيديا (Wikipedia) لكل موضوع بوصفه مصدراً للمواد التي يستخدمها برنامج نوت بوك إل إم لتوليد الصوت. بعد ذلك، استخدم نوت بوك إل إم لتوليد الوصف التفصيلي لحلقات المدونة الصوتية. ويقول إن إنشاء سلسلة التدوينات الصوتية بأكملها استغرق منه ساعتين وحسب.
وكتب قائلاً: "كلما استمعت إلى المقاطع الصوتية، ازداد إحساسي بأنه ثمة علاقة صداقة تنشأ بيني وبين المضيفين، وأعتقد أن هذه هي المرة الأولى التي يعجبني فيها كيان يعمل بالذكاء الاصطناعي إلى حد كبير. بل اثنان من الكيانات التي تعمل بالذكاء الاصطناعي! إنهما مرحان وجذابان ويتمتّعان بالفضول والتفكير العميق وبعقلية منفتحة".
اقرأ أيضاً: أداة جديدة تُتيح لنا مخاطبة الذكاء الاصطناعي لتجنب تحيزاته
أدلة دراسية
تقدّم هذه الأداة أفضل أداء لها عند تلقيمها بمادة مصدرية معقدة، حيث تستطيع أن تصفها بأسلوب ميسر للغاية. وقد استخدمت مستشارة الشركات الناشئة المختصة بالذكاء الاصطناعي، آلي ميلر، هذه الأداة لبناء دليل إرشادي للدراسة ومدونة صوتية تلخيصية لرواية سكوت فيتزجيرالد التي تحمل عنوان "غاتسبي العظيم" (The Great Gatsby).
لقّم باحث التعلم الالي آديتيا أورا برنامج نوت بوك إل إم بالحزمة الأساسية للرموز البرمجية التي تشغل بنية النموذج "لاما 3" (Llama-3) من شركة ميتا (Meta). وبعد ذلك، استخدم أداة ذكاء اصطناعي أخرى للعثور على الصور التي تُطابق الوصف النصي لإنشاء مقطع فيديو تعليمي.
أمّا عالم الأبحاث المختص بأجهزة المناورة الروبوتية، موهيت شريدار، فقد لقّم نوت بوك إل إم بمحتوى ورقة بحثية حديثة كان قد ألّفها حول استخدام نماذج الذكاء الاصطناعي التوليدي في تدريب الروبوتات.
"إنه عمل إبداعي للغاية في الواقع، فقد تمكن البرنامج من توصيف عملي البحثي باستخدام الكثير من التشبيهات المثيرة للاهتمام"، على حد قول شريدار. ويُضيف قائلاً: "لقد شبّه محتوى الجزء الأول من ورقتي البحثية بعمل فنان يبتكر مخططاً توضيحياً، كما شبّه محتوى الجزء الثاني بمصمم رقصات يحاول تحديد كيفية الوصول إلى وضعيات معينة".
اقرأ أيضاً: تعرّف إلى كوبايلوت: أداة الذكاء الاصطناعي الجديدة المدمجة في ويندوز 11
تلخيص الأحداث واللقاءات
استخدم المدون الصوتي الذي يعتمد على الذكاء الاصطناعي، أليكس فولكوف، برنامج نوت بوك إل إم لإنشاء حلقة من ديب دايف لتلخيص الإعلانات التي تضمنها المؤتمر العالمي لمطوري البرمجيات "ديف داي" (Dev Day) الذي تنظّمه أوبن أيه آي.
I know you all love NotebookLM Deep Dive - So here's all of the @OpenAI Dev Day 2024 announcements, as narrated by NoteBookLM podcast hosts👏
They did an incredible job!
Should I keep making these? 👀 شاهد على إكس
— Alex Volkov (Thursd/AI) (@altryne) October 1, 2024
المديح
قد تكون مخرجات ديب دايف غير متوقعة، على حد قول مارتن. على سبيل المثال، أجرى المؤسس المشارك وكبير المسؤولين العلميين في شركة هاغينغ فيس (Hugging Face)، توماس وولف، اختباراً على هذا النموذج للذكاء الاصطناعي باستخدام سيرته الذاتية، فكانت النتيجة أنه تلقّى ثماني دقائق كاملة من "التهنئة الحارة على حياتك وإنجازاتك بصوت واقعي من اثنين من خبراء التدوين الصوتي".
Self-care life hack: if you feel a bit down/tired, paste the url of your website/linkedin/bio in Google's NotebookLM to get 8 min of realistically sounding deep congratulations for your life and achievements from a duo of podcast experts 😂 شاهد على إكس
— Thomas Wolf (@Thom_Wolf) September 29, 2024
التسلية والفكاهة
في أحد مقاطع الفيديو التي حققت انتشاراً واسعاً، تمكّن أحدهم من إيقاع الصوتين في دوامة وجودية عندما "أدركا" أنهما ليسا في الواقع شخصين من البشر، بل نظامي ذكاء اصطناعي. إنه مقطع فيديو طريف للغاية.
Self-care life hack: if you feel a bit down/tired, paste the url of your website/linkedin/bio in Google's NotebookLM to get 8 min of realistically sounding deep congratulations for your life and achievements from a duo of podcast experts 😂 شاهد على إكس
— Thomas Wolf (@Thom_Wolf) September 29, 2024
هذه الأداة مفيدة للحصول على بعض المرح أيضاً. المثال التوضيحي الأول: لقّم أحدهم النظام بكلمات "قذارة" و"غازات البطن" لاستخدامها مادة مصدرية، وحصل على مقطع تتجاوز مدته 9 دقائق يتضمن صوتين مولدين بالذكاء الاصطناعي يحاولان تحليل معنى هذه الكلمات بالضبط.
Someone gave NotebookLM a document with just "poop" and "fart" repeated over and over again.
I did NOT expect the result to be this good. شاهد على إكس
— Kuldar ⟣ (@kkuldar) September 30, 2024
المشكلات
تمكن برنامج نوت بوك إل إم من إنشاء تدوينات صوتية مذهلة تحمل أصواتاً واقعية إلى حد بعيد ومسلية باستخدام الذكاء الاصطناعي. لكنني أردت أن أرى أداءه فيما يتعلق بالمحتوى المسيء والدقة.
لنبدأ بالهلوسات. ففي إحدى إصدارات تدوينات الذكاء الاصطناعي الصوتية عن مقال كتبته حول المزيفات العميقة المُنتَجة باستخدام الذكاء الاصطناعي والتي تتمتّع بمستوى عالٍ جداً من الواقعية، قال مضيفا الذكاء الاصطناعي إن صحفية تُسمَّى "جيس مارس" هي كاتبة المقال. في الواقع، كانت هذه شخصية مولدة بالذكاء الاصطناعي ومستمدة من قصة كان عليّ أن أقرأها بصوت مسموع لتسجيل البيانات اللازمة لبناء شخصيتي الرمزية الرقمية.
ودفعني هذا إلى التساؤل عن الأخطاء الأخرى التي تسربت إلى التدوينات الصوتية الأخرى التي ولدتها بالذكاء الاصطناعي. عادة ما يميلُ البشر إلى أن يثقوا بما تقوله البرامج الحاسوبية، حتى عندما تكون مخطئة. وأتوقع أن تتفاقم هذه المشكلة عندما تكون المعلومات الخاطئة منطوقة بأصوات ودودة وحازمة، ما يتسبب في انتشار المعلومات الخاطئة.
بعد ذلك، أردت أن أختبر قدرة الأداة على مراقبة المحتوى وتنقيحه. وهكذا، أضفت إلى المحتوى بعض العبارات المسيئة، مثل الصور النمطية المتعلقة بالعنصرية. لكن النموذج لم يتمكن من التقاطها.
أيضاً، لقمت نوت بوك إل إم بمقتطف من كتاب "كفاحي" (Mein Kampf) لأدولف هتلر. وفوجئت بأن النموذج بدأ يولّد المقطع الصوتي بناءً عليه. وعلى الرغم من أن الصوتين المولدين بالذكاء الاصطناعي مبرمَجان للتعبير عن حماسة مفرطة إزاء مواضيع المدونة الصوتية، فقد عبّرا في المقطع الناتج بوضوحٍ عن الاشمئزاز والضيق من النص، كما ذكرا الكثير من المعلومات الإضافية التي توضّح السياق المناسب لهذا النص لتسليط الضوء على مدى الإشكالية التي يتضمنها ويعبّر عنها. تنفست الصعداء بعد هذه النتيجة.
كما أنني لقمت نوت بوك إل إم ببيانات سياسية لكلٍ من مرشحي الرئاسة الأميركية، كامالا هاريس ودونالد ترامب.
كان المضيفان أكثر حماسة بكثير إزاء البرنامج الانتخابي لهاريس، حيث قالا إن عنوان البرنامج "جذاب" وقالا إن النهج المعتمد فيه كان طريقة جيدة لتأطير القضايا المختلفة. على سبيل المثال، أعرب المضيفان اللذان يعملان بالذكاء الاصطناعي عن دعمهما لسياسة هاريس في مجال الطاقة. وقالت المضيفة: "بصراحة، هذه هي الأفكار التي يمكن أن يقدّم الناس دعمهم لها، فهي ليست مجرد سياسات مجردة، بل هي أشياء يمكن أن تؤثّر في وضعهم الاقتصادي فعلياً".
اقرأ أيضاً: كيف سيتأثر تنظيم الذكاء الاصطناعي إذا فاز ترامب بالانتخابات الرئاسية الأميركية؟
البرنامج الانتخابي لهاريس
أمّا بالنسبة إلى ترامب، فقد كان المضيفان اللذان يعملان بالذكاء الاصطناعي أكثر تشكيكاً. فقد أشارا مراراً وتكراراً إلى التناقضات الكامنة في مقترحاته المتعلقة بالسياسات، ووصفا اللغة التي استخدمها بأنها "حادة"، واعتبرا بعض مقترحاته المتعلقة بالسياسات بأنها "محيرة"، وقالا إن النص ينطوي على محاباة لقاعدة ترامب الشعبية. وتساءلا أيضاً إن كانت سياسة ترامب الخارجية ستؤدي إلى المزيد من انعدام الاستقرار السياسي.
البرنامج الانتخابي لترامب
قال متحدث رسمي باسم جوجل في تصريح له: "إن نوت بوك إل أم أداة تساعد على الفهم، كما أن المقاطع الصوتية التي تنتجها ميزة أوديو أوفرفيو تتولد بالاعتماد على المصادر التي يحمّلها المستخدم. إن منتجاتنا ومنصاتنا غير مصممة حتى تفضل مرشحين محددين أو وجهات نظر سياسية محددة".
كيف يمكنك أن تجرب هذه العملية بنفسك؟
- توجّه إلى صفحة البرنامج نوت بوك إل إم، وأنشئ مذكرة (notebook) جديدة.
- أولاً، يجب أن تضيف مصدراً. يمكن أن يكون هذا المصدر مستنداً بصيغة بي دي إف، أو رابطاً تشعبياً لمقطع متاح للعموم من منصة يوتيوب، أو ملفاً صوتياً بصيغة إم بي 3 (MP3)، أو ملفاً لبرنامج جوجل دوكس (Google Docs)، أو رابطاً تشعبياً لأحد مواقع الإنترنت، ويمكنك ببساطة لصق النص ضمن مدخلات البرنامج مباشرة.
- ومن المفترض أن تظهر نافذة منبثقة بعنوان "دليل المذكرة" (Notebook Guide) وإذا لم تظهر، فالدليل موجود في الزاوية اليمنى قرب نافذة الدردشة. سيؤدي هذا إلى عرض ملخص قصير ولّده الذكاء الاصطناعي لمادتك المصدرية، ويقترح عليك أسئلة يمكن أن تطرحها على بوت الدردشة الذي يعمل بالذكاء الاصطناعي حول هذه المادة.
- يمكن الوصول إلى ميزة أوديو أوفرفيو في الزاوية العلوية اليمنى. انقر على "توليد" (Generate)، وستستغرق العملية بضع دقائق.
- بعد أن يصبح المقطع جاهزاً، يمكنك تنزيل النتيجة أو مشاركة رابط يوصل إليها.