كيف ستتأثر الموسيقى بالذكاء الاصطناعي في المستقبل القريب؟

لم تكن عبارة "الذكاء الاصطناعي" مصطلحاً معروفاً تماماً عام 1956 عندما وصل كبار العلماء في مجال الحوسبة إلى كلية دارتموث لحضور مؤتمر صيفي. كان عالم الحاسوب جون مكارثي هو مَن صاغ العبارة في مقترح تمويل هذا الحدث، وهو تجمّع للعمل على كيفية بناء آلات قادرة على استخدام اللغة وحل المشاكل مثل البشر وتطوير نفسها. لكنه كان اختياراً موفقاً، إذ جسد الفكرة التأسيسية للمنظمين: أي سمة من سمات الذكاء البشري يمكن "من حيث المبدأ وصفها بدقة بالغة، بحيث يمكن صُنع آلة لمحاكاتها".

سردت مجموعة العلماء في مقترحها هذا عدة "جوانب لمشكلة الذكاء الاصطناعي"، وكان البند الأخير في قائمتهم، الذي ربما كان الأصعب في نظرهم، هو بناء آلة قادرة على إظهار الإبداع والأصالة.

في ذلك الوقت، كان علماء النفس يكافحون بشأن كيفية تعريف الإبداع لدى البشر وقياسه. كانت النظرية السائدة -التي تفيد بأن الإبداع هو نتاج الذكاء ومعدل الذكاء المرتفع- تتلاشى، لكن علماء النفس لم يكونوا متأكدين مما يمكن أن يحل محلها. كان لدى منظمي دارتموث نظرية خاصة بهم، فقد كتبوا قائلين: "يكمن الفرق بين التفكير الإبداعي والتفكير المختص غير الإبداعي في ضخ بعض العشوائية"، مضيفين أن هذه العشوائية "يجب أن تكون موجهة بالحدس كي تكون فعالة".

وبعد مرور ما يقرب من 70 عاماً، وبعد عدد من دورات الازدهار والكساد في هذا المجال، أصبح لدينا الآن نماذج ذكاء اصطناعي تتبع هذه الوصفة بشكل أو بآخر. في حين أن النماذج اللغوية الكبيرة التي تولّد النصوص قد انتشرت في السنوات الثلاث الماضية، فإن نوعاً مختلفاً من الذكاء الاصطناعي، يعتمد على ما يسمى بنماذج الانتشار (Diffusion Models)، له تأثير غير مسبوق في المجالات الإبداعية. من خلال تحويل الضجيج العشوائي إلى أنماط متماسكة، يمكن لنماذج الانتشار توليد صور أو مقاطع فيديو أو نصوص جديدة، مسترشدة بالأوامر النصية أو بيانات إدخال أخرى. يمكن لأفضل هذه النماذج أن تنتج مخرجات لا يمكن تمييزها عن عمل البشر، بالإضافة إلى نتائج غريبة وسريالية تبدو غير بشرية على الإطلاق.

الموسيقى: مجال إبداعي سيواجه رياح تغيير الذكاء الاصطناعي

والآن، تتجه هذه النماذج إلى مجال إبداعي يمكن القول إنه أكثر عرضة للتغيير من أي مجال آخر: الموسيقى. فالأعمال الإبداعية التي يولّدها الذكاء الاصطناعي -من عروض الأوركسترا إلى موسيقى الهيفي ميتال- تستعد لتغمر حياتنا على نحو أشمل من أي منتج آخر للذكاء الاصطناعي حتى الآن. من المرجّح أن تندمج الأغاني في منصات البث وقوائم تشغيل الحفلات بمختلف أنواعها والموسيقى التصويرية وغيرها، سواء لاحظنا أو لم نلحظ من (أو ما الذي) صنعها.

على مدى سنوات، أثارت نماذج الانتشار جدلاً في عالم الفنون البصرية بشأن ماهية ما تنتجه: هل يعكس إبداعاً حقيقياً أم هو مجرد استنساخ؟ والآن جاء هذا الجدل ليشمل الموسيقى، ذلك الفن المتأصل بعمق في تجاربنا وذكرياتنا وحياتنا الاجتماعية. يمكن للنماذج الموسيقية الآن إنشاء أغانٍ قادرة على إثارة استجابات عاطفية حقيقية، ما يقدم مثالاً صارخاً على مدى صعوبة تعريف التأليف والأصالة في عصر الذكاء الاصطناعي.

تكافح المحاكم جاهدة في هذا المجال الغامض. حيث تقاضي كبرى شركات التسجيلات الموسيقية الشركات المالكة لأبرز أنظمة الذكاء الاصطناعي المولدة للموسيقى، زاعمةً أن ما تفعله نماذج النشر لا يتجاوز حدّ استنساخ الفن البشري دون تعويض الفنانين. وترد الشركات الصانعة للنماذج بأن أدواتها مصممة للمساعدة في الإبداع البشري.

بغية تحديد الجهة المحقة، نحن مجبرون على التفكير ملياً في إبداعنا البشري. هل الإبداع، سواء في الشبكات العصبونية الاصطناعية أو الشبكات البيولوجية، هو مجرد نتيجة تعلم إحصائي واسع وروابط مستقاة منه، مع قليل من العشوائية؟ إذا كان الأمر كذلك، فإن التأليف مفهوم زلق وغامض. وإن لم يكن الأمر كذلك -إذا كان هناك عنصر بشري مميز في الإبداع- فما هو؟ ماذا يعني أن يحرك مشاعرك شيء ما دون أن يكون من صنع البشر؟ كان عليّ أن أتصارع مع هذه الأسئلة في المرة الأولى التي سمعت فيها أغنية رائعة حقاً من إنتاج الذكاء الاصطناعي، كان من المقلق معرفة أن أحدهم كتب مجرد أمر نصي وضغط على زر "إنشاء" (Generate). ستجد نفسك في مأزق كهذا قريباً أيضاً.

إجراء الاتصالات

بعد مؤتمر دارتموث، انطلق المشاركون فيه في اتجاهات بحثية مختلفة لابتكار التقنيات التي شكلت أساساً للذكاء الاصطناعي. وفي الوقت نفسه، كان علماء الإدراك يتابعون دعوة من رئيس جمعية علم النفس الأميركية، في عام 1950، ج. ب. غيلفورد، لمعالجة مسألة الإبداع لدى البشر. وتوصلوا إلى تعريف، صاغه عالم النفس موريس شتاين أول مرة عام 1953 في مجلة علم النفس (Journal of Psychology): الأعمال الإبداعية هي أعمال جديدة؛ أي إنها تقدّم شيئاً جديداً، ومفيدة؛ أي إنها تخدم غرضاً ما ينشده شخص ما. وقد دعا البعض إلى الاستعاضة عن كلمة "مفيدة" بكلمة "مُرضية"، ودعا آخرون إلى معيار ثالث: أن تكون الأعمال الإبداعية مفاجئة أيضاً.

في وقتٍ لاحق، في تسعينيات القرن الماضي، أتاح ظهور التصوير بالرنين المغناطيسي الوظيفي إمكانية دراسة المزيد من الآليات العصبية الكامنة وراء الإبداع في العديد من المجالات، بما في ذلك الموسيقى. إضافة إلى أن الأساليب الحاسوبية في السنوات القليلة الماضية جعلت من السهل أيضاً تحديد الدور الذي يؤديه كل من الذاكرة والتفكير الترابطي في القرارات الإبداعية.

ما ظهر لا يرقى إلى نظرية موحدة شاملة لكيفية نشأة الفكرة الإبداعية وتطورها في الدماغ، بل أقرب إلى قائمة متزايدة من الملاحظات القوية. يمكننا أولاً تقسيم العملية الإبداعية البشرية إلى مراحل، بما في ذلك خطوة تكوين الأفكار أو الاقتراح، تليها خطوة أكثر اهتماماً بالنقد والتقييم تبحث عن الجدارة في الأفكار. وتسمى النظرية الرائدة حول ما يوجه هاتين المرحلتين بالنظرية الترابطية للإبداع (The Associative Theory Of Creativity)، التي تفترض أن الأشخاص الأكثر إبداعاً يمكنهم تكوين روابط جديدة بين المفاهيم المتباعدة.

يقول الباحث الذي يقود مختبر علم الأعصاب الإدراكي للإبداع في جامعة ولاية بنسلفانيا، روجر بيتي: "قد يكون الأمر أشبه ما يكون بالتنشيط المنتشر. أنت تفكر في شيء واحد؛ وهو ينشط ببساطة المفاهيم المرتبطة به، أياً كان ذلك المفهوم".

وغالباً ما تتوقف هذه الروابط على الذاكرة الدلالية تحديداً، التي تخزن المفاهيم والحقائق، على عكس الذاكرة العرَضية التي تخزن الذكريات من زمان ومكان معينين. وفي الآونة الأخيرة، استُخدمت نماذج حاسوبية أكثر تطوراً لدراسة الكيفية التي يربط بها الأشخاص بين المفاهيم التي تفصل بينها "مسافات دلالية" شاسعة. على سبيل المثال، يرتبط مصطلح "نهاية العالم" ارتباطاً وثيقاً بالطاقة النووية أكثر من ارتباطه بالاحتفال. وقد أظهرت الدراسات أن الأشخاص المبدعين للغاية قد ينظرون إلى المفاهيم المختلفة الشديدة الاختلاف دلالياً على أنها متقاربة جداً. وقد وُجد أن الفنانين يولّدون ارتباطات بين الكلمات التي تفصل بينها مسافات دلالية أكبر من المسافات الدلالية الفاصلة في حالة الأشخاص غير الفنانين.

وقد دعمت أبحاث أخرى فكرة أن الأشخاص المبدعين لديهم انتباه "متسرب"، أي إنهم غالباً ما يلاحظون معلومات قد لا تكون ذات صلة محددة بمهمتهم المباشرة.

لا تشير الأساليب العلمية العصبية لتقييم هذه العمليات إلى أن الإبداع يتكشف في منطقة معينة من الدماغ. فقد كتب الرائد في أبحاث الإبداع، دين كيث سيمونتون، في دليل كامبريدج لعلم الأعصاب للإبداع: "لا شيء في الدماغ ينتج الإبداع مثل إفراز الغدة للهرمون".

يقول بيتي إن الأدلة تشير بدلاً من ذلك إلى وجود بضع شبكات متفرقة من النشاط في أثناء التفكير الإبداعي، إحداها لدعم التوليد الأولي للأفكار من خلال التفكير الترابطي، وأخرى لتحديد الأفكار الواعدة، وثالثة للتقييم والتعديل. تشير دراسة جديدة، قادها باحثون في كلية الطب بجامعة هارفارد ونُشرت في فبراير/شباط، إلى أن الإبداع قد ينطوي حتى على قمع شبكات دماغية معينة، مثل تلك المرتبطة بالرقابة الذاتية.

حتى الآن، يبدو الإبداع الآلي -إذا كان بإمكانك تسميته كذلك- مختلفاً تماماً. على الرغم من أن باحثي الذكاء الاصطناعي في وقت انعقاد مؤتمر دارتموث كانوا مهتمين بالآلات المستوحاة من العقول البشرية، فإن هذا التركيز قد تغير مع اختراع نماذج الانتشار، قبل نحو عقد من الزمن.

أفضل دليل على كيفية عمل هذه النماذج، يكمن في اسمها. إذا غمست فرشاة رسم محملة بالحبر الأحمر في وعاء زجاجي من الماء، سينتشر الحبر ويدور في الماء بصورة تبدو عشوائية، ما ينتج عنه في النهاية سائل وردي باهت. تحاكي نماذج الانتشار هذه العملية بأسلوب معاكس، حيث تعيد بناء أشكال مقروءة من العشوائية.

لفهم آلية عمل هذه النماذج في حالة الصور، تخيل صورة فيل. لتدريب النموذج، انسخ الصورة، وأضف فوقها طبقة عشوائية تتضمن توزعاً ثابتاً من اللونين الأبيض والأسود. ثم اصنع نسخة ثانية وأضف المزيد، وأضف طبقة أخرى على هذا المنوال مئات المرات حتى تصبح الصورة الأخيرة ثابتة تماماً، دون أن يظهر أي أثر للفيل فيها. بالنسبة لكل صورة بين الصور التي أضفتها، يتنبأ نموذج إحصائي بكمية الضجيج (التشويش) في الصورة وكمية البيانات التي تعبر عن الفيل الحقيقي. ثم يقارن تخميناته بالإجابات الصحيحة ويتعلم من أخطائه. وعلى مدى الملايين من هذه الأمثلة، تتحسن قدرة النموذج على "إزالة الضجيج" من الصور وربط هذه الأنماط بأوصاف مثل "ذكر فيل بورنيو في حقل مفتوح" (Male Borneo Elephant In An Open Field).

بعد الانتهاء من تدريبه، يتطلب توليد صورة جديدة عكس هذه العملية. إذا أعطيتَ النموذج أمراً نصياً، مثل "قرد أورانغوتان سعيد في غابة مليئة بالطحالب" (A Happy Orangutan In A Mossy Forest)، فإنه يولد صورة من الضجيج الأبيض العشوائي ويعمل بصورة عكسية، باستخدام نموذجه الإحصائي لإزالة أجزاء من الضجيج خطوة تلو الأخرى. في البداية، تظهر أشكال وألوان تقريبية، ثم يأتي دور التفاصيل بعد ذلك، وأخيراً (إذا نجح الأمر) يظهر قرد الأورانغوتان، ويحدث كل ذلك دون أن "يعرف" النموذج ما هو قرد الأورانغوتان.

الصور الموسيقية

يطبق نموذج الانتشار النهج نفسه مع الموسيقى. فهو لا "يؤلف" الأغنية كما تفعل الفرقة الموسيقية، بدءاً من أوتار البيانو وإضافة الأصوات والطبول، بل ينشئ العناصر كلها دفعة واحدة. تعتمد هذه العملية على إمكانية تصوير التعقيدات العديدة للأغنية بصرياً في شكل موجي منفرد، حيث تقابل سعة الموجة الصوتية المرسومة الزمن.

لنتخيل مشغل الأسطوانات. تتحرك الإبرة على طول أخدود في قطعة من الفينيل، فتعكس مسار الموجات الصوتية المحفورة في المادة وتنقلها إلى مكبر الصوت في شكل إشارة فيزيائية. فيدفع مكبر الصوت الهواء وفق الأنماط التي تتضمنها الإشارة، ما يولد موجات صوتية تبوح بمكنونات الأغنية بأكملها.

قد يبدو الشكل الموجي من بعيد كما لو أنه يتبع صوت الأغنية فقط، ولكن إذا كبرت الرسم البياني للشكل الموجي بما فيه الكفاية، يمكنك أن ترى أنماطاً في الارتفاعات والهبوطات، مثل 49 موجة في الثانية الواحدة لغيتار البيس الذي يصدر نغمة G المنخفضة. يحتوي الشكل الموجي على مجموع ترددات الآلات الموسيقية المختلفة كلها. يقول المؤسس المشارك لشركة أوديو (Udio) المختصة بتوليد الموسيقى بمساعدة الذكاء الاصطناعي، ديفيد دينغ: "ترى أشكالاً معينة تبدأ بالظهور، وهذا يتوافق نوعاً ما مع المعنى الواسع لمفهوم الألحان".

وبما أنه يمكن التعامل مع الأشكال الموجية أو المخططات المماثلة التي تسمى المخططات الطيفية مثل الصور، يمكنك إنشاء نموذج انتشار منها. يُلقّم النموذج بملايين المقاطع من الأغاني الموجودة، كل منها موسوم بوصف معين. لتوليد أغنية جديدة، يبدأ النموذج بضجيج عشوائي خالص، ثم يعمل بصورة عكسية لإنشاء شكل موجي جديد. ويتشكل المسار الذي يسلكه لفعل ذلك من خلال الكلمات التي يُدخلها شخص ما في الأمر النصي.

عمل دينغ في جوجل ديب مايند مدة خمس سنوات بصفته مهندس أبحاث رئيسياً في مجال نماذج الانتشار للصور ومقاطع الفيديو، لكنه تركها ليؤسس شركة أوديو، التي مقرها في مدينة نيويورك، عام 2023. وتتصدر الشركة ومنافستها سونو (Suno)، التي مقرها في مدينة كامبريدج بولاية ماساتشوستس، السباق الآن في مجال نماذج توليد الموسيقى. تهدف كلتاهما إلى بناء أدوات الذكاء الاصطناعي التي تمكّن الأشخاص غير الموسيقيين من تأليف الموسيقى. وتعد سونو أكبر حجماً، إذ يبلغ عدد مستخدميها أكثر من 12 مليون مستخدم، وقد جمعت مبلغاً قدره 125 مليون دولار عبر جولة تمويلية في مايو/أيار من عام 2024، وقد دخلت في شراكة مع فنانين من بينهم تيمبالاند. وجمعت أوديو مبلغاً قدره 10 ملايين دولار عبر جولة تمويلية أولية في أبريل/نيسان من عام 2024 شملت مستثمرين بارزين مثل أندريسن هورويتز بالإضافة إلى الموسيقيين ويل.آي.آم وكومون.

تشير نتائج أوديو وسونو حتى الآن إلى وجود جمهور كبير من الأشخاص الذين قد لا يكترثون إن كانت الموسيقى التي يستمعون إليها من صنع البشر أو الآلات.

توفر سونو صفحات فنية لصانعي المحتوى الموسيقي -وبعضهم لديه عدد كبير من المتابعين- الذين ينتجون الأغاني بالكامل باستخدام الذكاء الاصطناعي، وغالباً ما تكون مصحوبة بصور للفنان مولدة بالذكاء الاصطناعي. صانعو المحتوى الموسيقي هؤلاء ليسوا موسيقيين بالمعنى التقليدي، بل هم أشخاص يتمتعون بمهارة إعداد الأوامر النصية، وينتجون أعمالاً لا يمكن أن تُنسب إلى ملحن أو مغنٍّ واحد. في هذا المجال الناشئ، تتلاشى تقريباً تعريفاتنا المعتادة للتأليف، والحدود الفاصلة التي نعرفها بين الإبداع والتقليد.

يُقاوم قطاع الموسيقى هذا التوجه. فقد رفعت شركات التسجيلات الكبرى في يونيو/حزيران من عام 2024 دعاوى قضائية ضد الشركتين، ولا تزال هذه الدعاوى مستمرة. تزعم الشركات، بما في ذلك يونيفرسال (Universal) وسوني، أن نماذج الذكاء الاصطناعي قد دُربت على مقطوعات موسيقية محمية بموجب حقوق التأليف والنشر "على نطاق يصعب تصوره" وهي تُنتج أغاني "تقلد صفات التسجيلات الصوتية البشرية الأصلية" (على سبيل المثال: تستشهد القضية المرفوعة ضد شركة سونو بأغنية مشابهة لإحدى أغاني فرقة آبا [ABBA] الموسيقية السويدية تحمل اسم "الملكة المتبخترة" [Prancing Queen]).

لم تستجب سونو لطلبات التعليق على الدعوى القضائية، ولكن الرئيس التنفيذي، ميكي شولمان، قال في بيان للرد على القضية نُشر على مدونة سونو في أغسطس/آب من العام الماضي، إن الشركة تتدرب على المقطوعات الموسيقية المتاحة على الإنترنت المفتوح، والتي "تحتوي بالفعل على مواد محمية بموجب حقوق التأليف والنشر"، لكنه قال مدافعاً إن "التعلّم ليس انتهاكاً".

وصرّح ممثل عن أوديو بأن الشركة لن تعلق على الدعاوى القضائية المعلقة. في وقت رفع الدعاوى، أصدرت أوديو بياناً أشارت فيه إلى أن نموذجها يحتوي على مرشحات لضمان "عدم إعادة إنتاج أعمال أو أصوات فنانين محمية بموجب حقوق التأليف والنشر".

وما يزيد الأمور تعقيداً هو التوجيهات الصادرة عن مكتب حقوق التأليف والنشر في الولايات المتحدة، والتي صدرت في يناير/كانون الثاني، والتي تنصُّ على أن الأعمال المنتجة بواسطة الذكاء الاصطناعي يمكن أن تكون محمية بموجب حقوق التأليف والنشر إذا كانت تتضمن قدراً كبيراً من المدخلات البشرية. وبعد ذلك بشهر، حصل فنان في نيويورك على حقوق التأليف والنشر لعمل فني بصري مصمم بمساعدة الذكاء الاصطناعي، ريما تكون الأولى من نوعها. وقد نشهد في الفترة المقبلة أول أغنية تحصل على حقوق التأليف والنشر.

الحداثة والتقليد

يجري خوض هذه القضايا القانونية في منطقة رمادية مشابهة لتلك التي استكشفتها معارك قضائية أخرى تتضح ملامحها في مجال الذكاء الاصطناعي. وتتمحور القضية المطروحة هنا حول اثنين من الأسئلة: أولهما، هل تدريب نماذج الذكاء الاصطناعي على محتوى محمي بموجب حقوق التأليف والنشر مسموح به؟ وثانيهما، هل الأغاني المولدة بالذكاء الاصطناعي تقلد أسلوب الفنان البشري بطريقة عادلة؟

لكن من المرجح أن تنتشر موسيقى الذكاء الاصطناعي بطريقة ما بغض النظر عن قرارات المحكمة هذه؛ فقد أفادت التقارير أن مسؤولي منصة يوتيوب يجرون محادثات مع شركات كبرى لترخيص محتوى المنصة الموسيقي لتدريب الذكاء الاصطناعي عليه، ويشير توسيع شركة ميتا (Meta) مؤخراً لاتفاقياتها مع مجموعة يونيفرسال الموسيقية (Universal Music Group) إلى أن ترخيص الموسيقى التي يولدها الذكاء الاصطناعي قد يكون مطروحاً للنقاش.

إذا أصبحت موسيقى الذكاء الاصطناعي جزءاً من الواقع، فهل سنشهد أعمالاً موسيقية جيدة؟ ضع في حسبانك ثلاثة عوامل: بيانات التدريب، ونموذج النشر نفسه، والأمر النصي. لا يمكن للنموذج أن يكون جيداً إلا بقدر جودة مكتبة الموسيقى التي يتعلم منها وأوصاف تلك الموسيقى، التي يجب أن تكون معقدة لالتقاط تفاصيلها جيداً. ثم تحدد بنية النموذج مدى قدرته على استخدام ما تعلمه لتوليد الأغاني. كما يمثل الأمر النصي الذي تلقم النموذج به -وكذلك مدى "فهم" النموذج لما تعنيه بعبارة "اخفض صوت الساكسفون" على سبيل المثال- جانباً محورياً أيضاً.

هل تُعدُّ النتيجة عملاً إبداعياً أمْ مجرد تكرار لبيانات التدريب؟ يمكننا طرح السؤال نفسه حول الإبداع البشري

يمكن القول إن المسألة الأهم هي المسألة الأولى: ما مدى شمول بيانات التدريب وتنوعها، وما مدى جودة تصنيفها؟ لم تفصح أي من شركتي سونو وأوديو عن الموسيقى التي دخلت في مجموعة التدريب التي تخصها، مع أنه من المرجح الكشف عن هذه التفاصيل خلال سير الدعاوى القضائية.

تقول أوديو إن طريقة تصنيف هذه الأغاني تمثل جانباً أساسياً بالنسبة إلى النموذج. يقول دينغ: "أحد مجالات البحث النشط بالنسبة لنا هو: كيف نحصل على المزيد من الأوصاف الدقيقة للموسيقى؟". من شأن الوصف الأساسي أن يحدد النوع الموسيقي، ولكن بعد ذلك يمكنك أيضاً أن تحدد إن كانت الأغنية مزاجية أو مبهجة أو هادئة. أما الأوصاف الأكثر تقنية فقد تشير إلى تتابع نغمات الأوتار 1-5-2 (ii–V–I) أو مقياس معين. تقول أوديو إنها تفعل ذلك من خلال الجمع بين التصنيف الآلي والتصنيف البشري.

يقول دينغ: "نظراً لأننا نريد استهداف مجموعة واسعة من المستخدمين المستهدفين، فهذا يعني أيضاً أننا بحاجة إلى مجموعة واسعة من المصنفين الموسيقيين. إن الأشخاص القادرين على وصف الموسيقى على مستوى تقني للغاية، لا يقتصرون فقط على الحاصلين على درجة الدكتوراة في الموسيقى، بل أيضاً عشاق الموسيقى الذين لديهم مفرداتهم غير الرسمية لوصف الموسيقى".

كما يجب على النماذج التنافسية المولدة للموسيقى بالذكاء الاصطناعي أن تتعلم أيضاً من إمدادات متواصلة من الأغاني الجديدة التي ينتجها البشر، وإلّا فإن مخرجاتها ستظل عالقة في الزمن، وتبدو قديمة الطراز. لهذا السبب، تعتمد الموسيقى المولدة بالذكاء الاصطناعي اليوم على الفن الذي يولده البشر. ولكن في المستقبل، قد تتدرب نماذج موسيقى الذكاء الاصطناعي على مخرجاتها الخاصة، وهو نهج يُجرَّب في مجالات الذكاء الاصطناعي الأخرى.

ونظراً لأن النماذج تبدأ عملها بالاعتماد على عينات عشوائية من الضجيج، فهي غير حتمية؛ فإعطاء نموذج الذكاء الاصطناعي نفسه الأمر النصي نفسه سيؤدي إلى أغنية جديدة في كل مرة. ويرجع ذلك أيضاً إلى أن شركات عديدة مطورة لنماذج الانتشار، بما في ذلك أوديو، تضخ المزيد من العشوائية خلال العملية، أي إنها تأخذ الشكل الموجي المتولد في كل خطوة وتشوهه قليلاً على أمل إضافة عيوب تجعل الناتج أكثر تشويقاً أو أكثر واقعية. وقد أوصى منظمو مؤتمر دارتموث أنفسهم بمثل هذا الأسلوب عام 1956.

ووفقاً للمؤسس المشارك والرئيس التنفيذي للعمليات في أوديو، أندرو سانشيز، فإن هذه العشوائية المتأصلة في برامج الذكاء الاصطناعي التوليدي هي التي تشكل صدمة للكثير من الناس. فعلى مدى السنوات السبعين الماضية، كانت أجهزة الكمبيوتر تنفذ برامج حتمية، أي إنك إذا قدمت مدخلات معينة للبرنامج فستحصل على الاستجابة نفسها في كل مرة.

يقول سانشيز: "سيتساءل العديد من شركائنا الفنانين: "حسناً، لماذا يفعل هذا؟ ونحن نقول، حسناً، لا نعرف السبب حقاً". تتطلب حقبة النماذج التوليدية، حتى بالنسبة إلى الشركات التي تبتكرها، عقلية جديدة مفادها أن برامج الذكاء الاصطناعي يمكن أن تكون فوضوية وغير واضحة.

هل حصيلة ما يجري هي عملية إبداعية أم مجرد تكرار لبيانات التدريب؟ أخبرني عشاق موسيقى الذكاء الاصطناعي أن بإمكاننا طرح السؤال نفسه عن الإبداع البشري. فبينما نستمع إلى الموسيقى خلال فترة شبابنا، تتأثر الآليات العصبية للتعلم بهذه المدخلات، وتؤثر ذكريات هذه الأغاني في مخرجاتنا الإبداعية. في دراسة حديثة، أشار الملحن وأستاذ الموسيقى في جامعة رايس، أنتوني برانت، إلى أن كلاً من البشر والنماذج اللغوية الكبيرة يستخدمون التجارب السابقة لتقييم السيناريوهات المستقبلية المحتملة واتخاذ خيارات أفضل.

في الواقع، إن الكثير من الفن البشري، وخاصة في الموسيقى، يتعرض للاستعارة. وغالباً ما يفضي ذلك إلى دعاوى قضائية، حيث يزعم الفنانون أن أغنية ما قد تعرضت للنسخ أو أخذ عينات منها دون إذن. يقترح بعض الفنانين أن نماذج الانتشار يجب أن تكون أكثر شفافية، حتى نتمكن من معرفة أن المصدر الذي استُلهمت منه أغنية معينة مكون من ثلاثة أجزاء تعود إلى ديفيد بوي وجزء واحد يعود إلى لو ريد. تقول أوديو إن ثمة أبحاثاً جارية لتحقيق ذلك، ولكن في الوقت الحالي، لا يمكن لأحد أن يفعل ذلك على نحو موثوق.

يقول سانشيز، بالنسبة إلى الفنانين العظماء، "هناك مزيج من الحداثة والتأثير يسهم في ذلك.. وأعتقد أن هذا عامل مؤثر أيضاً في هذه التكنولوجيات".

ولكن هناك الكثير من المجالات التي سرعان ما تنهار فيها محاولات مساواة الشبكات العصبية البشرية بالشبكات العصبونية الاصطناعية تحت المجهر. يحدد برانت مجالاً واحداً يرى فيه أن الإبداع البشري يتفوق بوضوح على القدرات المقابلة المصنّعة آلياً، وهو ما يسميه "تضخيم الشذوذ" (Amplifying The Anomaly). تعتمد نماذج الذكاء الاصطناعي في عملها على مفهوم العينات الإحصائية، فهي لا تعمل من خلال التركيز على ما هو استثنائي بل من خلال تقليل الأخطاء وإيجاد الأنماط المحتملة. أما البشر، من ناحية أخرى، فهم مفتونون بالمعطيات الغريبة. كتب برانت يقول: "بدلاً من التعامل معها على أنها أحداث شاذة أو ’حالات فريدة‘"، فإن المعطيات الغريبة "متغلغلة في المنتجات الإبداعية".

ويستشهد بالقرار الذي اتخذه بيتهوفن لإضافة نغمة غريبة خارجة عن المألوف في الحركة الأخيرة من سيمفونيته الثامنة. يقول برانت: "كان بإمكان بيتهوفن أن يترك الأمر عند هذا الحد. ولكن بدلاً من أن يتعامل معها على أنها حدث فريد، يستمر في الإشارة إلى هذا الحدث غير المتناسق بطرق مختلفة. وبذلك، يأخذ الملحن شذوذاً لحظياً ويضخم تأثيره". يمكن للمرء أن ينظر إلى حالات شاذة مماثلة في عينات موسيقية عكسية متكررة من تسجيلات فرقة البيتلز الراحلة، أو غناء فرانك أوشن بصوت حاد، أو دمج "الأصوات المتاحة في البيئة المحيطة" (Found Sounds)، مثل تسجيلات إشارات عبور المشاة أو إغلاق باب، التي يفضلها فنانون مثل تشارلي بوث والمنتِج الذي تتعامل معه الفنانة بيلي آيلش، فينياس أوكونيل.

إذا كان الناتج الإبداعي يُعرّف بالفعل على أنه منتَج جديد ومفيد في آنٍ واحد، فإن تفسير برانت يشير إلى أن الآلات قد تتطابق معنا في المعيار الثاني بينما يتفوق البشر في المعيار الأول.

ولاستكشاف مدى صحة ذلك، قضيت بضعة أيام في إجراء التجارب على نموذج أوديو. يستغرق الأمر دقيقة أو دقيقتين لتوليد عينة مدتها 30 ثانية، ولكن إذا كان لديك إصدارات مدفوعة من النموذج، يمكنك توليد أغانٍ كاملة. قررت أن أختار 12 نوعاً موسيقياً، وأنشئ عينة غنائية لكل نوع، ثم أبحث عن أغانٍ مشابهة من تأليف أشخاص من البشر. صممت اختباراً لمعرفة إن كان بإمكان العاملين في غرفة الأخبار لدينا تحديد الأغاني التي أنتجها الذكاء الاصطناعي.

كان متوسط الدرجات 46%. وفي بعض الأنواع الموسيقية، خاصةً الأغاني التي صُنعت بواسطة الآلات، كان المستمعون مخطئين في كثير من الأحيان. عندما شاهدت أشخاصاً يؤدون الاختبار أمامي، لاحظت أن الصفات التي أشاروا إليها بثقة باعتبارها علامة على التأليف بواسطة الذكاء الاصطناعي -كآلة موسيقية ذات صوت مصطنع، أو كلمات غنائية غريبة- نادراً ما أثبتت أنهم على حق. وكما هو متوقع، كان أداء الأشخاص أسوأ في الأنواع الموسيقية التي لم يكونوا على دراية بها؛ فقد كان أداء البعض جيداً في موسيقى الكانتري (Country) أو السول (Soul)، لكن لم يكن أداء الكثيرين منهم جيداً في موسيقى الجاز أو البيانو الكلاسيكي أو البوب. وقد حصل بيتي، الباحث في مجال الإبداع، على 66%، بينما حصل برانت، الملحن، على 50% (على الرغم من أنه أجاب بصورة صحيحة في اختبارات الأوركسترا وسوناتا البيانو).

تذكّر أن النموذج لا يستحق التقدير كله هنا؛ فلم يكن من الممكن إنشاء هذه المخرجات لولا عمل الفنانين البشريين الذين كانت أعمالهم ضمن بيانات التدريب. ولكن مع عدد قليل من الأوامر النصية فقط، أنتج النموذج أغاني لن يميزها سوى القليل من الناس على أنها من صنع الآلة. كان من السهل تشغيل عدد قليل منها في إحدى الحفلات دون إثارة أي اعتراضات، ووجدت أغنيتين أحببتهما حقاً، حتى بصفتي موسيقياً مخضرماً وشخصاً انتقائياً في الموسيقى عموماً. لكن أن يبدو الصوت حقيقياً لا يعني بالضرورة أن يكون صوتاً أصلياً. لم تبدُ الأغاني مدفوعة بالعناصر الغريبة أو الشذوذ، وبالتأكيد لم تكن بمستوى "قفزة التخويف" (Jump Scare) لبيتهوفن.

ولم يبدُ أنها تغير الأنواع الموسيقية أو تغطي قفزات كبيرة بين المواضيع. في الاختبار الذي أجريته، كان الأشخاص في بعض الأحيان يجدون صعوبة في تحديد إن كانت الأغنية من إنتاج الذكاء الاصطناعي أم إنها سيئة ببساطة.

ما مدى أهمية ذلك في نهاية المطاف؟ ستؤدي المحاكم دوراً في تحديد إن كانت نماذج الموسيقى القائمة على الذكاء الاصطناعي تقدم نسخاً مقلدة أو إبداعات جديدة -وكيفية تعويض الفنانين في هذه العملية- ولكننا نحن، بصفتنا مستمعين، سنحدد قيمتها الثقافية. لتقدير أغنية ما، هل نحتاج إلى تصور فنان بشري يقف وراءها؛ شخص ذي خبرة وطموحات وآراء؟ هل تفقد الأغنية الرائعة قيمتها إذا اكتشفنا أنها من نتاج الذكاء الاصطناعي؟

يقول سانشيز إن الناس قد يتساءلون عمن يقف وراء الموسيقى. لكنه يقول: "في نهاية المطاف، مهما بلغت نسبة الذكاء الاصطناعي ومهما بلغت نسبة المكون البشري في الأغنية، ستظل فناً. وسيتفاعل الناس معها بناءً على جودة مزاياها الجمالية".

ولكن في تجربتي، لاحظت أن السؤال كان مهماً حقاً بالنسبة للناس، وعارض البعض بشدة فكرة الاستمتاع بالموسيقى التي يصنعها نموذج حاسوبي. عندما بدأت إحدى المشاركات في الاختبار تهز رأسها غريزياً على أنغام أغنية بوب إلكترونية، كان وجهها يعبر عن الشك الذي خالجها. بدا الأمر كما لو أنها كانت تحاول جاهدةً أن تتخيل أن من ألّف الأغنية هو إنسان وليس آلة. حيث قالت: "يا إلهي، آمل حقاً ألّا يكون من فعل هذا ذكاءً اصطناعياً".

في الواقع، لقد كان الذكاء الاصطناعي من فعل هذا.