تعج شبكة الإنترنت بمقاطع الفيديو، وفي الواقع فإن 75% من إجمالي حركة نقل المعلومات على الإنترنت هي عبارة عن محتوى فيديو، ومن المتوقع أن يزداد الحجم إلى ثلاثة أضعاف بحلول العام 2021.
ولكن إذا رغبنا في ألا تختنق الشبكة بسبب إقبالنا الذي لا ينتهي على فيديوهات القطط وخدمات البث التلفزيوني، فعلينا أن نلجأ إلى ضغط الفيديو (أي إعادة ترميز ملف الفيديو بحيث يَشغَل حجماً أقل من الملف الأصلي)، ولكن تقنيات الضغط الحالية تعتبر أثرية وفق معايير التكنولوجيا العصرية.
يقول أورين ريبل وزملاؤه في ويف ون (وهي شركة مختصة بالتعلم العميق تحاول أن تجلب تقنيات ضغط الفيديو إلى القرن الواحد والعشرين): "لم تتغير أساسيات خوارزميات ضغط الفيديو بشكل يُذكر خلال العقدين الأخيرين".
وقد استخدم ريبل وزملاؤه التعلم العميق لتطوير خوارزمية ضغط جديدة تتفوق بشكل ملحوظ على تقنيات الضغط الحالية، ويقولون: "تعتبر هذه الطريقة -وفقاً لمعلوماتنا- أول طريقة تعتمد على التعلم الآلي لتحقيق هذا الأمر".
تقوم الفكرة الأساسية لضغط الفيديو على إزالة البيانات غير الضرورية من الترميز واستبدالها بتوصيف أصغر يسمح بإعادة تركيب الفيديو لاحقاً، ومعظم عمليات ضغط الفيديو تتضمن خطوتين:
الخطوة الأولى هي ضغط الحركة، وهي تتضمن البحث عن العناصر المتحركة ومحاولة توقع مكانها في اللقطة التالية، وبدلاً من تسجيل البيكسلات المتعلقة بهذا العنصر المتحرك في كل لقطة، تقوم الخوارزمية بترميز شكل العنصر فقط مع اتجاه الحركة. وفي الواقع تقوم بعض الخوارزميات بتفحص اللقطات اللاحقة لتحديد الحركة بشكل أكثر دقة، على الرغم من استحالة تطبيق هذه الطريقة على البث الحي بطبيعة الحال. والنتيجة هي أن الفيديو المضغوط يقوم ببساطة بنقل العنصر عبر الشاشة.
أما الخطوة الثانية فتقوم على إزالة المعلومات الزائدة بين كل لقطتين، فمثلاً بدلاً من تسجيل لون كل بيكسل في سماء زرقاء، يمكن لخوارزمية الضغط أن تحدِّد منطقة هذا اللون وتثبيت اللون في اللقطات القليلة المقبلة، أي أن هذه البيكسلات ستحافظ على اللون حتى إشعار آخر، ويسمى هذا بضغط الرواسب.
والطريقة الجديدة التي ابتكرها ريبل وزملاؤه تقوم على استخدام التعلم الآلي لتحسين كل من هاتين التقنيتين. فبالنسبة لضغط الحركة، تمكنت خوارزمية التعلم الآلي للفريق من إيجاد بيانات زائدة مبنية على الحركة لم تكن تقنيات الضغط التقليدية قادرة على استغلالها، فاستدارة الرأس من المنظر الأمامي إلى المنظر الجانبي مثلاً تنتج دائماً نتائج متقاربة. يقول ريبل وزملاؤه: "لا تستطيع المرمزات التقليدية توقع المنظر الجانبي للوجه اعتماداً على المنظر الأمامي"، في حين أن المرمز الجديد يتعلم هذه الأنماط المكانية والزمانية ويعتمد عليها في توقع اللقطات المقبلة.
أما المشكلة الأخرى فهي توزيع عرض الحزمة ما بين ضغط الحركة وضغط الرواسب؛ ففي بعض المشاهد يكون الضغط الحركي أكثر أهمية، في حين يؤمن ضغط الرواسب أفضل نتائج للضغط في مشاهد أخرى. وتختلف المفاضلة بين الطريقتين من لقطة إلى لقطة.
وعادة ما يسبب هذا صعوبة لخوارزميات الضغط التقليدية لأنها تنفِّذ كلاً من العمليتين بشكل منفصل، أي أنه لا توجد طريقة سهلة للمفاضلة ما بينهما. وقد التف ريبل وزملاؤه حول هذه المشكلة بضغط كلتا الإشارتين في نفس الوقت، واستخدام تعقيد كل لقطة لتحديد التوزيع الأكثر فعالية لعرض الحزمة ما بين الطريقتين.
وقد سمحت هذه التطويرات وغيرها للباحثين بتصميم خوارزمية ضغط تتفوق على مثيلاتها التقليدية بشكل كبير، فعند ضغط فيديو بدقة عالية 1080p، تقوم خوارزميات الضغط التقليدية مثل H.265 وVP9 بإنتاج ملفات أضخم بنسبة 20% من تلك التي تنتجها الخوارزمية الجديدة، كما أن الربح أكبر بالنسبة للفيديوهات ذات الدقة المعيارية، مثل HEVC/H.265 وAVC/H.265، التي تنتج ملفات أضخم بنسبة 60% من الملفات التي تنتجها الخوارزمية الجديدة. ولا شك في أن هذه النسب مثيرة للإعجاب، ويمكن أن تخفض إلى حد كبير من حجم الفيديوهات وزمن تحميلها على الإنترنت.
غير أن الطريقة الجديدة ليست خالية من النقائص، وقد تكون أهمها هي فعالية الحوسبة (أي الوقت المطلوب لترميز الفيديوهات وفك ترميزها)؛ فعلى منصة إنفيديا تسلا في 100، وبالتجريب على فيديوهات بالحجم الشائع الذي تشغله بطاقات الرسوميات، كان مفكك الترميز الجديد يعمل بسرعة وسطية تساوي حوالي 10 لقطات في الثانية، أما المرمز فكان يعمل بسرعة تساوي لقطتين في الثانية، وهو ما يحدُّ من إمكانية استخدامه للبث المباشر.
وبطبيعة الحال، يتوقع الباحثون تحقيق تحسينات هامة بعد تجاوز مرحلة برهان صحة الفكرة، ويقولون: "إن السرعة الحالية ليست كافية للعمل في الزمن الحقيقي، ولكنها ستتحسن إلى حد كبير في أعمال لاحقة". وهو ما يعني أن هذه الطريقة القائمة على التعلم الآلي ستسمح لزوار الإنترنت في المستقبل بتحميل فيديوهات القطط وحلقات مسلسل صراع العروش بأوقات قياسية، ومشاهدة البث المباشر لمباريات كرة القدم بفعالية غير مسبوقة.
مرجع: arxiv.org/abs/1811.06981:
ضغط الفيديو بالتعلم.