عرضت Amazon البحث في أرشيفات فيديو كبيرة باللغة الطبيعية باستخدام Nova
عرضت Amazon بنية عملية للبحث في أرشيفات فيديو كبيرة من دون وسم يدوي أو كلمات مفتاحية صارمة. يقسم Nova المقاطع إلى أجزاء مدتها 15 ثانية، وينشئ embeddings…
معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
أمازون أظهرت كيفية تنظيم البحث في أرشيفات الفيديو الكبيرة بدون وسم يدوي وبدون ربط صارم بالكلمات المفتاحية. بدلاً من الوسم حسب السيناريو، يبني النظام تضمينات متعددة الأنماط للصوت والصور، ثم يبحث عن مقاطع الفيديو حسب المعنى عبر OpenSearch.
كيف يعمل البحث
يعتمد الحل على مجموعة Amazon Nova Multimodal Embeddings و Amazon OpenSearch Service. يتم رفع مقاطع الفيديو إلى S3، وبعد ذلك تقوم واجهة برمجة التطبيقات Nova غير المتزامنة تلقائياً بتقسيمها إلى مقاطع مدة كل منها 15 ثانية وتبني متجهات بحجم 1024 بعد في وضع AUDIO_VIDEO_COMBINED. هذا مهم: يأخذ النموذج في الاعتبار ليس فقط الصورة، بل الصوت أيضاً، لذلك يفهم البحث ليس كلمات منفردة في التسمية التوضيحية، بل سياق المشهد نفسه — من يتحدث، ما الذي يحدث في الإطار وما هي الأجواء في المقطع.
بشكل منفصل، تقترح AWS معالجة مقاطع الفيديو عبر Nova Pro أو Nova 2 Lite لتوليد 10–15 وسم وصفي وفقاً لتصنيف معين. نتيجة لذلك، يخزن النظام فهرسين: فهرس متجه للبحث الدلالي وفهرس نصي للبحث حسب الكلمات المفتاحية. يسمح هذا النمط بعدم الاختيار بين البحث "الذكي" وتصفية البيانات الوصفية، بل دمج كلا النهجين في واجهة واحدة.
بشكل أساسي، يمكن استعراض نفس الأرشيف باستخدام استعلامات مثل "شخص يمشي على شاطئ عند الغروب" وكذلك من خلال مرشحات نصية صارمة.
- البحث النصي في الفيديو: يتم تحويل استعلام باللغة الطبيعية إلى تضمين ومقارنته مع مقاطع الفيديو.
- البحث عن مقاطع فيديو مشابهة: يأخذ النظام متجه فيديو معروف بالفعل ويجد مقاطع قريبة من حيث المحتوى.
- البحث الهجين: يتم دمج نتائج k-NN و BM25، افتراضياً بأوزان 70% على الدلالة و 30% على النص.
النطاق والاقتصاد
اختبرت AWS النمط ليس على مجموعة عرض توضيحي من بضعة ملفات، بل على مصفوفة من حوالي 792 ألف فيديو من مجموعات بيانات Multimedia Commons و MEVA. يصل هذا إلى حوالي 8480 ساعة من المحتوى، أو 30.5 مليون ثانية.
استغرق المعالجة الكاملة 41 ساعة على أربع instances من نوع c7i.48xlarge مع 600 عامل متوازي. لكن Bedrock له حد أقصى من 30 مهام غير متزامنة متزامنة لكل حساب، لذلك يستخدم المثال قائمة انتظار للمهام مع استقصاء الحالة وإعادة تحميل مقاطع الفيديو الجديدة مع تحرر الفتحات.
الصورة المالية شفافة أيضاً تماماً. تقدر AWS السنة الأولى من مثل هذا النظام بحوالي 23600–27300 دولار حسب نموذج الدفع المختار لـ OpenSearch. من هذا المبلغ، يذهب حوالي 18100 دولار لرفع لمرة واحدة وتوليد التضمينات، بينما يذهب الباقي لتشغيل طبقة البحث السنوية.
عنصر النفقات الرئيسي ليس الحسابات على EC2، بل التضمينات نفسها، لأن Nova يتم فرض رسوم عليها حسب مدة الفيديو.
- حوالي 17096 دولار — توليد التضمينات متعددة الأنماط في Amazon Bedrock
- حوالي 571 دولار — الوسم التلقائي عبر Nova Pro
- حوالي 421 دولار — الحسابات على EC2 لمعالجة الدفعات
- من 5544 إلى 9240 دولار سنوياً — التخزين والبحث في OpenSearch، حسب نموذج الدفع
تشرح AWS أيضاً لماذا تم اختيار متجهات بحجم 1024 بدل متجهات بحجم 3072: تكلفة التوليد لا تتغير، لكن التخزين يصبح أرخص بحوالي ثلاث مرات مع فقدان دقة ضئيل. من جانب البحث، تبدو المقاييس بالفعل بمستوى الإنتاج: k-NN الدلالي يمثل حوالي 76 ميلي ثانية، BM25 — 30 ميلي ثانية، الوضع الهجين — 106 ميلي ثانية. عبر كامل المجموعة، تحتل الفهارس حوالي 29.8 GB، لذلك حتى أرشيف الفيديو الكبير لا يتطلب بنية تحتية غريبة الأطوار.
الفروقات العملية
هذه المادة مهمة ليس كإعلان لنموذج آخر، بل كقالب هندسي جاهز للاستخدام. تظهر AWS بشكل أساسي كيفية الانتقال من الوسم اليدوي للفيديو إلى بحيرة بيانات ذكية، حيث يتم بناء البحث حول التضمينات بدلاً من الوصف البشري. بالنسبة للفريق في شركات الإعلام والترفيه، قد يحل هذا عدة مهام في وقت واحد: إيجاد النسخ المكررة، التنقل في الأرشيف، الاختيار السريع لـ b-roll وإنشاء أدوات داخلية للمحررين والمنتجين والأرشيفيين.
لكن هناك حدود أيضاً. لتشغيله، تحتاج إلى Bedrock في المنطقة us-east-1، و OpenSearch 2.11 أو أحدث، و S3 وأذونات IAM مكونة.
يعتمد السرعة والسعر مباشرة على طول مقاطع الفيديو: في الاختبار، تمت معالجة فيديو مدته 45 ثانية في حوالي 70 ثانية. إذا كانت بيانات الوصف الخاصة بك جيدة، توصي AWS بزيادة نسبة البحث النصي أكثر — حتى 50/50. وإذا استمرت مكتبتك في النمو، يمكن نقل منطق المعالجة إلى AWS Batch وتوسيع نطاقها على أجزاء.
ما يعنيه هذا
تظهر أمازون أن البحث عن الفيديو متعدد الأنماط يمكن أن يعتبر بالفعل ليس لعبة بحث، بل نمط بنية تحتية مفهوم. بالنسبة لفرق الإعلام، هذه فرصة للتوقف عن العيش مع الوسوم اليدوية وأخيراً البحث في الأرشيف بالطريقة التي يصيغ بها الناس الاستعلامات فعلياً — باللغة الطبيعية.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.