AWS Machine Learning Blog→ المصدر

عرضت AWS بحثًا دلاليًا للفيديو على Amazon Bedrock باستخدام Nova Multimodal Embeddings

عرضت AWS كيفية بناء بحث دلالي للفيديو على Amazon Bedrock ونشرت تنفيذًا مرجعيًا. تُقسَّم المقاطع عند تغيّر المشاهد، وتُنشأ embeddings منفصلة للصورة والصوت…

معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
عرضت AWS بحثًا دلاليًا للفيديو على Amazon Bedrock باستخدام Nova Multimodal Embeddings
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

أظهرت AWS البحث الدلالي عن الفيديو على Amazon Bedrock باستخدام Amazon Nova Multimodal Embeddings ونشرت معمارية مرجعية يمكن نشرها على محتوى مخصص. بدلاً من النهج التقليدي حيث يتم تقليل كل شيء إلى النصوص، يأخذ النظام في الاعتبار في نفس الوقت الصورة والصوت والكلام والبيانات الوصفية الهيكلية.

لماذا النص وحده ليس كافياً

عادة ما يتم بناء البحث القياسي عن الفيديو حول النص: نسخ الكلام والعلامات اليدوية أو التعليقات التوضيحية المولدة تلقائياً. تتبنى AWS نهجاً مختلفاً وتؤكد صراحةً أن تحويل كل محتوى الفيديو إلى نص يفقد إشارات مهمة. إذا بحث المستخدم عن "مطاردة سيارة مكثفة مع صفارات الإنذار"، تمزج الاستعلام الأحداث البصرية والمشاهد الصوتية. إذا لزم الأمر رياضي معين، قد يكون مرئياً في الإطار لكن اسمه لم يُذكر أبداً. بالنسبة لهذه الحالات، النص الكامل وحده ليس كافياً بالفعل.

لهذا السبب، يعتمد الحل على تقسيم الفيديو إلى قطاعات ذات معنى بدلاً من أجزاء تعسفية بناءً على المؤقت. يدعم Amazon Nova Multimodal Embeddings حتى 30 ثانية لكل تضمين، لكن AWS في المثال تستهدف أجزاء يبلغ طولها حوالي 10 ثوانٍ وتنقل الحدود نحو تغييرات المشهد الفعلية باستخدام FFmpeg. تحافظ الخوارزمية على نطاق من 5 إلى 15 ثانية: إذا كان هناك انتقال إطار طبيعي قريب، يتم قطع المقطع هناك؛ وإذا لم يكن هناك انتقال، يتم تعيين حد ثابت. يحافظ هذا على السياق ولا ينقسم المشهد في منتصف الحركة أو العبارة.

كيف تم بناء النظام

تنقسم المعمارية إلى سيرين عمل: البلع والبحث. بعد تحميل الفيديو إلى Amazon S3، ينتقل التنسيق إلى Lambda وStep Functions، ثم تتم معالجة القطاعات بالتوازي من خلال فروع متعددة. لكل جزء، يبني النظام تمثيلات منفصلة للإشارات البصرية والصوت والكلام، ثم يجمعها مع البيانات الوصفية في فهرس. من جانب البحث، لا تنتقل الاستعلام إلى متجه موحد واحد: يتم تحليلها إلى قنوات متعددة ثم إعادة ترتيبها مع الأخذ بعين الاعتبار نية المستخدم.

  • يصل الفيديو إلى S3 ويطلق خط الأنابيب من خلال Lambda و Step Functions
  • يبحث Fargate مع FFmpeg عن تغييرات المشهد ويقطع الفيديو إلى قطاعات دلالية
  • ينشئ Amazon Nova Multimodal Embeddings متجهات للصورة والصوت، وتوفر Amazon Transcribe الأساس لتضمينات الكلام
  • تضيف Amazon Nova 2 Lite و Rekognition التعليقات التوضيحية للقطاعات والنوع والتعرف على الأشخاص المعروفين في الإطار
  • تخزن OpenSearch و S3 Vectors الفهرس لدمج البحث المتجه والبحث النصي الدقيق

تؤكد AWS على أنه لا يجب طي التضمينات البصرية والصوتية والكلام في متجه واحد إذا كانت الدقة المضبوطة مطلوبة. في هذا المخطط، تتعامل الصورة مع الأشياء والإجراءات وتكوين الإطار، والصوت يتعامل مع الموسيقى والضوضاء والأجواء الصوتية، والنص الكامل يتعامل مع المعنى الدلالي. بالإضافة إلى ذلك، يتم إضافة قناة معجمية عبر البيانات الوصفية: الأسماء والتواريخ والأنواع والكيانات وغيرها من البيانات التي قد يلتقط البحث الدلالي بشكل أقل فعالية.

كيف تتحسن الدقة

العنصر الرئيسي في كل البناء هو جهاز التوجيه الخاص بنية الاستعلام. تستخدم AWS Claude Haiku على Amazon Bedrock لإرجاع JSON بأوزان لأربع قنوات في كل استعلام: بصري وصوتي وتفريغ الكلام والبيانات الوصفية. يجب أن يكون مجموع الأوزان مساوياً لـ 1.0، والقنوات ذات المشاركة أقل من 5% لا تُشغل على الإطلاق لتجنب المكالمات غير الضرورية وزيادة الكمون. بعد ذلك، يتم تطبيع النتائج من مصادر مختلفة على مقياس 0-1 وتجميعها باستخدام المتوسط المرجح بدلاً من دمج جميع الإشارات بالتساوي.

في الاختبارات، يتفوق هذا النهج بشكل كبير على مخطط AUDIO_VIDEO_COMBINED الأساسي. أجرت AWS معيار على 10 مقاطع فيديو طويلة داخلية تتراوح من 5 إلى 20 دقيقة مع 20 استعلام من أنواع مختلفة. حقق المخطط الهجين Recall@5 بنسبة 90% مقابل 51%، و Recall@10 بنسبة 95% مقابل 64%، و MRR بنسبة 90% مقابل 48%، و NDCG@10 بنسبة 88% مقابل 54%. تركز الشركة أيضاً على اقتصاديات التخزين: يمكن لـ Amazon S3 Vectors، وفقاً لبياناتهم، تقليل تكاليف التخزين والاستعلام المتجه بنسبة تصل إلى 90% مقارنة بالبدائل المتخصصة.

ما معنى كل هذا

لا تصف AWS هنا نموذج التضمينات فحسب، بل تعرض نمطاً عملياً لفرق المنتج التي تعمل مع مكتبات الوسائط وأرشيفات البث والرياضة والمحتوى التعليمي والفيديوهات التي ينشئها المستخدمون. الفكرة الأساسية بسيطة: كلما قللت محاولاتك إرغام الفيديو على النقل إلى نص أو متجه واحد، زادت فرصك في العثور على اللحظة الصحيحة بدقة وسرعة.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…