عرضت AWS بحثًا دلاليًا للفيديو على Amazon Bedrock باستخدام Nova Multimodal Embeddings

Q: ما هو المصدر؟

نُشر أصلاً على AWS Machine Learning Blog. يعالج Hamidun News المواد ويكيّفها بالذكاء الاصطناعي.

Q: متى نُشر؟

2 مايو 2026. وقت القراءة: 3 دقيقة.

عرضت AWS كيفية بناء بحث دلالي للفيديو على Amazon Bedrock ونشرت تنفيذًا مرجعيًا. تُقسَّم المقاطع عند تغيّر المشاهد، وتُنشأ embeddings منفصلة للصورة والصوت…

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · AWS Machine Learning Blog

2 مايو 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News

عرضت AWS بحثًا دلاليًا للفيديو على Amazon Bedrock باستخدام Nova Multimodal Embeddings — المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.

◐ استمع للمقال

أظهرت AWS البحث الدلالي عن الفيديو على Amazon Bedrock باستخدام Amazon Nova Multimodal Embeddings ونشرت معمارية مرجعية يمكن نشرها على محتوى مخصص. بدلاً من النهج التقليدي حيث يتم تقليل كل شيء إلى النصوص، يأخذ النظام في الاعتبار في نفس الوقت الصورة والصوت والكلام والبيانات الوصفية الهيكلية.

لماذا النص وحده ليس كافياً

عادة ما يتم بناء البحث القياسي عن الفيديو حول النص: نسخ الكلام والعلامات اليدوية أو التعليقات التوضيحية المولدة تلقائياً. تتبنى AWS نهجاً مختلفاً وتؤكد صراحةً أن تحويل كل محتوى الفيديو إلى نص يفقد إشارات مهمة. إذا بحث المستخدم عن "مطاردة سيارة مكثفة مع صفارات الإنذار"، تمزج الاستعلام الأحداث البصرية والمشاهد الصوتية. إذا لزم الأمر رياضي معين، قد يكون مرئياً في الإطار لكن اسمه لم يُذكر أبداً. بالنسبة لهذه الحالات، النص الكامل وحده ليس كافياً بالفعل.

لهذا السبب، يعتمد الحل على تقسيم الفيديو إلى قطاعات ذات معنى بدلاً من أجزاء تعسفية بناءً على المؤقت. يدعم Amazon Nova Multimodal Embeddings حتى 30 ثانية لكل تضمين، لكن AWS في المثال تستهدف أجزاء يبلغ طولها حوالي 10 ثوانٍ وتنقل الحدود نحو تغييرات المشهد الفعلية باستخدام FFmpeg. تحافظ الخوارزمية على نطاق من 5 إلى 15 ثانية: إذا كان هناك انتقال إطار طبيعي قريب، يتم قطع المقطع هناك؛ وإذا لم يكن هناك انتقال، يتم تعيين حد ثابت. يحافظ هذا على السياق ولا ينقسم المشهد في منتصف الحركة أو العبارة.

كيف تم بناء النظام

تنقسم المعمارية إلى سيرين عمل: البلع والبحث. بعد تحميل الفيديو إلى Amazon S3، ينتقل التنسيق إلى Lambda وStep Functions، ثم تتم معالجة القطاعات بالتوازي من خلال فروع متعددة. لكل جزء، يبني النظام تمثيلات منفصلة للإشارات البصرية والصوت والكلام، ثم يجمعها مع البيانات الوصفية في فهرس. من جانب البحث، لا تنتقل الاستعلام إلى متجه موحد واحد: يتم تحليلها إلى قنوات متعددة ثم إعادة ترتيبها مع الأخذ بعين الاعتبار نية المستخدم.

يصل الفيديو إلى S3 ويطلق خط الأنابيب من خلال Lambda و Step Functions
يبحث Fargate مع FFmpeg عن تغييرات المشهد ويقطع الفيديو إلى قطاعات دلالية
ينشئ Amazon Nova Multimodal Embeddings متجهات للصورة والصوت، وتوفر Amazon Transcribe الأساس لتضمينات الكلام
تضيف Amazon Nova 2 Lite و Rekognition التعليقات التوضيحية للقطاعات والنوع والتعرف على الأشخاص المعروفين في الإطار
تخزن OpenSearch و S3 Vectors الفهرس لدمج البحث المتجه والبحث النصي الدقيق

تؤكد AWS على أنه لا يجب طي التضمينات البصرية والصوتية والكلام في متجه واحد إذا كانت الدقة المضبوطة مطلوبة. في هذا المخطط، تتعامل الصورة مع الأشياء والإجراءات وتكوين الإطار، والصوت يتعامل مع الموسيقى والضوضاء والأجواء الصوتية، والنص الكامل يتعامل مع المعنى الدلالي. بالإضافة إلى ذلك، يتم إضافة قناة معجمية عبر البيانات الوصفية: الأسماء والتواريخ والأنواع والكيانات وغيرها من البيانات التي قد يلتقط البحث الدلالي بشكل أقل فعالية.

كيف تتحسن الدقة

العنصر الرئيسي في كل البناء هو جهاز التوجيه الخاص بنية الاستعلام. تستخدم AWS Claude Haiku على Amazon Bedrock لإرجاع JSON بأوزان لأربع قنوات في كل استعلام: بصري وصوتي وتفريغ الكلام والبيانات الوصفية. يجب أن يكون مجموع الأوزان مساوياً لـ 1.0، والقنوات ذات المشاركة أقل من 5% لا تُشغل على الإطلاق لتجنب المكالمات غير الضرورية وزيادة الكمون. بعد ذلك، يتم تطبيع النتائج من مصادر مختلفة على مقياس 0-1 وتجميعها باستخدام المتوسط المرجح بدلاً من دمج جميع الإشارات بالتساوي.

في الاختبارات، يتفوق هذا النهج بشكل كبير على مخطط AUDIO_VIDEO_COMBINED الأساسي. أجرت AWS معيار على 10 مقاطع فيديو طويلة داخلية تتراوح من 5 إلى 20 دقيقة مع 20 استعلام من أنواع مختلفة. حقق المخطط الهجين Recall@5 بنسبة 90% مقابل 51%، و Recall@10 بنسبة 95% مقابل 64%، و MRR بنسبة 90% مقابل 48%، و NDCG@10 بنسبة 88% مقابل 54%. تركز الشركة أيضاً على اقتصاديات التخزين: يمكن لـ Amazon S3 Vectors، وفقاً لبياناتهم، تقليل تكاليف التخزين والاستعلام المتجه بنسبة تصل إلى 90% مقارنة بالبدائل المتخصصة.

ما معنى كل هذا

لا تصف AWS هنا نموذج التضمينات فحسب، بل تعرض نمطاً عملياً لفرق المنتج التي تعمل مع مكتبات الوسائط وأرشيفات البث والرياضة والمحتوى التعليمي والفيديوهات التي ينشئها المستخدمون. الفكرة الأساسية بسيطة: كلما قللت محاولاتك إرغام الفيديو على النقل إلى نص أو متجه واحد، زادت فرصك في العثور على اللحظة الصحيحة بدقة وسرعة.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية