AWS Machine Learning Blog→ المصدر

أوضحت AWS كيف يحلل Amazon Bedrock الفيديو بثلاثة أوضاع ويحسب التكلفة

شرحت AWS كيفية بناء تحليل فيديو قابل للتوسع على Amazon Bedrock باستخدام ثلاث معماريات. يناسب الوضع الأول المراقبة الدقيقة على مستوى الإطار، والثاني تحليل…

معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
أوضحت AWS كيف يحلل Amazon Bedrock الفيديو بثلاثة أوضاع ويحسب التكلفة
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

أظهرت AWS كيفية بناء تحليل فيديو قابل للتوسع على Amazon Bedrock دون فريق رؤية حاسوبية منفصل. وصفت الشركة ثلاث نهج معمارية — قائمة على الإطارات وقائمة على اللقطات وعبر التضمينات متعددة الأنماط — وربطتها فوراً بالدقة والكمون والتكلفة.

لماذا يظل الفيديو صعباً

أصبح الفيديو منذ زمن طويل صيغة قياسية لكاميرات المراقبة وإنتاج الوسائط والشبكات الاجتماعية والاتصالات الشركات، لكن استخراج الإشارات المفيدة منه يظل تحدياً. المراجعة اليدوية لا تتسع بشكل جيد، والأنظمة القائمة على القواعد الكلاسيكية لا ترى سوى الأنماط المعرّفة مسبقاً. حتى عند جمع البيانات بالفعل، فهم ما يحدث بسرعة في فيديو طويل يبقى صعباً. على الأحجام الكبيرة يصبح هذا بسرعة عملية مكلفة وبطيئة.

تراهن AWS على نماذج الأساس متعددة الأنماط في Amazon Bedrock. تعالج هذه النماذج البيانات البصرية والنصية معاً: يمكنها وصف المشاهد باللغة الطبيعية والإجابة على الأسئلة حول محتوى الفيديو وملاحظة الأحداث الدقيقة التي يصعب رسميتها بالقواعد العادية. الهدف من هذا النهج هو أن تحليل الفيديو يمكن الآن تجميعه مثل بناء من الخدمات الجاهزة، بدلاً من كونه مشروع بحث منفصل مع فريق ML كبير.

ثلاثة أنماط تحليل

الخيار الأول هو سير عمل قائم على الإطارات. يأخذ النظام إطارات على فترات زمنية ثابتة، ويزيل الصور المتشابهة والمكررة، ثم يرسل الباقي إلى النموذج لفهم الصور، بينما يتم نسخ الصوت بشكل منفصل من خلال Amazon Transcribe. لتصفية الإطارات غير الضرورية، توفر AWS نمطين: Nova Multimodal Embeddings بمتجهات 256 بُعد والتشابه الدلالي، أو OpenCV ORB بدون نداءات إضافية إلى Bedrock. الأول يفهم معنى المشهد بدقة أكبر، والثاني أسرع وأرخص. هذا النمط مناسب للكاميرات والتحكم في العمليات والتحقق من الامتثال.

الخيار الثاني يقسم الفيديو ليس إلى إطارات فردية، بل إلى مقاطع قصيرة أو مقاطع متساوية الطول. هذا سير عمل قائم على اللقطات: يحافظ على السياق الزمني داخل جزء ويناسب بشكل أفضل محتوى الوسائط وفهرسة المكتبات والبحث عن اللحظات البارزة. يمكن بناء المقاطع على طول حدود المشهد الطبيعية باستخدام PySceneDetect أو ببساطة تقسيم الفيديو إلى فترات متساوية، على سبيل المثال 10 ثوان. الطريقة الأولى أفضل للأفلام والعروض التقديمية والفيديوهات المدونة، والثانية للمراقبة والرياضة والبث المباشر.

  • النمط القائم على الإطارات — لمراقبة دقيقة والبحث عن أحداث محددة في الوقت.
  • النمط القائم على اللقطات — للمشاهد والفصول والفيديوهات الطويلة حيث يكون السياق داخل جزء مهماً.
  • نمط التضمين — للبحث الدلالي بواسطة الاستعلامات مثل النص أو صورة مرجعية.

الخيار الثالث الذي تسميه AWS التضمين متعدد الأنماط. فيه، يتم تحويل الفيديو إلى تمثيلات مناسبة للبحث: يمكنك العثور على مقاطع حسب الاستعلام النصي وصورة متشابهة وحتى إجراء بحث عابر للأنماط بين أنواع بيانات مختلفة. في هذه الهندسة، Amazon Nova Multimodal Embedding و TwelveLabs Marengo مدعومان، وواجهة موحدة تسمح بتغيير النموذج للمهمة بدون إعادة تجميع كاملة للأنبوب. هذا مفيد خاصة للأرشيفات التي تحتوي على آلاف الساعات من المحتوى.

البنية الأساسية والسعر

يتم بناء النظام بالكامل على خدمات serverless من AWS. Step Functions ينظم سيناريوهات قائمة على الإطارات واللقطات، Lambda يقوم بالمعالجة، S3 يخزن النتائج الخام والقطع الأثرية، DynamoDB يخزن البيانات الوصفية المنظمة للاستعلامات حسب الفيديو والرمز الزمني ونوع التحليل. للتكامل، يتم توفير API برمجية، وللواجهة — تطبيق React عبر CloudFront مع المصادقة عبر Amazon Cognito.

يتم فصل الخدمات لـ Nova و TwelveLabs والتوصيات عبر Bedrock Agents. التركيز العملي للمقالة ليس فقط على جودة التحليل، بل أيضاً على السيطرة على التكاليف. قامت AWS بدمج تتبع استخدام الرموز وتقدير التكلفة لكل فيديو تمت معالجته، بما في ذلك التفصيل حسب نماذج Bedrock والنسخ عبر Transcribe.

هذا مهم لأن السيناريوهات المختلفة لديها مقايضات مختلفة جذرياً: في بعض الأماكن يكون الدقة القصوى مطلوبة، وفي البعض الآخر الكمون الأدنى، وفي آخرين السعر على الأحجام الكبيرة أكثر أهمية. كنقطة انطلاق، أصدرت AWS أيضاً الحل كحزمة CDK مفتوحة المصدر وأضافت أمثلة لكاميرات وتحليل الفصول ومراقبة محتوى ينشئه المستخدمون.

ماذا يعني هذا

تقدم AWS بشكل أساسي ليس نموذجاً واحداً "سحرياً" للفيديو، بل مجموعة من القوالب الواضحة للمهام المختلفة. بالنسبة للعمل، هذه إشارة جيدة: يتحول فهم الفيديو تدريجياً من تطوير مخصص مكلف إلى تجميع هندسي، حيث يمكنك تحديد التوازن الصحيح بين الجودة وسرعة الاستجابة والميزانية مسبقاً.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…