Gemini وChatGPT وClaude في تحليل الفيديوهات: من يفوز في الاختبار
أي AI يرى الفيديوهات بشكل أفضل؟ تمت مقارنة Gemini وChatGPT وClaude على مقاطع YouTube — أحدها أفضل بوضوح.

ثلاثة من أكبر نماذج الذكاء الاصطناعي — Gemini من Google و ChatGPT من OpenAI و Claude من Anthropic — يمكنها تحليل الفيديو. لكن أيها يؤدي هذه المهمة بشكل أفضل؟ من خلال الاختبار على مقاطع YouTube والملفات المحلية، ظهر قائد واضح.
كيفية إجراء الاختبار الفكرة بسيطة: إعطاء النماذج الثلاثة نفس مقاطع
الفيديو ورؤية من يفهم المحتوى بشكل أفضل. استخدم المؤلف مجموعة متنوعة من محتوى الفيديو — من مقاطع YouTube الشهيرة إلى التسجيلات الشخصية من القرص، التي تم تصويرها في ظروف إضاءة وجودة مختلفة. تم طرح نفس الأسئلة على كل نموذج حول مقاطع الفيديو: ما الذي يحدث على الشاشة، من يفعل ماذا، ما التفاصيل المرئية، ما معنى ما يحدث.
لا مجرد 'صف الفيديو'، بل أسئلة محددة مثل 'كم عدد الأشخاص في الإطار؟'، 'ما لون الملابس؟'، 'عن ماذا يدور الحوار؟'. الهدف الرئيسي ليس تقييم جمال الواجهة، بل اختبار الفهم الحقيقي لمحتوى الفيديو. كيف يتعامل النموذج مع النص في الفيديو؟ هل يمكنه فهم السياق، بدلاً من مجرد عد الأشياء؟ ## النتائج: هناك قائد واضح أثبتت نتائج الاختبار أنها مكاشفة.
نموذج واحد يتفوق بشكل ملحوظ على الآخرين في الدقة وسرعة التحليل والفهم السياقي. لم يقم فقط بسرد ما يراه، بل فهم حقاً جوهر ما كان يحدث والتقط التفاصيل المهمة التي فاتت الآخرين أو أساؤوا تفسيرها. الاختلافات واضحة في كل معامل: يعالج الفيديو بشكل أسرع يتعرف على النص على الشاشة بدقة أكبر يفهم بشكل أفضل السياق المعقد للمشهد من الأقل احتمالاً أن يختلق تفاصيل غير موجودة في الفيديو ## حيث تعثر النماذج لكن إليك التحفظ: النماذج الثلاثة بعيدة كل البعد عن تحليل الفيديو المثالي.
حتى قائد الاختبار قد يخطئ في الأشياء التي تتحرك بسرعة أو الفيديو غير الواضح أو المحتوى المحدد — الرسوم البيانية التقنية والمستندات ومقاطع الفيديو منخفضة الجودة. يظل النص في الفيديو مهمة صعبة للجميع. غالباً ما يخلطون بين الأحرف ويتخطون الكلمات ويقرؤون النص بشكل غير صحيح.
تحدث الأخطاء بشكل متكرر بشكل خاص مع النصوص الصغيرة أو زوايا الكاميرا غير العادية أو الخطوط غير القياسية. بالإضافة إلى ذلك، تم إجراء الاختبار في لحظة محددة من الوقت (على الأرجح أوائل 2024 أو 2025)، والنماذج الثلاثة تتحسن باستمرار. قد تغير الإصدارات الجديدة النتائج.
ما هو صحيح اليوم قد يكون خاطئاً في شهر واحد.
ماذا يعني هذا إذا كنت بحاجة إلى تحليل محتوى الفيديو باستخدام الذكاء
الاصطناعي، فإن اختيار النموذج مهم. أظهر الاختبار أن أحد النماذج الثلاثة يؤدي بشكل أفضل وسيكون أكثر فائدة لسير العمل الحقيقي — من تحليل تسجيلات الفيديو إلى حساب التفاصيل. ومع ذلك، تذكر: حتى أفضل من الثلاثة لا يزال تكنولوجيا قيد التطور. يظل تحليل الفيديو مجالاً يحتمل حدوث أخطاء فيه. استخدم النتائج كدليل، لكن اختبر بنفسك النماذج على مقاطع الفيديو الخاصة بك قبل الاختيار.