Ant Group تكشف عن Ming-flash-omni 2.0: اختراق مفتوح متعدد الوسائط
قدّمت Ant Group نموذج Ming-flash-omni 2.0، وهو نموذج قوي متعدد الوسائط ومفتوح المصدر. ويتصدر الإصدار الجديد فهم البيانات البصرية وتوليد المحتوى، متقدمًا على…
معالج بواسطة الذكاء الاصطناعي من 36Kr (36氪)؛ بتحرير Hamidun News
فتحت مجموعة Ant المصدر الأساسي للنموذج متعدد الأنماط الأكثر طموحاً في محفظتها — Ming-flash-omni 2.0. تؤكد الشركة أن إنشاؤها لا يتنافس فقط مع Gemini 2.5 Pro من Google، بل يتفوق عليه في عدة اختبارات حاسمة. إلا أن الفرق الرئيسي يكمن في مكان آخر: Ming-flash-omni 2.0 هو الأول في الصناعة الذي تعلم كيفية توليد الصوت بشكل متزامن — الكلام والضوضاء الخلفية والموسيقى في نفس الوقت على مسار واحد. هذا ليس مجرد إنجاز تقني، بل انتقال إلى مستوى جديد من العمل المتعدد الوسائط.
يبدو أن ظهور نموذج متعدد الأنماط مفتوح المصدر من عملاق الخدمات المالية الصينية يشكل جزءاً من استراتيجية أوسع. بينما يحافظ القادة الغربيون في السوق — OpenAI و Google و Anthropic — على أنظمتهم الأكثر قوة مغلقة، بدأت شركات مثل Ant Group تدرك أن الانفتاح يمكن أن يصبح ميزة تنافسية. Ming-flash-omni 2.0، المُطلقة بمصدر مفتوح، تكتسب وصولاً فورياً إلى مجتمع المطورين الذي يمكنه تكييف النموذج مع الاحتياجات المحلية وتحسينه لأجهزتهم وإنشاء تطبيقات متخصصة. هذا ذو أهمية خاصة للأسواق الآسيوية، حيث تكون المحلية والتكيف الثقافي حاسمة.
فيما يتعلق بالمواصفات التقنية، يُظهر النموذج نتائج مثيرة للإعجاب. في الاختبارات الخاصة بالفهم البصري-اللغوي وإنشاء الصور مع التحرير، يُظهر Ming-flash-omni 2.0 نتائج تتنافس مع Gemini 2.5 Pro، وحتى تتفوق عليه في بعض المعايير. لكن البصريات والنصوص هي بالفعل أرض مألوفة للنماذج الكبيرة الحديثة. الابتكار الحقيقي يكمن في وظيفة الصوت. حتى الآن، عند تصنيع الكلام، كان يقوم المطورون بإما توليد الصوت بشكل منفصل أو إضافة الأصوات الخلفية والموسيقى كطبقات منفصلة في مرحلة ما بعد الإنتاج. Ming-flash-omni 2.0 تغير قواعد اللعبة: يمكنها إنشاء المكونات الثلاثة في نفس الوقت، مع فهم السياق وضمان تفاعلها الطبيعي في تدفق زمني واحد.
هذا يفتح الأبواب لحالات استخدام جديدة تماماً. بالنسبة لإنتاج الوسائط، فهذا يعني تسريع إنشاء المزامنة الصوتية لمحتوى الفيديو والأفلام الوثائقية والبودكاست. يمكن للنظام توليد ليس فقط كلام الممثل، بل تثري المشهد الصوتي بتفاصيل جو. بالنسبة لتطوير تطبيقات الذكاء الاصطناعي، تسمح القدرة على توليد الصوت الموحد ببناء أنظمة تفاعلية أكثر تعقيداً — من مساعدين ذكيين يبدون وكأنهم أشخاص حقيقيون في العالم الحقيقي، إلى سيناريوهات اللعبة مع تصميم صوتي كامل يتم إنشاؤه على الفور.
يرمز إطلاق Ming-flash-omni 2.0 بمصدر مفتوح إلى تحول في جيوسياسة الذكاء الاصطناعي. بينما كانت الابتكارات في تعدد الأنماط في السابق يهيمن عليها عمالقة غربيون، تظهر الشركات الصينية الآن أنها لا تستطيع فقط مواكبة الخطى، بل تتقدم أيضاً في اتجاهات محددة. سيؤدي الوصول المفتوح إلى تضخيم هذا التأثير، مما يسمح للمطورين في جميع أنحاء العالم بالتجريب وتحسين النموذج. السؤال الوحيد هو ما إذا كانت الصناعة الغربية يمكنها التكيف بسرعة مع الواقع الجديد، حيث تكمن أفضل الأدوات غالباً في الوصول المفتوح وتتاح للجميع، وليس فقط لأولئك الذين يمكنهم تحمل حوسبة سحابية من المستوى الأول من الشركات الكبرى.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.