MarkTechPost→ المصدر

أطلقت Alibaba نموذج Qwen3.5-Omni — نموذج متعدد الأنماط الأصلي للنصوص والصوت والفيديو

عرضت Alibaba نموذج Qwen3.5-Omni — نموذج شامل الأنماط جديد يعمل مع النصوص والصور والصوت والفيديو بدون دمج وحدات منفصلة. تتضمن السلسلة إصدارات Plus و Flash و…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
أطلقت Alibaba نموذج Qwen3.5-Omni — نموذج متعدد الأنماط الأصلي للنصوص والصوت والفيديو
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

قدمت علي بابا Qwen3.5-Omni — نموذج متعدد الوسائط الأصلي الذي يفهم النصوص والصور والصوت والفيديو في معمارية واحدة ويمكنه الرد بالصوت في الوقت الفعلي.

كيفية بناء النموذج

الفكرة الرئيسية وراء Qwen3.5-Omni هي أنه ليس مجموعة من النماذج المنفصلة المتصلة فوق نواة نصية، بل نظام موحد مصمم منذ البداية للتعامل مع أنواع متعددة من البيانات. تقابل علي بابا هذا النهج بالصيغة القديمة للوسائط المتعددة، حيث كانت الرؤية أو الصوت تُضاف ببساطة إلى نموذج اللغة الكبير من خلال محررات خارجية. بالنسبة للمطورين، يكون الفرق مهماً: المعمارية الأصلية عادة ما تحافظ على سياق أفضل بين القنوات، وتربط الكلام بالصور بدقة أكثر، وتتسع بسهولة أكبر للسيناريوهات الواقعية مثل المكالمات وتحليل الفيديو والمساعدين الصوتيين.

في التقرير التقني، يوصف Qwen3.5-Omni بأنه نموذج متعدد الوسائط مع معمارية Hybrid Attention Mixture-of-Experts لدائرتين — Thinker و Talker. الأول مسؤول عن الفهم والاستدلال، والثاني عن استجابات الصوت المستمرة. تؤكد Qwen أن النموذج تدرب على أزواج نصوص-صور غير متجانسة وأكثر من 100 مليون ساعة من البيانات السمعية البصرية. نافذة السياق المعلن عنها هي 256 ألف رمز، مما يعني أن جلسة واحدة يمكن أن تتضمن محادثات طويلة جداً وتسجيلات الاجتماعات والمحاضرات والصور والمقاطع الفيديوية دون الحاجة إلى تقسيمها إلى عشرات الطلبات الصغيرة.

تأتي السلسلة في عدة متغيرات: Plus و Flash و Light. يشير هذا إلى منطق مألوف لخط المنتجات — أقصى جودة للمهام المعقدة، وضع سريع للسيناريوهات التفاعلية ونسخة أخف للاقتصاد في الحوسبة. تؤكد علي بابا بشكل منفصل على التشغيل في الوقت الفعلي: يمكن لـ Qwen3.5-Omni أن يبث الردود بالنص والكلام الطبيعي، وآلية ARIA مسؤولة عن توليد صوت أكثر استقراراً وسلاسة، وتوازن ديناميكياً بين وحدات النص والكلام.

الإمكانيات الرئيسية للإصدار

وفقاً للتقرير التقني، يظهر Qwen3.5-Omni-Plus أفضل النتائج على 215 مهمة ومعيار متعلقة بفهم الصوت والسمعي البصري والاستدلال والتفاعل. تلاحظ Qwen بشكل منفصل أن النموذج يتفوق على Gemini 3.1 Pro في مهام الصوت الرئيسية وهو في مستوى مماثل في فهم سمعي بصري شامل. بالنسبة لعلي بابا، هذه إشارة مهمة للسوق: المنافسة في قطاع النماذج القوية متعددة الوسائط لم تعد مقتصرة على OpenAI و Google، والمختبرات الصينية تطالب بالقيادة بالضبط في الأوضاع الأكثر تعقيداً — الصوت والفيديو والحوار المباشر.

  • نافذة سياق بحجم 256k
  • أكثر من 10 ساعات صوت في جلسة واحدة
  • أكثر من 400 ثانية من الفيديو 720p بمعدل 1 FPS
  • متغيرات Plus و Flash و Light
  • تعليقات توضيحية منظمة مع المشاهد والطوابع الزمنية

جزء قوي آخر من الإصدار هو العمل مع أوصاف الصوت والفيديو. يناقش التقرير التعليقات التوضيحية المنظمة على مستوى المشهد: يمكن للنموذج بناء أوصاف مفصلة مع مزامنة زمنية دقيقة وتقسيم تلقائي للمشاهد. هذا مفيد ليس فقط لأرشيفات الوسائط، بل أيضاً للبحث عن الفيديوهات وتحليل المكالمات والتدريب وسيناريوهات إمكانية الوصول والتحكم في جودة المحتوى.

في الأساس، تدفع علي بابا Qwen3.5-Omni نحو طبقة فهم عالمية لأي صيغة وسائط، بدلاً من مجرد "روبوت دردشة يسمع أيضاً". بشكل منفصل، يلاحظ الباحثون ظهور قدرة جديدة تسمى Audio-Visual Vibe Coding. يتعلق الأمر بالترميز المباشر من التعليمات السمعية البصرية: يمكن للنموذج تفسير ليس فقط الطلب النصي، بل أيضاً شرح صوتي مع سياق بصري. في الوقت الحالي، هذا أكثر من إشارة بحثية من منتج جاهز للسوق الشامل، لكن الاتجاه ذو دلالة. إذا استقرت هذه الأوضاع، يمكن للمطور تجنب إعادة كتابة تقرير الخطأ يدوياً إلى نص، وببساطة عرض الواجهة، وشرح المشكلة شفوياً، والحصول على مسودة حل عملي.

ما يعنيه هذا

يوضح Qwen3.5-Omni أن المرحلة التالية من سباق الذكاء الاصطناعي ليست عن روبوت دردشة نصي آخر، بل عن نماذج تعمل بثقة متساوية مع الصوت والصور والفيديو والكلام في تدفق واحد. بالنسبة للأعمال التجارية، يفتح هذا الباب أمام منتجات أكثر تماسكاً: وكلاء صوتيون وتحليل الاجتماعات والبحث عن الوسائط والواجهات التي تفهم ليس فقط النص، بل كل ما يعرضه المستخدم ويقوله.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…