أطلقت Alibaba نموذج Qwen3.5-Omni — نموذج متعدد الأنماط الأصلي للنصوص والصوت والفيديو

Q: ما هو المصدر؟

نُشر أصلاً على MarkTechPost. يعالج Hamidun News المواد ويكيّفها بالذكاء الاصطناعي.

Q: متى نُشر؟

30 أبريل 2026. وقت القراءة: 3 دقيقة.

عرضت Alibaba نموذج Qwen3.5-Omni — نموذج شامل الأنماط جديد يعمل مع النصوص والصور والصوت والفيديو بدون دمج وحدات منفصلة. تتضمن السلسلة إصدارات Plus و Flash و…

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · MarkTechPost

30 أبريل 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News

أطلقت Alibaba نموذج Qwen3.5-Omni — نموذج متعدد الأنماط الأصلي للنصوص والصوت والفيديو — المصدر: MarkTechPost. كولاج: Hamidun News.

◐ استمع للمقال

قدمت علي بابا Qwen3.5-Omni — نموذج متعدد الوسائط الأصلي الذي يفهم النصوص والصور والصوت والفيديو في معمارية واحدة ويمكنه الرد بالصوت في الوقت الفعلي.

كيفية بناء النموذج

الفكرة الرئيسية وراء Qwen3.5-Omni هي أنه ليس مجموعة من النماذج المنفصلة المتصلة فوق نواة نصية، بل نظام موحد مصمم منذ البداية للتعامل مع أنواع متعددة من البيانات. تقابل علي بابا هذا النهج بالصيغة القديمة للوسائط المتعددة، حيث كانت الرؤية أو الصوت تُضاف ببساطة إلى نموذج اللغة الكبير من خلال محررات خارجية. بالنسبة للمطورين، يكون الفرق مهماً: المعمارية الأصلية عادة ما تحافظ على سياق أفضل بين القنوات، وتربط الكلام بالصور بدقة أكثر، وتتسع بسهولة أكبر للسيناريوهات الواقعية مثل المكالمات وتحليل الفيديو والمساعدين الصوتيين.

في التقرير التقني، يوصف Qwen3.5-Omni بأنه نموذج متعدد الوسائط مع معمارية Hybrid Attention Mixture-of-Experts لدائرتين — Thinker و Talker. الأول مسؤول عن الفهم والاستدلال، والثاني عن استجابات الصوت المستمرة. تؤكد Qwen أن النموذج تدرب على أزواج نصوص-صور غير متجانسة وأكثر من 100 مليون ساعة من البيانات السمعية البصرية. نافذة السياق المعلن عنها هي 256 ألف رمز، مما يعني أن جلسة واحدة يمكن أن تتضمن محادثات طويلة جداً وتسجيلات الاجتماعات والمحاضرات والصور والمقاطع الفيديوية دون الحاجة إلى تقسيمها إلى عشرات الطلبات الصغيرة.

تأتي السلسلة في عدة متغيرات: Plus و Flash و Light. يشير هذا إلى منطق مألوف لخط المنتجات — أقصى جودة للمهام المعقدة، وضع سريع للسيناريوهات التفاعلية ونسخة أخف للاقتصاد في الحوسبة. تؤكد علي بابا بشكل منفصل على التشغيل في الوقت الفعلي: يمكن لـ Qwen3.5-Omni أن يبث الردود بالنص والكلام الطبيعي، وآلية ARIA مسؤولة عن توليد صوت أكثر استقراراً وسلاسة، وتوازن ديناميكياً بين وحدات النص والكلام.

الإمكانيات الرئيسية للإصدار

وفقاً للتقرير التقني، يظهر Qwen3.5-Omni-Plus أفضل النتائج على 215 مهمة ومعيار متعلقة بفهم الصوت والسمعي البصري والاستدلال والتفاعل. تلاحظ Qwen بشكل منفصل أن النموذج يتفوق على Gemini 3.1 Pro في مهام الصوت الرئيسية وهو في مستوى مماثل في فهم سمعي بصري شامل. بالنسبة لعلي بابا، هذه إشارة مهمة للسوق: المنافسة في قطاع النماذج القوية متعددة الوسائط لم تعد مقتصرة على OpenAI و Google، والمختبرات الصينية تطالب بالقيادة بالضبط في الأوضاع الأكثر تعقيداً — الصوت والفيديو والحوار المباشر.

نافذة سياق بحجم 256k
أكثر من 10 ساعات صوت في جلسة واحدة
أكثر من 400 ثانية من الفيديو 720p بمعدل 1 FPS
متغيرات Plus و Flash و Light
تعليقات توضيحية منظمة مع المشاهد والطوابع الزمنية

جزء قوي آخر من الإصدار هو العمل مع أوصاف الصوت والفيديو. يناقش التقرير التعليقات التوضيحية المنظمة على مستوى المشهد: يمكن للنموذج بناء أوصاف مفصلة مع مزامنة زمنية دقيقة وتقسيم تلقائي للمشاهد. هذا مفيد ليس فقط لأرشيفات الوسائط، بل أيضاً للبحث عن الفيديوهات وتحليل المكالمات والتدريب وسيناريوهات إمكانية الوصول والتحكم في جودة المحتوى.

في الأساس، تدفع علي بابا Qwen3.5-Omni نحو طبقة فهم عالمية لأي صيغة وسائط، بدلاً من مجرد "روبوت دردشة يسمع أيضاً". بشكل منفصل، يلاحظ الباحثون ظهور قدرة جديدة تسمى Audio-Visual Vibe Coding. يتعلق الأمر بالترميز المباشر من التعليمات السمعية البصرية: يمكن للنموذج تفسير ليس فقط الطلب النصي، بل أيضاً شرح صوتي مع سياق بصري. في الوقت الحالي، هذا أكثر من إشارة بحثية من منتج جاهز للسوق الشامل، لكن الاتجاه ذو دلالة. إذا استقرت هذه الأوضاع، يمكن للمطور تجنب إعادة كتابة تقرير الخطأ يدوياً إلى نص، وببساطة عرض الواجهة، وشرح المشكلة شفوياً، والحصول على مسودة حل عملي.

ما يعنيه هذا

يوضح Qwen3.5-Omni أن المرحلة التالية من سباق الذكاء الاصطناعي ليست عن روبوت دردشة نصي آخر، بل عن نماذج تعمل بثقة متساوية مع الصوت والصور والفيديو والكلام في تدفق واحد. بالنسبة للأعمال التجارية، يفتح هذا الباب أمام منتجات أكثر تماسكاً: وكلاء صوتيون وتحليل الاجتماعات والبحث عن الوسائط والواجهات التي تفهم ليس فقط النص، بل كل ما يعرضه المستخدم ويقوله.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية