النماذج

نموذج متعدد الأنماط (Multimodal Model)

نموذج متعدد الأنماط هو نظام ذكاء اصطناعي يعالج وينتج بيانات عبر أكثر من نمط واحد — مثل النص والصور والصوت أو الفيديو — ضمن معمارية موحدة واحدة.

نموذج متعدد الأنماط هو نظام ذكاء اصطناعي قادر على استيعاب والاستدلال حول وتوليد محتوى في أكثر من نوع بيانات واحد (نمط). الجمع الأكثر شيوعاً هو النص والصور، لكن الأنظمة الحدودية في 2026 تتعامل أيضاً مع الصوت والفيديو والجداول المنظمة والكود. بخلاف خط أنابيب يربط نماذج أحادية النمط منفصلة، يعالج النموذج متعدد الأنماط جميع المدخلات معاً، مما يسمح بالاستدلال عبر الأنماط في مسار استدلال واحد — على سبيل المثال، الإجابة على سؤال تتطلب إجابته قراءة نص مضمن في صورة ودمجه مع السياق الحواري المحيط.

تقترن معظم المعماريات بمشفرات خاصة بالنمط مع العمود الفقري لنموذج لغة مركزي. عادة ما يكون مشفر الرؤية — وغالباً ما يكون Vision Transformer (ViT) مُدرَّب مسبقاً مع أهداف تباينية مثل CLIP — يحول رقع الصور إلى تضمينات كثيفة. تخطط طبقة إسقاط خفيفة الوزن (MLP أو وحدة cross-attention) هذه إلى فضاء تضمين الرموز للنموذج اللغوي، مما يسمح للفاكك الانحداري بالالتفات إلى رموز بصرية ونصية معاً. يتم التعامل مع مدخلات الصوت والفيديو بواسطة مشفرات مماثلة. تذهب بعض الأنظمة، مثل GPT-4o، أبعد وتدرب نموذجاً واحداً من النهاية إلى النهاية عبر الأنماط بدلاً من تكوين وحدات منفصلة.

القدرة متعددة الأنماط مهمة لأن المعلومات الحقيقية نادراً ما تأتي في صيغة واحدة. الأوراق العلمية تجمع النص والأشكال والمعادلات؛ خدمة العملاء تتضمن الكلام ومحتوى الشاشة؛ فحص التصنيع يعتمد على الصور وتيارات المستشعرات. يمكن لنموذج متعدد الأنماط أن يحل محل خطوط أنابيب كاملة من الأدوات المتخصصة، مما يقلل من الكمون وتعقيد التكامل وأنماط الفشل عند نقاط الانتقال بين المكونات.

اعتباراً من 2026، تعتبر تعددية الأنماط الأصلية توقعاً أساسياً لمنتجات الذكاء الاصطناعي الحدودي. GPT-4o و Gemini 2.0 و 2.5 و Claude 3.7 و 4 تقبل جميعها مدخلات النص والصور وفي بعض الحالات الصوت والفيديو أيضاً. نماذج متعددة الأنماط ذات أوزان مفتوحة — بما في ذلك LLaMA 3.2 Vision و Qwen-VL-Max و InternVL2 — أغلقت الفجوة بشكل كبير مع الأنظمة الملكية على المعايير القياسية. تحول التركيز البحثي نحو التوليد من أي إلى أي: أنظمة تنتج صوراً وصوتاً أو فيديو بنفس سهولة النص.

مثال

يحمل محلل تقرير أرباح من 40 صفحة يحتوي على مخططات مضمنة وجداول مشروحة بالهوامش إلى نموذج متعدد الأنماط ويطلب منه تحديد ثلاثة أكبر التغييرات في الإيرادات سنة على سنة؛ يقرأ النموذج المخططات والجداول في السياق، يقابل المناقشة النصية، ويرجع إجابة مرتبة مع الاستشهاد بمواقع صفحات محددة.

مصطلحات مرتبطة

نموذج الرؤية واللغة (VLM)Large Language Model (LLM)نموذج تحويل النص إلى صور (Text-to-Image Model)التعرف على الكلام (Speech Recognition)

آخر الأخبار حول الموضوع

أطلقت Alibaba نموذج Qwen3.5-Omni — نموذج متعدد الأنماط الأصلي للنصوص والصوت والفيديو2026-04-30 أطلقت Nvidia نموذج Nemotron 3 Nano Omni — نموذج متعدد الأنماط مفتوح المصدر لوكلاء الحافة2026-04-28 Z.ai تطلق GLM-5V-Turbo — نموذج متعدد الأنماط الأصلي للبرمجة البصرية2026-04-28

← المسرد