KDnuggets→ المصدر

Qwen وGemma وPhi-4: خمسة نماذج omni مفتوحة المصدر لكل أنواع البيانات

خمسة نماذج AI مفتوحة تعالج النص والصوت والصور والفيديو ضمن واجهة واحدة، من دون سحابة ومن دون خطوط معالجة منفصلة. يستقبل Qwen2.5-Omni من Alibaba الكلام…

معالج بواسطة الذكاء الاصطناعي من KDnuggets؛ بتحرير Hamidun News
Qwen وGemma وPhi-4: خمسة نماذج omni مفتوحة المصدر لكل أنواع البيانات
المصدر: KDnuggets. كولاج: Hamidun News.
◐ استمع للمقال

نماذج متعددة الوسائط مفتوحة المصدر — أنظمة قادرة على معالجة النصوص والصور والصوت والفيديو في نفس الوقت — خرجت من مرحلة التجارب. خمسة مشاريع تعمل بالفعل محليًا وتناسب النشر في الإنتاج.

لماذا omni وليس pipeline

تعمل مجموعة الذكاء الاصطناعي الكلاسيكية كخط أنابيب: يقوم Whisper بنسخ الصوت، ونموذج اللغة بتحليل النص، ونموذج منفصل بمعالجة الصور. تعمل النماذج متعددة الوسائط بشكل مختلف — يقبل محرك ترميز واحد أي نوع من بيانات الإدخال، ومحرك فك ترميز واحد ينتج المخرجات. هذا يقلل من التعقيد المعماري ويحسن فهم السياق: يرى النموذج صورة ويسمع سؤالاً في نفس الوقت، وليس على التوالي.

خمسة نماذج تعمل الآن

Qwen2.5-Omni من Alibaba Research — المشروع الأكثر نضجًا من بين الخمسة. يقبل النصوص والصوت والصور والفيديو؛ يستجيب بالنصوص والكلام المركب. كمون تفاعل الصوت أقل من 500 مللي ثانية. متاح بأحجام من 3B إلى 72B معامل، الترخيص يسمح بالاستخدام التجاري.

InternVL3 من OpenGVLab — التركيز على فهم الصور ومقاطع الفيديو والمستندات. يستخرج البيانات المنظمة من الجداول والنماذج وملفات PDF بدقة أكبر من معظم أنظمة OCR المتخصصة. يدعم أكثر من 20 لغة، بما فيها الكيريلية.

Gemma 3n من Google — نموذج متعدد الوسائط محسَّن للأجهزة الحدية. مع 4B معامل، يستخدم أقل من 3 غيغابايت من الذاكرة ويعمل على الهواتف. يعالج النصوص والصور؛ الصوت من خلال محول منفصل.

Phi-4 Multimodal من Microsoft — التركيز على التفكير حول الصور والنصوص. يتعامل جيدًا مع الرسوم البيانية العلمية والصيغ الرياضية والمخططات. مناسب للتطبيقات التقنية والتعليمية.

MiniCPM-o 2.6 من ModelBest — نموذج any-to-any مضغوط بـ 8B معامل مع دعم المعالجة المتدفقة. جيد لأدوات دردشة صوتية بكمون منخفض. ملخص القدرات:

  • Qwen2.5-Omni — any-to-any كامل بما في ذلك توليد الكلام، 3B–72B
  • InternVL3 — الأفضل في OCR وذكاء المستندات، حتى 78B
  • Gemma 3n — الأكثر إحكاما، محسَّن للأجهزة المحمولة
  • Phi-4 Multimodal — استدلال قوي حول الصور والمخططات
  • MiniCPM-o 2.6 — المعالجة المتدفقة، جيدة للمساعدات في الوقت الفعلي

كيفية الاختيار حسب مهمتك

لمساعد صوتي بكمون منخفض — Qwen2.5-Omni أو MiniCPM-o. لتحليل المستندات والنماذج — InternVL3. للتشغيل على أجهزة ضعيفة أو أجهزة محمولة — Gemma 3n. للتطبيقات التقنية ذات المخططات — Phi-4. أثناء الاختبار، تحقق مما إذا كان النموذج يدعم إدخال الصوت المتدفق، وكيف يتصرف OCR على النصوص المكتوبة بخط اليد والخطوط غير القياسية، وكم VRAM مطلوب وما إذا كان الاستدلال من CPU ممكنًا. بشكل منفصل، الترخيص: Apache 2.0 يسمح بالاستخدام التجاري بدون قيود، Gemma يتطلب اتفاقية منفصلة مع Google.

ما يعني هذا

تنتقل النماذج متعددة الوسائط مفتوحة المصدر من معايير أكاديمية إلى النشر في العالم الحقيقي. يمكن للشركات التي بنت خطوط أنابيب معقدة من عدة نماذج متخصصة أن تستبدلها الآن بواحدة — مع تكاليف عامة أقل وفهم أكثر شمولاً للسياق. بالنسبة للمنتجات التي تحتوي على صوت وصور ومستندات، يغير هذا الهندسة المعمارية من القائمة على خط الأنابيب إلى الأحادية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…