KDnuggets→ original

Qwen, Gemma, Phi-4: cinq modèles omni open source pour tous les types de données

Cinq modèles ouverts d'AI qui traitent texte, audio, images et vidéo dans une interface unique, sans cloud ni pipelines séparés. Qwen2.5-Omni d'Alibaba…

Traité par IA depuis KDnuggets ; édité par Hamidun News
Qwen, Gemma, Phi-4: cinq modèles omni open source pour tous les types de données
Source : KDnuggets. Collage: Hamidun News.
◐ Écouter l'article

Les modèles omni-modaux open-source — des systèmes capables de traiter simultanément du texte, des images, de l'audio et de la vidéo — sont sortis de la phase expérimentale. Cinq projets fonctionnent déjà localement et conviennent au déploiement en production.

Pourquoi omni, pas pipeline

Une pile IA classique fonctionne comme un pipeline : Whisper transcrit l'audio, un modèle de langage analyse le texte, un modèle séparé traite les images. Les modèles omni-modaux fonctionnent différemment — un seul encodeur accepte n'importe quel type de données d'entrée, un seul décodeur produit la sortie. Cela réduit la complexité architecturale et améliore la compréhension du contexte : le modèle voit une image et entend une question simultanément, pas séquentiellement.

Cinq modèles qui fonctionnent maintenant

Qwen2.5-Omni d'Alibaba Research — le projet le plus mature des cinq. Accepte le texte, l'audio, les images et la vidéo ; répond avec du texte et de la parole synthétisée. La latence d'interaction vocale est inférieure à 500 ms. Disponible en tailles de 3B à 72B paramètres, la licence permet un usage commercial.

InternVL3 d'OpenGVLab — focus sur la compréhension des images, des clips vidéo et des documents. Extrait des données structurées des tableaux, formulaires et PDF avec plus de précision que la plupart des systèmes OCR spécialisés. Supporte plus de 20 langues, y compris le cyrillique.

Gemma 3n de Google — modèle multimodal optimisé pour les appareils de périphérie. Avec 4B paramètres, il utilise moins de 3 GB de mémoire et fonctionne sur les téléphones. Traite le texte et les images ; l'audio via un adaptateur séparé.

Phi-4 Multimodal de Microsoft — accent sur le raisonnement à propos des images et du texte. Gère bien les diagrammes scientifiques, les formules mathématiques et les schémas. Convient pour les applications techniques et éducatives.

MiniCPM-o 2.6 de ModelBest — modèle any-to-any compact avec 8B paramètres supportant le traitement en continu. Bon pour les chatbots vocaux à faible latence. Résumé des capacités :

  • Qwen2.5-Omni — any-to-any complet incluant la génération de parole, 3B–72B
  • InternVL3 — meilleur en OCR et intelligence documentaire, jusqu'à 78B
  • Gemma 3n — plus compact, optimisé pour les appareils mobiles
  • Phi-4 Multimodal — raisonnement fort sur les images et les diagrammes
  • MiniCPM-o 2.6 — traitement en continu, bon pour les assistants en temps réel

Comment choisir pour votre tâche

Pour un assistant vocal à faible latence — Qwen2.5-Omni ou MiniCPM-o. Pour l'analyse de documents et de formulaires — InternVL3. Pour exécuter sur du matériel faible ou des appareils mobiles — Gemma 3n. Pour les applications techniques avec diagrammes — Phi-4. Lors des tests, vérifiez si le modèle supporte l'entrée audio en continu, comment l'OCR se comporte sur du texte manuscrit et des polices non-standard, combien de VRAM est requis et si l'inférence CPU est possible. Séparément, la licence : Apache 2.0 permet l'usage commercial sans restriction, Gemma nécessite un accord séparé avec Google.

Ce que cela signifie

Les modèles omni-modaux open-source font la transition des benchmarks académiques au déploiement dans le monde réel. Les entreprises qui ont construit des pipelines complexes à partir de plusieurs modèles spécialisés peuvent désormais les remplacer par un seul — avec une surcharge réduite et une compréhension du contexte plus holistique. Pour les produits avec voix, images et documents, cela change l'architecture de basée sur pipeline à monolithique.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…