Alibaba lance Qwen3.5-Omni — un modèle multimodal natif pour le texte, l'audio et la vidéo
Alibaba a présenté Qwen3.5-Omni — un nouveau modèle omnimodal qui traite le texte, les images, l'audio et la vidéo sans assembler des modules séparés. La…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Alibaba a présenté Qwen3.5-Omni — un modèle omnimédial natif qui comprend texte, images, audio et vidéo dans une seule architecture et peut répondre par la voix en temps réel.
Comment le modèle est structuré
L'idée principale derrière Qwen3.5-Omni est qu'il ne s'agit pas d'un ensemble de modèles séparés connectés au-dessus d'un noyau textuel, mais d'un système unifié conçu dès le départ pour plusieurs types de données. Alibaba contraste cette approche avec l'ancien format multimodal, où la vision ou le son étaient simplement "greffés" à un LLM via des encodeurs externes. Pour les développeurs, la différence compte : l'architecture native maintient généralement mieux le contexte entre les canaux, connecte plus précisément la parole avec les images et se met à l'échelle plus facilement pour des scénarios du monde réel comme les appels, l'analyse vidéo et les assistants vocaux.
Dans le rapport technique, Qwen3.5-Omni est décrit comme un modèle omnimédial avec une architecture Hybrid Attention Mixture-of-Experts pour deux circuits — Thinker et Talker. Le premier est responsable de la compréhension et du raisonnement, le second des réponses vocales en streaming. Qwen affirme que le modèle a été entraîné sur des paires texte-image hétérogènes et plus de 100 millions d'heures de données audiovisuelles. La fenêtre de contexte annoncée est de 256 mille tokens, ce qui signifie qu'une seule session peut inclure de très longues conversations, des enregistrements de réunions, des conférences, des captures d'écran et des clips vidéo sans être divisés en douzaines de petites demandes.
La série existe en plusieurs variantes : Plus, Flash et Light. Cela suggère une logique familière de gamme de produits — qualité maximale pour les tâches complexes, mode rapide pour les scénarios interactifs et une version plus légère pour économiser le calcul. Alibaba souligne séparément le fonctionnement en temps réel : Qwen3.5-Omni peut diffuser des réponses en texte et en parole naturelle, et le mécanisme ARIA est responsable d'une génération vocale plus stable et fluide, qui aligne dynamiquement les unités de texte et de parole.
Principales capacités de la version
Selon le rapport technique, Qwen3.5-Omni-Plus affiche les meilleurs résultats sur 215 tâches et benchmarks liés à la compréhension audio et audiovisuelle, au raisonnement et à l'interaction. Qwen note séparément que le modèle surpasse Gemini 3.1 Pro sur les tâches audio clés et est à un niveau comparable en compréhension audiovisuelle complète. Pour Alibaba, c'est un signal important au marché : la concurrence dans le segment des modèles multimodaux puissants ne se limite plus à OpenAI et Google, et les laboratoires chinois revendiquent le leadership précisément dans les modes les plus complexes — voix, vidéo et dialogue en direct.
- Fenêtre de contexte de 256k
- Plus de 10 heures d'audio en une session
- Plus de 400 secondes de vidéo 720p à 1 FPS
- Variantes Plus, Flash et Light
- Sous-titres structurés avec scènes et timestamps
Une autre partie forte de la version est de travailler avec des descriptions d'audio et de vidéo. Le rapport discute des sous-titres structurés au niveau des scènes : le modèle peut construire des descriptions détaillées avec une synchronisation temporelle précise et une segmentation automatique des scènes. Ceci est utile non seulement pour les archives médias, mais aussi pour la recherche vidéo, l'analyse d'appels, la formation, les scénarios d'accessibilité et le contrôle de qualité du contenu.
Essentiellement, Alibaba pousse Qwen3.5-Omni vers une couche de compréhension universelle pour tout format médias, plutôt que simplement un "chatbot qui entend aussi". Séparément, les chercheurs notent l'émergence d'une nouvelle capacité appelée Audio-Visual Vibe Coding. Cela implique un codage direct à partir d'instructions audiovisuelles : le modèle peut interpréter non seulement une demande textuelle, mais aussi une explication vocale avec un contexte visuel. Pour l'instant, c'est plutôt un signal de recherche qu'un produit de masse prêt, mais la direction est révélatrice. Si de tels modes s'établissaient, un développeur pourrait éviter de réécrire manuellement un rapport de bug en texte, et simplement montrer l'interface, décrire le problème verbalement et obtenir un brouillon de solution fonctionnel.
Ce que cela signifie
Qwen3.5-Omni montre que l'étape suivante de la course à l'IA ne concerne pas un autre chatbot textuel, mais des modèles qui fonctionnent avec une confiance égale avec le son, les images, la vidéo et la parole dans un seul flux. Pour les entreprises, cela ouvre la voie à des produits plus cohésifs : des agents vocaux, l'analyse de réunions, la recherche de médias et des interfaces qui comprennent non seulement le texte, mais tout ce que l'utilisateur montre et dit.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.