36Kr (36氪)→ original

Ant Group présente Ming-flash-omni 2.0 : une percée multimodale ouverte

Ant Group a présenté Ming-flash-omni 2.0, un puissant modèle multimodal open source. Cette nouveauté se place en tête sur la compréhension des données…

Traité par IA depuis 36Kr (36氪) ; édité par Hamidun News
Ant Group présente Ming-flash-omni 2.0 : une percée multimodale ouverte
Source : 36Kr (36氪). Collage: Hamidun News.
◐ Écouter l'article

Ant Group a ouvert le code source du modèle multimodal le plus ambitieux de son portefeuille — Ming-flash-omni 2.0. L'entreprise affirme que sa création non seulement rivalise avec le Gemini 2.5 Pro de Google, mais le surpasse également dans plusieurs tests critiques. La principale différence réside cependant ailleurs : Ming-flash-omni 2.0 est la première de l'industrie à apprendre à générer de l'audio de manière synchrone — la parole, le bruit de fond et la musique simultanément sur une seule piste. Ce n'est pas simplement une réussite technique, mais une transition vers un nouveau niveau de travail multimédia.

L'émergence d'un modèle multimodal ouvert d'un géant fintech chinois semble faire partie d'une stratégie plus large. Tandis que les leaders du marché occidental — OpenAI, Google, Anthropic — gardent leurs systèmes les plus puissants fermés, des entreprises comme Ant Group commencent à comprendre que l'ouverture peut devenir un avantage concurrentiel. Ming-flash-omni 2.0, lancée en open source, gagne un accès instantané à une communauté de développeurs qui peuvent adapter le modèle aux besoins locaux, l'optimiser pour leurs appareils et créer des applications spécialisées. Ceci est particulièrement significatif pour les marchés asiatiques, où la localisation et l'adaptation culturelle sont critiques.

Concernant les spécifications techniques, le modèle démontre des résultats impressionnants. Dans les tests de compréhension visuo-linguistique et de génération d'images avec édition, Ming-flash-omni 2.0 affiche des résultats qui rivalisant avec Gemini 2.

5 Pro, et même les surpassent dans certains benchmarks. Mais le visuel et le texte sont déjà un terrain familier pour les grands modèles modernes. La véritable innovation réside dans la fonctionnalité audio.

Jusqu'à présent, lors de la synthèse vocale, les développeurs généraient soit la voix séparément, soit ajoutaient les bruits de fond et la musique en tant que couches séparées en post-production. Ming-flash-omni 2.0 change la donne : elle peut créer simultanément les trois composants, en comprenant le contexte et en assurant leur interaction naturelle dans un seul flux temporel.

Cela ouvre les portes à des cas d'usage entièrement nouveaux. Pour la production médiatique, cela signifie accélérer la création de doublage pour le contenu vidéo, les documentaires et les podcasts. Le système peut générer non seulement la parole d'un acteur, mais aussi enrichir le paysage sonore avec des détails atmosphériques. Pour le développement d'applications IA, la capacité de génération audio unifiée permet de construire des systèmes interactifs plus complexes — des assistants intelligents qui sonnent comme de vraies personnes dans le monde réel, aux scénarios de jeux avec un design sonore complet créé à la volée.

Le lancement de Ming-flash-omni 2.0 en open source symbolise un changement dans la géopolitique de l'IA. Alors que auparavant les innovations en multimodalité étaient dominées par les géants occidentaux, les entreprises chinoises montrent maintenant qu'elles peuvent non seulement suivre le rythme, mais aussi avancer dans des directions spécifiques. L'accès ouvert amplificera cet effet, permettant aux développeurs du monde entier d'expérimenter et d'améliorer le modèle. La question est seulement de savoir si l'industrie occidentale peut s'adapter rapidement à la nouvelle réalité, où les meilleurs outils se trouvent souvent en accès ouvert et sont disponibles pour tous, non seulement pour ceux qui peuvent se permettre l'informatique en nuage Tier-1 des grandes entreprises.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…