36Kr (36氪)→ original

Xiaomi ouvre le code source de son premier modèle VLA pour les robots

Xiaomi a franchi une étape importante dans le développement de la robotique en ouvrant le code source de son premier modèle VLA (Vision-Language-Action)…

Traité par IA depuis 36Kr (36氪) ; édité par Hamidun News
Xiaomi ouvre le code source de son premier modèle VLA pour les robots
Source : 36Kr (36氪). Collage: Hamidun News.
◐ Écouter l'article

Xiaomi ouvre le code source de son premier modèle VLA pour robots

Xiaomi ouvre le code source de son premier modèle VLA et change les règles du jeu en robotique

Xiaomi a franchi une étape décisive dans le développement de systèmes autonomes en ouvrant le code source de Xiaomi-Robotics-0 — son premier modèle Vision-Language-Action pour robots. L'annonce, faite le 12 février, signifie que les développeurs du monde entier auront accès à des modèles avec 4,7 milliards de paramètres qui combinent la perception visuelle, la compréhension du langage naturel et le contrôle des robots en temps réel. Ce n'est pas simplement un autre projet open-source — c'est un signal que le géant technologique chinois parie sérieusement sur le développement de l'IA multimodale pour l'automatisation physique et est prêt à partager ses réalisations avec la communauté mondiale des développeurs.

Jusqu'à présent, le domaine des modèles VLA est resté le territoire de quelques élus. Les solutions les plus puissantes dans ce domaine ont été créées par des entreprises comme Tesla avec leur appareil de manipulation d'objets et Google DeepMind avec leurs expériences de robotique. Ces modèles apprennent à connecter ce que voient les robots avec des commandes en langage naturel et des actions spécifiques en temps réel.

Le problème est que l'entraînement de tels systèmes nécessite un volume massif de données vidéo, des ressources informatiques puissantes et une compréhension profonde de la mécanique des robots. L'ouverture de Xiaomi change cette dynamique. En libérant le code source et les poids de son modèle, l'entreprise démocratise l'accès à une technologie qui était auparavant la prérogative des grandes corporations avec des budgets énormes.

Xiaomi-Robotics-0 est conçu pour fonctionner de manière efficace et pratique. Un modèle avec 4,7 milliards de paramètres est le juste milieu entre vitesse et performance. Il est suffisamment compact pour s'exécuter sur des plateformes de robots avec des capacités informatiques limitées, mais possède suffisamment de puissance pour résoudre des tâches complexes de manipulation.

L'architecture combine trois composants clés : un encodeur visuel qui analyse les images des caméras du robot ; un composant linguistique qui traite les instructions de l'utilisateur en langage naturel ; et un module d'action qui génère des commandes de contrôle en temps réel. Cette intégration est critique car un robot ne doit pas seulement comprendre la tâche (par exemple, "prends le cube rouge"), mais aussi la traduire immédiatement en coordonnées de mouvement et force de préhension.

La stratégie de Xiaomi d'ouvrir le code a une logique claire. Dans l'écosystème de la robotique, la concurrence se déploie non pas tant au niveau des modèles, mais au niveau du matériel, des logiciels et de l'écosystème d'applications. En ouvrant le modèle VLA, l'entreprise permet à des milliers de développeurs d'expérimenter de nouveaux cas d'usage et d'adapter la technologie à leurs propres robots. Cela crée un effet de valeur réseau : plus les gens améliorent le modèle et trouvent de nouvelles applications, plus grande est la probabilité que les solutions émergeant de cette communauté fonctionnent avec les développements internes de Xiaomi.

Pour l'industrie, cela signifie un développement accéléré. Les startups, les universités et les corporations pourront expérimenter le contrôle multimodal des robots sans repartir de zéro. Le modèle est déjà entraîné sur des données réelles et possède une architecture raisonnable qui peut être adaptée pour différentes plateformes. C'est particulièrement important à un moment où la robotique est au seuil de la transition des laboratoires vers la production et la vie quotidienne.

Le mouvement de Xiaomi démontre une tendance plus large : les leaders en IA comprennent de plus en plus que l'ouverture d'une partie de leurs développements crée un écosystème plus fort que le contrôle strict. Cela ne signifie pas que l'entreprise abandonne ses robots — au contraire, ils resteront fermés et propriétaires. Mais le modèle VLA devient la fondation sur laquelle une industrie entière se développera, et Xiaomi pose déjà les briques de cette fondation aujourd'hui.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…