36Kr (36氪)→ original

Unitree UnifoLM-VLA-0 : les robots chinois apprennent à penser avec leurs mains

Pendant longtemps, nous avons regardé les robots humanoïdes comme des pièces impressionantes de machinerie qui pouvaient faire des acrobaties mais entraient…

Traité par IA depuis 36Kr (36氪) ; édité par Hamidun News
Unitree UnifoLM-VLA-0 : les robots chinois apprennent à penser avec leurs mains
Source : 36Kr (36氪). Collage: Hamidun News.
◐ Écouter l'article

Pendant longtemps, nous avons regardé les robots humanoïdes comme des pièces impressionantes de machinerie qui pouvaient faire des acrobaties mais entraient en panique face à une simple poignée de porte. Le problème ne venait pas des moteurs, mais de la « tête ». Et maintenant Unitree, une entreprise qui nous a déjà habitués aux robots abordables, a décidé de prendre l'intelligence artificielle au sérieux.

Ils ont open-sourcé UnifoLM-VLA-0, et cet événement pourrait changer les règles du jeu de l'industrie plus vite qu'il n'y paraît au premier abord. Nous transitons enfin de simples réseaux de neurones qui ne savent que parler, à des modèles comme VLA (Vision-Language-Action), capables de contrôler un corps physique dans l'espace réel. Pour comprendre l'ampleur, nous devons nous souvenir de comment les robots apprenaient autrefois.

C'était généralement soit une logique logicielle rigide, soit un apprentissage par renforcement pour une tâche spécifique et étroite. Si vous enseigniez à un robot à ouvrir un réfrigérateur, c'était tout ce qu'il pouvait faire. UnifoLM-VLA-0 fonctionne différemment.

C'est un descendant de grands modèles de langage qui a subi un fine-tuning sur des données spécifiques d'interaction physique. Le résultat est un « cerveau incarné » qui comprend le contexte. Il ne voit pas simplement une pomme sur une table, il comprend comment la saisir, avec quelle force la serrer et où la placer, en fonction de la commande textuelle de l'utilisateur.

La chose la plus ironique ici est qu'Unitree a choisi la voie de l'ouverture. Alors que les géants occidentaux et même certains concurrents chinois construisent des « jardins clos », cachant l'architecture de leurs systèmes de contrôle, Unitree met ses cartes sur la table. C'est un calcul stratégique.

En open-sourçant UnifoLM-VLA-0, ils invitent essentiellement des milliers de développeurs du monde entier à tester, améliorer et adapter leur modèle à une grande variété de matériel. C'est un mouvement classique du manuel d'histoire du logiciel : si vous ne pouvez pas vaincre tout le monde seul, devenez la norme pour tous. Si demain chaque deuxième projet de recherche en robotique utilise les cerveaux d'Unitree, la question du leadership de l'industrie se résoudra d'elle-même.

Techniquement, le modèle UnifoLM-VLA-0 tente de combler l'écart entre la compréhension visuelle (VLM) et l'action réelle. Les modèles ordinaires hallucinent souvent ou ne comprennent pas les lois de la physique — ils peuvent « dire » qu'ils ont soulevé une tasse, mais leur main virtuelle la traversera. La nouvelle architecture d'Unitree vise à doter le robot de ce que les ingénieurs appellent le « bon sens physique ».

C'est la connaissance que les objets ont du poids, de la friction et de l'inertie. Sans cela, les humanoïdes resteraient de coûteux jouets d'exposition, capables seulement de faire des signes aux passants dans un cycle préenregistré. Ce que cela signifie pour nous ?

Nous verrons probablement une augmentation nette des capacités des robots domestiques et d'entrepôt au cours de l'année ou deux à venir. Lorsque le logiciel devient du domaine public, le progrès s'accélère exponentiellement. Nous l'avons déjà vu avec les modèles de langage après la sortie de LLaMA.

Maintenant c'est au tour du monde physique. Bien sûr, un véritable robot majordome est encore loin, mais le fondement sous la forme d'un « cerveau » ouvert a déjà été posé. Maintenant c'est à la communauté, qui doit apprendre à ce cerveau non seulement à comprendre les commandes, mais aussi à ne pas tout casser en les exécutant.

Le point clé : Unitree mise sur l'open-source, en essayant de devenir le « Android » du monde de la robotique. Les systèmes propriétaires fermés comme Tesla Optimus pourront-ils résister à la concurrence de l'intelligence collective des développeurs ?

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…