Comment OpenAI, Google et Figure Transforment l'Entraînement des Robots : Un Bref Historique de l'Approche
Jusqu'à récemment, la robotique fonctionnait en mode "rêver de C-3PO, lancer Roomba". Maintenant, la logique change : au lieu de règles codées en dur, les…
Traité par IA depuis MIT Technology Review ; édité par Hamidun News
La robotique ne connaît pas simplement un autre cycle de développement matériel, mais un changement fondamental de la logique même de l'apprentissage : les machines sont de plus en plus entraînées sur des données, des simulations et de grands modèles multimodaux, plutôt que d'être programmées manuellement. Pendant longtemps, l'industrie a enregistré un écart notable entre les ambitions et les résultats. Les ingénieurs rêvaient de robots au niveau de la science-fiction — des assistants universels capables de se déplacer dans le monde ordinaire, de comprendre les gens et d'accomplir en toute sécurité des dizaines de tâches.
En pratique, le marché a fonctionné pendant des décennies principalement sur des systèmes plus étroits : bras robotiques pour les usines, manipulateurs d'entrepôt et appareils de consommation comme les aspirateurs robots. La raison n'était pas le manque de mécanique, mais le fait que les robots avaient du mal avec les environnements imprévisibles. Tout écart par rapport au scénario — un nouvel objet, un angle de visualisation différent, un éclairage modifié — cassait rapidement leur comportement.
Le premier grand changement est venu avec l'apprentissage par essai et erreur. Dans les années 2010, les roboticiens ont commencé à utiliser activement l'apprentissage par renforcement et les simulateurs, où les machines pouvaient s'entraîner des millions de fois sans risque de casser un équipement coûteux. Un exemple notable est la main robotique Dactyl d'OpenAI, qui a été entraînée en simulation pour manipuler un Rubik's cube, puis le talent a été transféré au monde réel.
L'idée clé était la randomisation de domaine : pendant l'entraînement, les paramètres de l'environnement changeaient — friction, masse des objets, images des caméras et autres détails. De cette façon, le robot a appris non un scénario parfait, mais un comportement robuste dans une large gamme de conditions.
En parallèle, l'apprentissage par démonstration s'est développé : les robots ont commencé à être enseignés en montrant des actions humaines plutôt que de programmer manuellement chaque règle. Mais même cela ne suffisait pas. Les simulations ont accéléré l'apprentissage, mais l'écart entre les environnements virtuels et physiques n'a pas disparu, et les données réelles sont restées chères et rares.
Donc, la prochaine étape a commencé quand la robotique a adopté des approches du boom des grands modèles. Au lieu de systèmes séparés pour des tâches individuelles, les chercheurs ont commencé à assembler de grands ensembles de données de trajectoires, d'images, d'instructions textuelles et d'actions. Chez Google, le modèle RT-1 a été entraîné sur 130 000 épisodes collectés par une flotte de 13 robots couvrant plus de 700 tâches.
Et RT-2 a été plus loin : il a combiné les données robotiques avec les données web des modèles de vision-langage, de sorte que le robot pouvait non seulement répéter des mouvements familiers, mais aussi faire des déductions plus générales à partir de commandes en langage naturel.
Ce même tournant est visible dans les projets qui tentent d'étendre l'apprentissage sur différents types de machines. Dans l'ensemble Open X-Embodiment, les chercheurs ont collecté des données de 22 robots de 21 institutions et décrit des centaines de compétences afin que les modèles puissent transférer l'expérience entre les plates-formes, plutôt que de recommencer à zéro pour chaque nouveau manipulateur. Sur cela repose l'idée de modèles fondamentaux pour le monde physique : une intelligence de base unique ajustée pour un corps, un préhenseur ou un environnement de travail spécifique. Des startups comme Figure, Apptronik, Covariant et Physical Intelligence construisent non seulement de la recherche, mais aussi des stratégies commerciales autour de cela.
Dans ce contexte, le marché s'est revitalisé. En 2025, les entreprises et les investisseurs ont investi 6,1 milliards de dollars dans les robots humanoïdes — quatre fois plus que l'année précédente. L'argent circule non pas parce que les robots savent déjà tout faire, mais parce qu'un chemin plus plausible pour leur formation dans des environnements réels a émergé.
Pourtant, les robots universels restent lointains. Les machines ont encore du mal avec les longues séquences d'actions, la manipulation délicate de multiples objets simultanément, le travail dans des espaces encombrés et l'interaction sûre avec les humains sans scènes pré-préparées. Contrairement aux modèles de langage, un robot ne peut pas simplement faire une erreur en texte : son erreur signifie un objet qui tombe, une panne, un arrêt ou un risque pour les humains.
Donc l'industrie avance par un chemin hybride : plus de simulations, plus de données réelles de flottes, plus de modèles généraux, mais aussi plus de contraintes de sécurité et d'économie.
La conclusion principale est simple : la percée en robotique est maintenant liée non pas tant à un nouveau type de corps qu'à un nouveau modèle d'apprentissage. L'industrie passe d'un monde où chaque mouvement devait être prescrit à l'avance à un monde où le comportement peut d'abord être appris, puis transféré à un autre robot et continuellement amélioré en exploitation. Ce n'est pas encore l'androïde promis de la fiction, mais déjà une trajectoire d'ingénierie claire qui a fait des robots à nouveau un gros pari pour les chercheurs et les investisseurs.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.