Google DeepMind Présente Gemini Robotics-ER 1.6 pour l'Autonomie et la Lecture d'Instruments par les Robots
Google DeepMind a mis à jour Gemini Robotics-ER à la version 1.6 — une couche cognitive pour robots qui comprend mieux l'espace, détermine l'accomplissement…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Le 14 avril 2026, Google DeepMind a présenté Gemini Robotics-ER 1.6 — une mise à jour de son modèle de reasoning qui fonctionne comme la couche cognitive supérieure pour les robots dans le monde physique. L'idée principale de la version 1.
6 n'est pas d'ajouter un autre VLA, mais de donner au robot un raisonnement spatial plus précis : le modèle comprend mieux la scène, compte les objets, détermine si une tâche a été complétée et, pour la première fois, lit avec confiance des instruments complexes tels que des manomètres, des indicateurs de niveau et des afficheurs numériques. Chez DeepMind, Gemini Robotics-ER est appelé un modèle reasoning-first pour l'embodied AI. Il est nécessaire là où les robots ont besoin de plus que la simple reconnaissance d'objets : ils doivent comprendre les relations entre les objets, sélectionner un point de préhension, vérifier les contraintes et décider de la suite.
Dans la version 1.6, ils ont considérablement renforcé le pointing — la capacité à pointer les objets et à utiliser ces points comme une étape intermédiaire dans le raisonnement. Cela aide à compter les objets plus précisément, à comparer les tailles, à construire des trajectoires et à suivre les instructions avec des conditions spatiales.
Le modèle a également reçu une compréhension multi-view améliorée : il assemble mieux une image unifiée à partir de plusieurs caméras, comme l'une montée au-dessus et une autre sur le manipulateur. Pour les développeurs, Gemini Robotics-ER 1.6 est déjà disponible via l'API Gemini et Google AI Studio, accompagné d'exemples Colab pour la configuration et l'engineering de prompts.
La nouvelle capacité la plus remarquable est la lecture d'instruments, qui a émergé de la collaboration avec Boston Dynamics. Dans les environnements industriels, les robots rencontrent régulièrement des thermomètres, des manomètres circulaires, des verres de visée et des indicateurs de niveau verticaux, où la tâche n'est pas simplement la classification d'image mais l'extraction précise de valeurs. Pour cela, Gemini Robotics-ER 1.
6 utilise agentic vision — une combinaison de raisonnement visuel et d'exécution de code. Le modèle zoome d'abord sur le fragment pertinent, puis marque les points clés, évalue les intervalles et les proportions, puis met en relation cela avec l'échelle, les unités de mesure et le contexte. Selon les données de Google DeepMind, dans la tâche de lecture d'instruments, la version 1.
5 a obtenu 23 %, Gemini 3.0 Flash — 67 %, Robotics-ER 1.6 — 86 %, et avec agentic vision — 93 %.
Ce n'est plus une démonstration que le robot « voit » l'instrument, mais une étape vers un scénario où il effectue des tournées par lui-même, lit les mesures et comprend ce qu'elles signifient. Un autre composant important est la détermination du succès de l'action et la sécurité. Pour un robot autonome, il ne suffit pas de commencer une tâche ; il doit comprendre quand l'accomplissement de la tâche a vraiment été atteint et quand la tentative doit être répétée.
DeepMind rapporte que le modèle gère mieux la détection de succès même dans des scénarios dynamiques, avec des occlusions partielles et des angles ambigus. En parallèle, ils ont amélioré le respect des contraintes physiques : par exemple, le système doit tenir compte plus correctement des restrictions comme « ne pas saisir les liquides » ou « ne pas soulever les objets plus lourds que 20 kg ». Dans les tests de reconnaissance des situations dangereuses à partir de texte et de vidéo, la famille Gemini Robotics-ER a amélioré les résultats par rapport à Gemini 3.
0 Flash de 6 % et 10 % respectivement. En même temps, Google note séparément une limitation : le modèle n'est pas destiné aux applications safety-critical comme la médecine, le transport et d'autres environnements où une erreur pourrait causer des blessures ou des dégâts. La signification pratique de la version est que Google transforme progressivement embodied reasoning d'un sujet de recherche en une couche d'infrastructure pour la robotique.
Gemini Robotics-ER 1.6 ne contrôle pas directement le matériel, mais donne aux robots une capacité de raisonnement de niveau supérieur plus puissante qui peut être intégrée avec des modèles VLA, la recherche et les fonctions externes. Pour l'industrie, c'est aussi un signal que l'interface entre les modèles de langage et les robots se rapproche de l'application commerciale.
Si cette combinaison fait ses preuves en dehors du laboratoire, le marché obtiendra des robots qui non seulement se déplacent selon un script, mais qui interprètent également l'environnement, vérifient le résultat et lisent les instruments réels sans humain dans la boucle.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.