DeepMind Blog→ original

Google DeepMind présente Gemini Robotics-ER 1.6 pour les tâches autonomes en conditions réelles

Google DeepMind a mis à jour Gemini Robotics-ER à la version 1.6 et s'est concentré sur des scénarios du monde réel : de la reconnaissance d'objets et de la…

Traité par IA depuis DeepMind Blog ; édité par Hamidun News
Google DeepMind présente Gemini Robotics-ER 1.6 pour les tâches autonomes en conditions réelles
Source : DeepMind Blog. Collage: Hamidun News.
◐ Écouter l'article

Google DeepMind a présenté Gemini Robotics-ER 1.6 le 14 avril 2026 — un modèle de raisonnement mis à jour pour les robots, conçu non seulement pour exécuter des commandes, mais pour comprendre l'environnement physique. L'entreprise mise sur le embodied reasoning, c'est-à-dire la capacité du système à relier la perception visuelle, le contexte de la tâche et l'action dans le monde réel.

La nouvelle version privilégie un raisonnement spatial plus précis, la compréhension de scène avec plusieurs caméras, la détermination de l'achèvement de la tâche et la lecture d'instruments industriels. En essence, il s'agit d'un « cerveau » de haut niveau du robot qui peut invoquer des outils externes, des modèles VLA et des fonctions personnalisées pour exécuter des scénarios complexes du monde réel. L'une des améliorations clés est le travail avec des tâches spatiales.

DeepMind explique que pour un robot, une opération basique comme pointer un objet n'est pas une bagatelle, mais le fondement d'un comportement plus complexe. Par le biais de points, le modèle ne peut pas seulement trouver des objets, mais aussi les compter, comparer les tailles, établir des relations entre les objets, sélectionner des points de préhension optimaux et vérifier les contraintes de l'invite. Par exemple, si le système doit montrer tous les objets qui tiennent dans une tasse bleue, il doit reconnaître simultanément la forme, la taille et la position relative des éléments.

Lors des démonstrations, Gemini Robotics-ER 1.6 a déterminé plus précisément le nombre d'outils dans l'image, n'a pas indiqué d'objets manquants et a globalement mieux réussi ces tâches que Gemini Robotics-ER 1.5 et Gemini 3.

0 Flash. Le deuxième bloc important est la compréhension de scène à partir de plusieurs angles et le soi-disant success detection, c'est-à-dire la capacité à déterminer si une tâche a réellement été achevée. Pour la robotique autonome, c'est critique : il ne suffit pas au robot de commencer une action ; il doit comprendre s'il faut réessayer ou s'il peut passer à l'étape suivante du plan.

Dans les configurations du monde réel, c'est particulièrement difficile car les caméras regardent souvent la scène d'en haut et du manipulateur simultanément, certains objets peuvent être masqués et l'éclairage et l'arrière-plan changent. Gemini Robotics-ER 1.6 aligne mieux plusieurs flux vidéo et en assemble une image cohérente.

Par exemple, DeepMind montre un scénario où le système, basé sur plusieurs vues, détermine si la tâche « placer le stylo bleu dans le porte-stylo noir » est achevée. L'innovation la plus pratique est la lecture d'instruments. DeepMind a développé cette capacité en collaboration avec Boston Dynamics, en s'appuyant sur des tâches d'inspection d'installations industrielles.

Dans les usines et les salles techniques, les robots doivent régulièrement vérifier des thermomètres, des manomètres, des jauges de niveau chimique, des verres de visite et des affichages numériques. Pour cela, il ne suffit pas de reconnaître une image : le système doit comprendre la position de l'aiguille, le niveau de liquide, les limites de l'échelle, les graduations, les étiquettes des unités de mesure et parfois même aligner les lectures de plusieurs aiguilles correspondant à différents rangs. S'il s'agit d'une vitre de visite, il faut aussi tenir compte des distorsions dues à l'angle de la caméra.

Selon DeepMind, la précision de la lecture d'instruments est passée de 23% dans Gemini Robotics-ER 1.5 et 67% dans Gemini 3.0 Flash à 86% dans Gemini Robotics-ER 1.

6. Avec le mode agentic vision activé, le chiffre atteint 93% : le modèle agrandit d'abord la région souhaitée, puis utilise le pointage sur des points clés et l'exécution de code pour évaluer les proportions et les intervalles, après quoi il interprète la valeur finale. DeepMind souligne séparément la sécurité.

L'entreprise appelle Gemini Robotics-ER 1.6 son modèle le plus sûr pour la robotique à l'heure actuelle. Il adhère mieux aux politiques Gemini dans les tâches spatiales adversariales et respecte beaucoup plus précisément les contraintes physiques — par exemple, quand le système ne peut pas travailler avec des liquides ou soulever des objets pesant plus de 20 kilogrammes.

De plus, dans des scénarios basés sur des rapports réels de blessures, Robotics-ER montre un avantage sur Gemini 3.0 Flash : plus 6 points de pourcentage pour les tâches textuelles et plus 10 points pour les tâches vidéo liées à la reconnaissance des risques. Pour les développeurs, le modèle est déjà disponible via l'API Gemini et Google AI Studio, et avec le lancement, DeepMind a publié un exemple Colab et invité les partenaires à envoyer des images annotées d'erreurs typiques pour améliorer les futures versions.

Cette mise à jour montre où la compétition en robotique se déplace : la mécanique seule décide de moins en moins et la couche de raisonnement au-dessus d'elle décide de plus en plus. Si un modèle peut voir une scène à partir de plusieurs points de vue, utiliser des outils, lire des instruments, vérifier les résultats et en même temps tenir compte des contraintes de sécurité, un robot devient non seulement un appareil d'exécution, mais un système capable de travailler situationnellement. Pour les inspections industrielles, les entrepôts et les scénarios de service, c'est l'un des signaux les plus pratiques que les grands modèles d'IA se rapprochent de la véritable autonomie en dehors du laboratoire.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…