Boston Dynamics et Google DeepMind apprennent à Spot à raisonner lors des inspections industrielles
Boston Dynamics a intégré le modèle Gemini Robotics-ER 1.6 de Google DeepMind à Spot et mise sur l'inspection industrielle. Le robot peut désormais détecter…
Traité par IA depuis IEEE Spectrum AI ; édité par Hamidun News
Boston Dynamics fait passer Spot de la catégorie des démonstrations impressionnantes vers une classe plus pratique de robots industriels : l'appareil quadrupède a reçu le modèle Gemini Robotics-ER 1.6 de Google DeepMind et doit désormais non seulement exécuter des commandes, mais interpréter l'environnement, remarquer les écarts et prendre des décisions lors des inspections sans la participation constante de l'opérateur. Pour la robotique, c'est un changement important.
Pendant longtemps, les robots pouvaient faire beaucoup de choses, mais seulement si un humain avait décrit le scénario à l'avance presque comme un programme. Plus la tâche était complexe, plus difficile était de rendre l'interface pratique. L'idée d'IA incarnée—c'est-à-dire une IA avec un corps physique et accès au monde réel—est justement de combler cet écart.
Boston Dynamics est l'une des rares entreprises à avoir réussi à amener les robots marcheurs à l'échelle commerciale : Spot fonctionne déjà avec des milliers d'unités. Par conséquent, l'intégration du nouveau modèle n'est pas une expérience académique, mais une tentative d'améliorer un produit déjà utilisé sur le terrain. Le scénario principal n'est pas les devoirs des vidéos, mais l'inspection industrielle.
Dans les usines, les installations énergétiques et autres sites complexes, Spot doit patrouiller le territoire et vérifier si quelque chose de dangereux se passe. Avec Gemini Robotics-ER 1.6, le robot peut rechercher de manière autonome les liquides renversés et les débris étrangers, lire les capteurs complexes, les manomètres et les vitres d'inspection, ainsi que connecter les modèles visual-language si besoin est de mieux comprendre la situation autour de lui.
En d'autres termes, l'objectif n'est pas d'apprendre au robot à apporter les choses élégamment, mais de réduire le risque là où le coût d'un problème manqué peut être élevé. Mais ce qui est le plus intéressant ici, c'est ce que les développeurs appellent la compréhension et le raisonnement. Dans le monde des robots, ces mots résonnent de plus en plus souvent, bien qu'en pratique, ils ne signifient pas la philosophie, mais la proximité du comportement de la machine à la logique humaine.
Si une personne demande à un robot de ranger les boîtes d'une pièce, elle s'attend non seulement à l'exécution de la commande, mais aussi au bon sens : prendre la boîte de manière à ne pas renverser le liquide restant, ne pas mettre un verre d'eau sur le bord de la table, ne pas créer un nouveau danger au lieu d'éliminer l'ancien. Chez Google DeepMind, ils disent qu'ils suivent ces cas à travers des scénarios internes de sécurité sémantique. L'objectif est que le robot ne comprenne pas seulement le verbe dans la commande, mais prenne en compte les conséquences de l'action dans le monde physique.
En même temps, les limitations de l'approche actuelle sont assez évidentes. La version actuelle du modèle pour Spot repose principalement sur la vision. Par exemple, l'une des nouvelles fonctionnalités évalue le succès de la saisie d'un objet via plusieurs caméras.
C'est utile, mais en robotique, il existe depuis longtemps d'autres façons de comprendre qu'un objet a été saisi de manière fiable : les capteurs de force, les capteurs tactiles, la rétroaction de contact. Le problème réside dans les données. Il existe de nombreux exemples visuels sur Internet de la façon de prendre un stylo ou d'ouvrir une porte, mais il n'existe pratiquement pas d'ensembles de données massifs avec des informations tactiles.
Par conséquent, enseigner aux modèles la physique du contact est actuellement beaucoup plus difficile que d'enseigner les images et le texte. Pour combler ce fossé, Boston Dynamics envisage de recevoir plus de données de terrain de la part des clients qui utiliseront les nouvelles fonctionnalités d'inspection de Spot. Il existe également une deuxième question pratique : la confiance.
Boston Dynamics reconnaît directement qu'elle déploie de nouvelles capacités via des programmes bêta et ne promeut que ce dont elle est sûre. Pour l'inspection commerciale, les robots n'ont pas besoin de perfection absolue, mais il existe un seuil d'utilité. Si le système se trompe trop souvent et déclenche de fausses alarmes, les opérateurs cesseront de l'écouter.
L'entreprise estime que la valeur réelle commence quelque part au-dessus du niveau de 80 pour cent, lorsque le robot aide déjà plutôt que d'agacer. C'est particulièrement important dans les installations où une partie de l'infrastructure critique est équipée de capteurs et une partie des détails potentiellement dangereux ne peut toujours être remarquée que par l'œil lors des rondes. La conclusion est simple : l'union de Boston Dynamics et Google DeepMind n'est pas une histoire sur une autre vidéo de robot spectaculaire, mais une tentative de transformer l'IA incarnée en un outil pratique avec un bénéfice mesurable.
Si Spot apprend vraiment à détecter de manière fiable les fuites, à lire les instruments et à agir plus en toute sécurité dans un environnement ambigu, le marché recevra l'un des premiers exemples convaincants de comment l'IA qui raisonne fonctionne non pas sur un écran, mais dans un atelier. Et l'expérience accumulée pourra ensuite être transférée à d'autres plates-formes, y compris les robots humanoides plus complexes.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.