SIMA 2 par DeepMind : le premier agent pensant pour les jeux vidéo et la robotique
DeepMind a présenté SIMA 2 — un agent qui a évolué d'un simple exécuteur obéissant à un compagnon interactif. L'agent ne suit plus simplement les commandes…
Traité par IA depuis DeepMind Blog ; édité par Hamidun News
DeepMind a présenté SIMA 2 — un agent pour les mondes virtuels en 3D qui a évolué de la simple exécution d'instructions à un assistant interactif capable de raisonner, converser et s'améliorer. C'est un progrès considérable vers une intelligence artificielle d'un nouveau niveau.
De l'obéissance à la pensée
Il y a un an, DeepMind a lancé le premier SIMA — un agent capable d'exécuter plus de 600 compétences dans les jeux vidéo : « tourne à gauche », « monte l'escalier », « ouvre la carte ». L'agent agissait comme un humain — regardant l'écran et contrôlant le clavier et la souris virtuels, sans accès aux mécaniques internes des jeux.
SIMA 2 est un saut qualitatif en matière d'architecture. Elle repose désormais sur le modèle Gemini, qui donne à l'agent une véritable capacité de raisonnement. Cela signifie qu'au lieu d'exécuter simplement la commande « trouve le feu de camp », l'agent peut maintenant comprendre un objectif de haut niveau, le décomposer en sous-tâches, analyser l'environnement et planifier les actions.
Capacités de SIMA 2
L'agent a été entraîné sur deux types de données : des enregistrements vidéo des actions réelles des humains avec des commentaires détaillés et des étiquettes générées automatiquement par Gemini elle-même. Cette approche hybride a permis à SIMA 2 de développer de nouvelles capacités :
- Décomposer un objectif complexe de l'utilisateur en sous-étapes logiques et les exécuter dans le bon ordre
- Expliquer ses intentions et raisonner sur chaque action
- Répondre aux questions de clarification de l'utilisateur et interagir dans le dialogue
- Apprendre de ses erreurs et s'améliorer à chaque tentative
- Transférer les compétences à des jeux complètement nouveaux que l'agent n'a jamais vus
Dans les démonstrations, SIMA 2 a trouvé avec succès le feu de camp dans des jeux inconnus, où la première version se bloquait simplement. L'agent généralise une compréhension abstraite de la tâche plutôt que de répéter mécaniquement des commandes apprises.
Sur la voie des robots physiques
DeepMind souligne que cette recherche va bien au-delà des jeux vidéo. L'architecture de SIMA 2 — vision de l'écran, raisonnement sur les objectifs, exécution des actions via le contrôle de l'interface — est exactement ce qui est nécessaire pour développer des robots réels. Dans le monde physique, le robot utilisera une caméra à la place de l'écran, mais la tâche reste la même : comprendre l'environnement, planifier l'action, interagir avec les objets.
Le premier SIMA a déjà démontré le transfert des jeux vidéo vers les simulateurs de réalité. SIMA 2, avec sa capacité de raisonnement, devrait devenir un outil encore plus universel pour la robotique. Les développeurs appellent cela une étape significative vers l'AGI — Artificial General Intelligence.
Le problème de la généralisation (appliquer ce qui a été appris dans des situations complètement nouvelles) a été une pierre d'achoppement en IA pendant des années. SIMA 2 montre un progrès concret dans sa résolution : l'agent peut s'adapter à des environnements et à des objectifs inconnus.
Ce que cela signifie
La limite entre l'IA étroite et orientée tâche et la pensée générale s'efface. SIMA 2 n'est pas simplement un exécuteur de commandes, mais un assistant interactif qui comprend le contexte, peut discuter de stratégie et apprendre en chemin. Pour la robotique, cela signifie que les technologies clés — vision, raisonnement, adaptation — sont déjà proches de l'application pratique.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.