SIMA 2 de DeepMind: el primer agente pensante para videojuegos y robótica
DeepMind presentó SIMA 2, un agente que evolucionó de un simple ejecutor de órdenes a un compañero interactivo. El agente ya no solo sigue comandos, sino que…
Procesado por IA desde DeepMind Blog; editado por Hamidun News
DeepMind presentó SIMA 2, un agente para mundos virtuales 3D que evolucionó de seguir simples instrucciones a un asistente interactivo capaz de razonar, conversar y mejorarse. Este es un progreso significativo hacia una inteligencia artificial de nuevo nivel.
De la obediencia al pensamiento
Hace un año, DeepMind lanzó el primer SIMA, un agente que podía ejecutar más de 600 habilidades en videojuegos: «gira a la izquierda», «sube las escaleras», «abre el mapa». El agente actuaba como un humano: miraba la pantalla y manejaba un teclado y ratón virtual, sin acceso a los mecanismos internos de los juegos.
SIMA 2 representa un salto cualitativo en arquitectura. Ahora se basa en el modelo Gemini, que otorga al agente una verdadera capacidad de razonamiento. Esto significa que en lugar de simplemente ejecutar la orden «encuentra el fuego», el agente ahora puede entender un objetivo de alto nivel, desglosarlo en subtareas, analizar el entorno y planificar acciones.
Qué puede hacer SIMA 2
El agente fue entrenado en dos tipos de datos: grabaciones de video de acciones humanas reales con comentarios detallados y etiquetas generadas automáticamente por Gemini. Este enfoque híbrido permitió que SIMA 2 desarrollara nuevas capacidades:
- Desglosar un objetivo complejo del usuario en subpasos lógicos y ejecutarlos en la secuencia correcta
- Explicar sus intenciones y razonar sobre cada acción
- Responder a preguntas de aclaración del usuario e interactuar en diálogos
- Aprender de sus errores y mejorar con cada intento
- Transferir habilidades a juegos completamente nuevos que el agente nunca ha visto
En las demostraciones, SIMA 2 encontró exitosamente fuego en juegos desconocidos, donde la primera versión simplemente se detenía. El agente generaliza una comprensión abstracta de la tarea en lugar de repetir mecánicamente comandos memorizados.
En el camino hacia robots físicos
DeepMind destaca que esta investigación va mucho más allá de los videojuegos. La arquitectura de SIMA 2 —visión de pantalla, razonamiento sobre objetivos, ejecución de acciones mediante el control de interfaces— es exactamente lo que se necesita para desarrollar robots reales.
En el mundo físico, el robot usará una cámara en lugar de una pantalla, pero la tarea sigue siendo la misma: entender el entorno, planificar acciones e interactuar con objetos.
El primer SIMA ya demostró transferencia de videojuegos a simuladores de realidad. SIMA 2, con su capacidad de razonamiento, debería convertirse en una herramienta aún más versátil para la robótica.
Los desarrolladores lo llaman un paso significativo hacia la AGI (Artificial General Intelligence). El problema de la generalización (aplicar lo aprendido en situaciones completamente nuevas) ha sido un obstáculo durante años en la IA. SIMA 2 muestra un progreso concreto en su solución: el agente puede adaptarse a entornos y objetivos desconocidos.
Qué significa esto
La línea entre la IA estrecha orientada a tareas y el pensamiento general se está borrando. SIMA 2 no es simplemente un ejecutor de comandos, sino un asistente interactivo que entiende el contexto, puede discutir estrategias y aprender sobre la marcha. Para la robótica, esto significa que las tecnologías clave —visión, razonamiento, adaptación— ya están cerca de una aplicación práctica.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.