Google DeepMind presenta Gemini Robotics-ER 1.6 para tareas autónomas en el mundo real
Google DeepMind actualizó Gemini Robotics-ER a la versión 1.6 y se enfocó en escenarios del mundo real: desde reconocimiento de objetos y verificación de…
Procesado por IA desde DeepMind Blog; editado por Hamidun News
Google DeepMind presentó Gemini Robotics-ER 1.6 el 14 de abril de 2026 — un modelo de razonamiento actualizado para robots, diseñado no solo para ejecutar comandos, sino para comprender el entorno físico. La empresa apuesta por el embodied reasoning, es decir, la capacidad del sistema para vincular percepción visual, contexto de la tarea y acción en el mundo real.
La nueva versión enfatiza un razonamiento espacial más preciso, comprensión de escena con múltiples cámaras, determinación de conclusión de tarea y lectura de instrumentos industriales. En esencia, se trata del "cerebro" de alto nivel del robot que puede invocar herramientas externas, modelos VLA y funciones personalizadas para ejecutar escenarios complejos en el mundo real. Una de las mejoras clave es el trabajo con tareas espaciales.
DeepMind explica que para un robot, una operación básica como señalar un objeto no es un detalle menor, sino el fundamento de comportamientos más complejos. Mediante puntos, el modelo no solo puede encontrar objetos, sino también contarlos, comparar tamaños, establecer relaciones entre objetos, seleccionar puntos de agarre óptimos y verificar restricciones del prompt. Por ejemplo, si el sistema necesita mostrar todos los objetos que caben en una taza azul, debe reconocer simultáneamente la forma, el tamaño y la posición relativa de los elementos.
En las demostraciones, Gemini Robotics-ER 1.6 determinó con mayor precisión el número de herramientas en la escena, no señaló objetos ausentes y en general se desempeñó significativamente mejor en tales tareas que Gemini Robotics-ER 1.5 y Gemini 3.
0 Flash. El segundo bloque importante es la comprensión de escena desde múltiples ángulos y el llamado success detection, es decir, la capacidad de determinar si una tarea ya ha sido completada. Para la robótica autónoma, esto es crítico: al robot no le basta iniciar una acción; debe entender si es necesario reintentar o puede pasar al siguiente paso del plan.
En configuraciones del mundo real, esto es especialmente difícil porque las cámaras a menudo miran la escena desde arriba y desde el manipulador simultáneamente, algunos objetos pueden estar ocluidos y la iluminación y el fondo cambian. Gemini Robotics-ER 1.6 alinea mejor múltiples transmisiones de video y arma a partir de ellas una imagen coherente.
Como ejemplo, DeepMind muestra un escenario donde el sistema, basándose en varias vistas, determina si se ha completado la tarea "poner la pluma azul en el soporte negro para plumas". La innovación más práctica es la lectura de instrumentos. DeepMind desarrolló esta capacidad junto con Boston Dynamics, basándose en tareas de inspección de instalaciones industriales.
En fábricas y salas técnicas, los robots necesitan verificar regularmente termómetros, manómetros, medidores de nivel químico, cristales de inspección y pantallas digitales. Para esto, no basta reconocer una imagen: el sistema debe entender la posición de la aguja, el nivel de líquido, los límites de la escala, las divisiones, las etiquetas de unidades de medida y a veces incluso alinear las lecturas de múltiples agujas correspondientes a diferentes órdenes. Si se trata de un cristal de inspección, también hay que tener en cuenta las distorsiones debidas al ángulo de la cámara.
Según DeepMind, la precisión en la lectura de instrumentos pasó de 23% en Gemini Robotics-ER 1.5 y 67% en Gemini 3.0 Flash a 86% en Gemini Robotics-ER 1.
6. Con el modo agentic vision activado, la cifra alcanza el 93%: el modelo primero amplía la región deseada, luego utiliza señalización de puntos clave y ejecución de código para evaluar proporciones e intervalos, después de lo cual interpreta el valor final. DeepMind enfatiza por separado la seguridad.
La empresa llama a Gemini Robotics-ER 1.6 su modelo más seguro para robótica en este momento. Se adhiere mejor a las políticas Gemini en tareas espaciales adversariales y respeta significativamente con mayor precisión las restricciones físicas — por ejemplo, cuando el sistema no puede trabajar con líquidos o levantar objetos más pesados de 20 kilogramos.
Además, en escenarios basados en reportes reales de lesiones, Robotics-ER muestra ventaja sobre Gemini 3.0 Flash: más 6 puntos porcentuales en tareas textuales y más 10 puntos en tareas de video relacionadas con el reconocimiento de riesgos. Para desarrolladores, el modelo ya está disponible a través de la API de Gemini y Google AI Studio, y junto con el lanzamiento, DeepMind publicó un ejemplo Colab e invitó a partners a enviar imágenes anotadas de errores típicos para mejorar futuras versiones.
Esta actualización muestra hacia dónde se está desplazando la competencia en robótica: la mecánica por sí sola decide cada vez menos y la capa de razonamiento por encima de ella decide cada vez más. Si un modelo puede ver una escena desde múltiples puntos de vista, usar herramientas, leer instrumentos, verificar resultados y al mismo tiempo tener en cuenta restricciones de seguridad, un robot se convierte no solo en un dispositivo ejecutor, sino en un sistema capaz de trabajar situacionalmente. Para inspecciones industriales, almacenes y escenarios de servicio, esta es una de las señales más prácticas de que los grandes modelos de IA se están acercando a una verdadera autonomía fuera del laboratorio.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.