MarkTechPost→ original

Google DeepMind Presenta Gemini Robotics-ER 1.6 para Autonomía y Lectura de Instrumentos por Robots

Google DeepMind actualizó Gemini Robotics-ER a la versión 1.6 — una capa cognitiva para robots que comprende mejor el espacio, determina la finalización de…

Procesado por IA desde MarkTechPost; editado por Hamidun News
Google DeepMind Presenta Gemini Robotics-ER 1.6 para Autonomía y Lectura de Instrumentos por Robots
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

El 14 de abril de 2026, Google DeepMind presentó Gemini Robotics-ER 1.6 — una actualización de su modelo de reasoning que funciona como la capa cognitiva superior para robots en el mundo físico. La idea principal de la versión 1.

6 no es añadir otro VLA, sino dar al robot un razonamiento espacial más preciso: el modelo comprende mejor la escena, cuenta objetos, determina si se ha completado una tarea y, por primera vez, lee con confianza instrumentos complejos como manómetros, indicadores de nivel y pantallas digitales. En DeepMind, Gemini Robotics-ER se llama modelo reasoning-first para embodied AI. Es necesario donde los robots necesitan más que solo reconocimiento de objetos: necesitan entender las relaciones entre objetos, seleccionar un punto de agarre, comprobar restricciones y decidir qué hacer a continuación.

En la versión 1.6, fortalecieron notablemente el pointing — la capacidad de señalar objetos y usar estos puntos como un paso intermedio en el razonamiento. Esto ayuda a contar objetos con mayor precisión, comparar tamaños, construir trayectorias y seguir instrucciones con condiciones espaciales.

El modelo también recibió comprensión multi-view mejorada: monta mejor una imagen unificada desde múltiples cámaras, como una montada encima y otra en el manipulador. Para desarrolladores, Gemini Robotics-ER 1.6 ya está disponible a través de la Gemini API y Google AI Studio, junto con ejemplos de Colab para configuración e ingeniería de prompts.

La capacidad más notable es la lectura de instrumentos, que surgió de la colaboración con Boston Dynamics. En entornos industriales, los robots encuentran regularmente termómetros, manómetros circulares, cristales de observación e indicadores de nivel verticales, donde la tarea no es solo clasificación de imagen sino extracción precisa de valores. Para esto, Gemini Robotics-ER 1.

6 utiliza agentic vision — una combinación de razonamiento visual y ejecución de código. El modelo primero amplía el fragmento relevante, luego marca puntos clave, evalúa intervalos y proporciones, y luego los relaciona con la escala, unidades de medida y contexto. Según datos de Google DeepMind, en la tarea de lectura de instrumentos, la versión 1.

5 obtuvo 23%, Gemini 3.0 Flash — 67%, Robotics-ER 1.6 — 86%, y con agentic vision — 93%.

Esto ya no es una demostración de que el robot "ve" el instrumento, sino un paso hacia un escenario donde realiza inspecciones por su cuenta, lee mediciones y entiende qué significan. Otro componente importante es la determinación del éxito de la acción y la seguridad. Para un robot autónomo, no es suficiente iniciar una tarea; debe entender cuándo se ha alcanzado verdaderamente la finalización de la tarea y cuándo el intento debe repetirse.

DeepMind reporta que el modelo maneja mejor la detección de éxito incluso en escenarios dinámicos, con oclusiones parciales y ángulos ambiguos. Paralelamente, mejoraron el cumplimiento de restricciones físicas: por ejemplo, el sistema debe tener en cuenta más correctamente restricciones como "no agarrar líquidos" o "no levantar objetos más pesados de 20 kg". En pruebas de reconocimiento de situaciones peligrosas por texto y video, la familia Gemini Robotics-ER mejoró resultados respecto a Gemini 3.

0 Flash en 6% y 10% respectivamente. Al mismo tiempo, Google señala por separado una limitación: el modelo no está destinado para aplicaciones safety-critical como medicina, transporte y otros entornos donde un error podría causar lesiones o daños. El significado práctico del lanzamiento es que Google está transformando gradualmente embodied reasoning de un tema de investigación en una capa de infraestructura para robótica.

Gemini Robotics-ER 1.6 no controla el hardware directamente, pero proporciona a los robots una capacidad de razonamiento de nivel superior más potente que puede integrarse con modelos VLA, búsqueda y funciones externas. Para la industria, esto es también una señal de que la interfaz entre modelos de lenguaje y robots se está acercando a la aplicación comercial.

Si esta combinación se prueba fuera del laboratorio, el mercado obtendrá robots que no solo se mueven según un script, sino que también interpretan el entorno, verifican el resultado y leen instrumentos reales sin un humano en el circuito.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…