Google DeepMind Presenta Gemini Robotics-ER 1.6 para Autonomía y Lectura de Instrumentos por Robots
Google DeepMind actualizó Gemini Robotics-ER a la versión 1.6 — una capa cognitiva para robots que comprende mejor el espacio, determina la finalización de tare

14 апреля 2026 года Google DeepMind представила Gemini Robotics-ER 1.6 — обновление reasoning-модели, которая работает как верхний когнитивный слой для роботов в физическом мире. Главная идея версии 1.
6 не в том, чтобы добавить ещё один VLA, а в том, чтобы дать роботу более точное пространственное мышление: модель лучше понимает сцену, считает объекты, определяет, выполнена ли задача, и впервые уверенно читает сложные приборы вроде манометров, уровнемеров и цифровых дисплеев. В DeepMind называют Gemini Robotics-ER reasoning-first моделью для embodied AI. Она нужна там, где роботу мало просто распознать объект: нужно понять отношения между предметами, выбрать точку захвата, проверить ограничения и решить, что делать дальше.
В версии 1.6 заметно усилили pointing — способность указывать на объекты и использовать эти точки как промежуточный шаг в рассуждении. Это помогает точнее считать предметы, сравнивать размеры, строить траектории и выполнять инструкции с пространственными условиями.
Модель также получила улучшенное multi-view understanding: она лучше собирает единую картину из нескольких камер, например верхней и установленной на манипуляторе. Для разработчиков Gemini Robotics-ER 1.6 уже доступна через Gemini API и Google AI Studio, вместе с Colab-примерами для настройки и prompt engineering.
Самое заметное новое умение — чтение приборов, выросшее из совместной работы с Boston Dynamics. В промышленных объектах роботы регулярно сталкиваются с термометрами, круговыми манометрами, смотровыми стеклами и вертикальными индикаторами уровня, где важна не просто классификация картинки, а точное извлечение значения. Для этого Gemini Robotics-ER 1.
6 использует agentic vision — связку визуального reasoning и исполнения кода. Модель сначала приближает нужный фрагмент, затем отмечает ключевые точки, оценивает интервалы и пропорции, а после сопоставляет это со шкалой, единицами измерения и контекстом. По данным Google DeepMind, в задаче instrument reading версия 1.
5 набирала 23%, Gemini 3.0 Flash — 67%, сама Robotics-ER 1.6 — 86%, а с agentic vision — 93%.
Это уже не демонстрация того, что робот «видит» прибор, а шаг к сценарию, где он сам проводит обход, считывает показания и понимает, что именно они означают. Ещё один важный блок — определение успешности действий и безопасность. Для автономного робота недостаточно уметь начать задачу; нужно понять, когда её завершение действительно достигнуто, а когда попытку надо повторить.
DeepMind пишет, что модель лучше справляется с success detection даже в динамичных сценах, при частичных перекрытиях и неоднозначных ракурсах. Параллельно улучшили следование физическим ограничениям: например, система должна корректнее учитывать запреты вроде «не брать жидкости» или «не поднимать объекты тяжелее 20 кг». В тестах на распознавание опасных ситуаций по тексту и видео семейство Gemini Robotics-ER улучшило результат относительно Gemini 3.
0 Flash на 6% и 10% соответственно. При этом сама Google отдельно оговаривает ограничение: модель не предназначена для safety-critical применений вроде медицины, транспорта и других сред, где ошибка может привести к травмам или ущербу. Практический смысл релиза в том, что Google постепенно превращает embodied reasoning из исследовательской темы в инфраструктурный слой для робототехники.
Gemini Robotics-ER 1.6 не управляет железом напрямую, но даёт роботам более сильный верхний уровень мышления, который можно связать с VLA-моделями, поиском и внешними функциями. Для отрасли это ещё и сигнал, что интерфейс между языковыми моделями и роботами становится ближе к коммерческому применению.
Если эта связка покажет себя вне лаборатории, рынок получит роботов, которые не только двигаются по сценарию, но и интерпретируют обстановку, проверяют результат и читают реальные приборы без человека в контуре.