Google DeepMind Presenta Gemini Robotics-ER 1.6 para Autonomía y Lectura de Instrumentos por Robots

Q: Источник материала?

Оригинальная публикация на MarkTechPost. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-04-28. Время чтения: 3 мин.

Google DeepMind actualizó Gemini Robotics-ER a la versión 1.6 — una capa cognitiva para robots que comprende mejor el espacio, determina la finalización de tare

ЖХ

Редакция Hamidun News

AI‑мониторинг · MarkTechPost

2026-04-28· 2 мин

Google DeepMind Presenta Gemini Robotics-ER 1.6 para Autonomía y Lectura de Instrumentos por Robots — Источник: MarkTechPost. Коллаж: Hamidun News.

14 апреля 2026 года Google DeepMind представила Gemini Robotics-ER 1.6 — обновление reasoning-модели, которая работает как верхний когнитивный слой для роботов в физическом мире. Главная идея версии 1.

6 не в том, чтобы добавить ещё один VLA, а в том, чтобы дать роботу более точное пространственное мышление: модель лучше понимает сцену, считает объекты, определяет, выполнена ли задача, и впервые уверенно читает сложные приборы вроде манометров, уровнемеров и цифровых дисплеев. В DeepMind называют Gemini Robotics-ER reasoning-first моделью для embodied AI. Она нужна там, где роботу мало просто распознать объект: нужно понять отношения между предметами, выбрать точку захвата, проверить ограничения и решить, что делать дальше.

В версии 1.6 заметно усилили pointing — способность указывать на объекты и использовать эти точки как промежуточный шаг в рассуждении. Это помогает точнее считать предметы, сравнивать размеры, строить траектории и выполнять инструкции с пространственными условиями.

Модель также получила улучшенное multi-view understanding: она лучше собирает единую картину из нескольких камер, например верхней и установленной на манипуляторе. Для разработчиков Gemini Robotics-ER 1.6 уже доступна через Gemini API и Google AI Studio, вместе с Colab-примерами для настройки и prompt engineering.

Самое заметное новое умение — чтение приборов, выросшее из совместной работы с Boston Dynamics. В промышленных объектах роботы регулярно сталкиваются с термометрами, круговыми манометрами, смотровыми стеклами и вертикальными индикаторами уровня, где важна не просто классификация картинки, а точное извлечение значения. Для этого Gemini Robotics-ER 1.

6 использует agentic vision — связку визуального reasoning и исполнения кода. Модель сначала приближает нужный фрагмент, затем отмечает ключевые точки, оценивает интервалы и пропорции, а после сопоставляет это со шкалой, единицами измерения и контекстом. По данным Google DeepMind, в задаче instrument reading версия 1.

5 набирала 23%, Gemini 3.0 Flash — 67%, сама Robotics-ER 1.6 — 86%, а с agentic vision — 93%.

Это уже не демонстрация того, что робот «видит» прибор, а шаг к сценарию, где он сам проводит обход, считывает показания и понимает, что именно они означают. Ещё один важный блок — определение успешности действий и безопасность. Для автономного робота недостаточно уметь начать задачу; нужно понять, когда её завершение действительно достигнуто, а когда попытку надо повторить.

DeepMind пишет, что модель лучше справляется с success detection даже в динамичных сценах, при частичных перекрытиях и неоднозначных ракурсах. Параллельно улучшили следование физическим ограничениям: например, система должна корректнее учитывать запреты вроде «не брать жидкости» или «не поднимать объекты тяжелее 20 кг». В тестах на распознавание опасных ситуаций по тексту и видео семейство Gemini Robotics-ER улучшило результат относительно Gemini 3.

0 Flash на 6% и 10% соответственно. При этом сама Google отдельно оговаривает ограничение: модель не предназначена для safety-critical применений вроде медицины, транспорта и других сред, где ошибка может привести к травмам или ущербу. Практический смысл релиза в том, что Google постепенно превращает embodied reasoning из исследовательской темы в инфраструктурный слой для робототехники.

Gemini Robotics-ER 1.6 не управляет железом напрямую, но даёт роботам более сильный верхний уровень мышления, который можно связать с VLA-моделями, поиском и внешними функциями. Для отрасли это ещё и сигнал, что интерфейс между языковыми моделями и роботами становится ближе к коммерческому применению.

Если эта связка покажет себя вне лаборатории, рынок получит роботов, которые не только двигаются по сценарию, но и интерпретируют обстановку, проверяют результат и читают реальные приборы без человека в контуре.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com