DeepMind Blog→ оригинал

Google DeepMind presenta Gemini Robotics-ER 1.6 para tareas autónomas en el mundo real

Google DeepMind actualizó Gemini Robotics-ER a la versión 1.6 y se enfocó en escenarios del mundo real: desde reconocimiento de objetos y verificación de tareas

Google DeepMind presenta Gemini Robotics-ER 1.6 para tareas autónomas en el mundo real
Источник: DeepMind Blog. Коллаж: Hamidun News.

Google DeepMind 14 апреля 2026 года представила Gemini Robotics-ER 1.6 — обновлённую модель рассуждения для роботов, рассчитанную не просто на выполнение команд, а на понимание физической среды. Компания делает ставку на embodied reasoning, то есть на способность системы связывать визуальное восприятие, контекст задачи и реальное действие.

В новой версии акцент сделан на более точное пространственное мышление, понимание сцены с нескольких камер, определение успешного завершения задачи и чтение промышленных приборов. По сути, речь идёт о высокоуровневом «мозге» робота, который может вызывать внешние инструменты, VLA-модели и пользовательские функции для выполнения сложных сценариев в реальном мире. Одним из ключевых улучшений стала работа с пространственными задачами.

В DeepMind объясняют, что для робота базовая операция вроде указания на объект — это не мелочь, а фундамент для более сложного поведения. Через точки модель может не только находить предметы, но и считать их, сравнивать размеры, строить отношения между объектами, выбирать оптимальные точки захвата и проверять ограничения из промпта. Например, если системе нужно показать все объекты, которые поместятся в синюю чашку, она должна одновременно распознать форму, размер и взаимное расположение предметов.

В демонстрациях Gemini Robotics-ER 1.6 точнее определяла число инструментов в кадре, не указывала на отсутствующие объекты и в целом заметно лучше справлялась с такими задачами, чем Gemini Robotics-ER 1.5 и Gemini 3.

0 Flash. Второй важный блок — понимание сцены с нескольких ракурсов и так называемое success detection, то есть умение определить, действительно ли задача уже выполнена. Для автономной робототехники это критично: роботу недостаточно начать действие, он должен понять, надо ли повторить попытку или можно переходить к следующему шагу плана.

В реальных установках это особенно сложно, потому что камеры часто смотрят на сцену сверху и с манипулятора одновременно, часть объектов может перекрываться, а освещение и фон меняются. Gemini Robotics-ER 1.6 лучше сопоставляет несколько видеопотоков и собирает из них целостную картину.

В качестве примера DeepMind показывает сценарий, где система по нескольким видам определяет, завершена ли задача «положить синюю ручку в чёрный держатель для ручек». Самое прикладное нововведение — чтение приборов. Эту возможность DeepMind развивала вместе с Boston Dynamics, опираясь на задачи инспекции промышленных объектов.

На заводах и в технических помещениях роботу нужно регулярно проверять термометры, манометры, химические уровнемеры, смотровые стёкла и цифровые дисплеи. Для этого мало распознать картинку: система должна понять положение стрелки, уровень жидкости, границы шкалы, деления, подписи единиц измерения и иногда даже совместить показания нескольких стрелок, отвечающих за разные разряды. Если речь идёт о смотровом стекле, нужно ещё учитывать искажения из-за угла камеры.

По данным DeepMind, точность чтения приборов выросла с 23% у Gemini Robotics-ER 1.5 и 67% у Gemini 3.0 Flash до 86% у Gemini Robotics-ER 1.

6. А при включённом режиме agentic vision показатель достигает 93%: модель сначала приближает нужную область, затем использует указание на ключевые точки и исполнение кода для оценки пропорций и интервалов, после чего интерпретирует итоговое значение. Отдельно DeepMind подчёркивает безопасность.

Компания называет Gemini Robotics-ER 1.6 своей самой безопасной моделью для робототехники на данный момент. Она лучше соблюдает политики Gemini в состязательных пространственных задачах и заметно точнее придерживается физических ограничений — например, когда системе нельзя работать с жидкостями или поднимать объекты тяжелее 20 килограммов.

Кроме того, на сценариях, основанных на реальных отчётах о травмах, Robotics-ER показывает преимущество над Gemini 3.0 Flash: плюс 6 процентных пунктов в текстовых задачах и плюс 10 пунктов в видео-задачах, связанных с распознаванием рисков. Для разработчиков модель уже доступна через Gemini API и Google AI Studio, а вместе с релизом DeepMind опубликовала Colab-пример и предложила партнёрам присылать размеченные изображения типовых ошибок для улучшения следующих версий.

Это обновление показывает, куда сдвигается конкуренция в робототехнике: всё меньше решает только механика и всё больше — слой рассуждения над ней. Если модель умеет видеть сцену с нескольких точек, пользоваться инструментами, читать приборы, проверять результат и при этом учитывать ограничения безопасности, робот становится не просто исполнительным устройством, а системой, способной работать по ситуации. Для индустриальных инспекций, складов и сервисных сценариев это один из самых практичных сигналов того, что большие ИИ-модели всё ближе к реальной автономии вне лаборатории.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…