SIMA 2 от DeepMind: первый мыслящий агент для видеоигр и робототехники
DeepMind представила SIMA 2 — агента, который эволюционировал от послушного исполнителя к интерактивному компаньону. Агент теперь не просто следует командам, а

DeepMind представила SIMA 2 — агента для виртуальных 3D миров, который эволюционировал от простого следования инструкциям к интерактивному помощнику, способному рассуждать, беседовать и совершенствоваться. Это значительный прогресс в направлении искусственного интеллекта нового уровня.
От послушания к мышлению
Год назад DeepMind запустила первую SIMA — агента, который мог выполнять более 600 навыков в видеоиграх: «повернись налево», «забеись на лестницу», «открой карту». Агент действовал как человек — смотрел на экран и управлял виртуальной клавиатурой с мышью, без доступа к внутренним механикам игр. SIMA 2 — это качественный скачок в архитектуре. В её основе теперь лежит модель Gemini, которая дает агенту настоящую способность к рассуждению. Это означает, что вместо простого выполнения команды «найди костёр» агент теперь может понять высокоуровневую цель, разложить её на подзадачи, проанализировать окружение и спланировать действия.
Что умеет SIMA 2
Агент обучался на двух типах данных: видеозаписи реальных действий человека с подробными комментариями и метки, автоматически сгенерированные самой Gemini. Такой гибридный подход позволил SIMA 2 развить новые способности: Разложить сложную цель пользователя на логические подшаги и выполнить их в правильной последовательности Объяснять свои намерения и рассуждать о каждом действии Отвечать на уточняющие вопросы пользователя и взаимодействовать в диалоге Учиться из своих ошибок и совершенствоваться с каждой попыткой * Переносить навыки на совершенно новые игры, которые агент никогда не видел В демонстрациях SIMA 2 успешно находила костёр в незнакомых играх, где первая версия просто зависала. Агент обобщает абстрактное понимание задачи, а не механически повторяет заученные команды.
На пути к физическим роботам
DeepMind подчёркивает, что это исследование выходит далеко за границы видеоигр. Архитектура SIMA 2 — видение экрана, рассуждение о целях, выполнение действий через управление интерфейсом — это в точности то, что нужно для развития реальных роботов. В физическом мире робот будет использовать камеру вместо экрана, но задача остаётся той же: понять окружение, спланировать действие, взаимодействовать с предметами.
Первый SIMA уже демонстрировал трансфер из видеоигр на симуляторы реальности. SIMA 2, с её способностью к рассуждению, должна стать ещё более универсальным инструментом для робототехники. Разработчики называют это значительным шагом в направлении AGI — Artificial General Intelligence.
Проблема генерализации (применение выученного в совершенно новых ситуациях) долгие годы была камнем преткновения в AI. SIMA 2 показывает конкретный прогресс в её решении: агент может адаптироваться к незнакомым средам и целям.
Что это значит Граница между узким, задачеориентированным AI и общим мышлением размывается.
SIMA 2 — это не просто исполнитель команд, а интерактивный помощник, который понимает контекст, может обсуждать стратегию и учиться на ходу. Для робототехники это означает, что ключевые технологии — видение, рассуждение, адаптация — уже близки к практическому применению.