DeepMind Blog→ оригинал

SIMA 2 от DeepMind: первый мыслящий агент для видеоигр и робототехники

DeepMind представила SIMA 2 — агента, который эволюционировал от послушного исполнителя к интерактивному компаньону. Агент теперь не просто следует командам, а

SIMA 2 от DeepMind: первый мыслящий агент для видеоигр и робототехники
Источник: DeepMind Blog. Коллаж: Hamidun News.
◐ Слушать статью

DeepMind представила SIMA 2 — агента для виртуальных 3D миров, который эволюционировал от простого следования инструкциям к интерактивному помощнику, способному рассуждать, беседовать и совершенствоваться. Это значительный прогресс в направлении искусственного интеллекта нового уровня.

От послушания к мышлению

Год назад DeepMind запустила первую SIMA — агента, который мог выполнять более 600 навыков в видеоиграх: «повернись налево», «забеись на лестницу», «открой карту». Агент действовал как человек — смотрел на экран и управлял виртуальной клавиатурой с мышью, без доступа к внутренним механикам игр. SIMA 2 — это качественный скачок в архитектуре. В её основе теперь лежит модель Gemini, которая дает агенту настоящую способность к рассуждению. Это означает, что вместо простого выполнения команды «найди костёр» агент теперь может понять высокоуровневую цель, разложить её на подзадачи, проанализировать окружение и спланировать действия.

Что умеет SIMA 2

Агент обучался на двух типах данных: видеозаписи реальных действий человека с подробными комментариями и метки, автоматически сгенерированные самой Gemini. Такой гибридный подход позволил SIMA 2 развить новые способности: Разложить сложную цель пользователя на логические подшаги и выполнить их в правильной последовательности Объяснять свои намерения и рассуждать о каждом действии Отвечать на уточняющие вопросы пользователя и взаимодействовать в диалоге Учиться из своих ошибок и совершенствоваться с каждой попыткой * Переносить навыки на совершенно новые игры, которые агент никогда не видел В демонстрациях SIMA 2 успешно находила костёр в незнакомых играх, где первая версия просто зависала. Агент обобщает абстрактное понимание задачи, а не механически повторяет заученные команды.

На пути к физическим роботам

DeepMind подчёркивает, что это исследование выходит далеко за границы видеоигр. Архитектура SIMA 2 — видение экрана, рассуждение о целях, выполнение действий через управление интерфейсом — это в точности то, что нужно для развития реальных роботов. В физическом мире робот будет использовать камеру вместо экрана, но задача остаётся той же: понять окружение, спланировать действие, взаимодействовать с предметами.

Первый SIMA уже демонстрировал трансфер из видеоигр на симуляторы реальности. SIMA 2, с её способностью к рассуждению, должна стать ещё более универсальным инструментом для робототехники. Разработчики называют это значительным шагом в направлении AGI — Artificial General Intelligence.

Проблема генерализации (применение выученного в совершенно новых ситуациях) долгие годы была камнем преткновения в AI. SIMA 2 показывает конкретный прогресс в её решении: агент может адаптироваться к незнакомым средам и целям.

Что это значит Граница между узким, задачеориентированным AI и общим мышлением размывается.

SIMA 2 — это не просто исполнитель команд, а интерактивный помощник, который понимает контекст, может обсуждать стратегию и учиться на ходу. Для робототехники это означает, что ключевые технологии — видение, рассуждение, адаптация — уже близки к практическому применению.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…