Jiqizhixin (机器之心)→ оригинал

Agent2World: paz теперь можно скомпилировать как обычный софт

Проект Agent2World меняет правила игры в создании мировых моделей. Вместо того чтобы просто генерировать видеоряд, как это делают Sora или Runway, система строи

Agent2World: paz теперь можно скомпилировать как обычный софт
Источник: Jiqizhixin (机器之心). Коллаж: Hamidun News.

Помните, как все восторгались Sora, называя её первой ласточкой настоящих мировых моделей? Красивые видео, реалистичная шерсть котиков и почти физически корректные волны. Но была одна проблема: вы не могли войти в этот мир и что-то в нём изменить.

Это была красивая, но абсолютно статичная декорация. Исследователи представили Agent2World, и это, пожалуй, самый важный сдвиг в парадигме создания цифровых реальностей за последний год. Если раньше мы пытались научить нейросети «рисовать» физику, то теперь мы учим их писать её код.

Суть концепции Agent2World заключается в превращении мировых моделей в то, что авторы называют исполняемой символьной средой. Представьте, что вместо того чтобы гадать, какой пиксель должен стоять рядом с другим, модель генерирует логическую структуру мира, правила взаимодействия объектов и их состояния. Это очень похоже на то, как работают современные игровые движки вроде Unreal Engine, но с одной важной деталью: мир создается и компилируется «на лету» под конкретную задачу ИИ-агента.

Мы переходим от пассивного созерцания к активному конструированию. Зачем это нужно, если у нас уже есть отличные симуляторы? Проблема старых методов в их чудовищной неповоротливости.

Чтобы обучить робота подавать кофе, вам нужно вручную отрисовать кухню, прописать физику столкновений и задать тысячи параметров. Agent2World делает этот процесс автоматическим. Он использует мощь больших языковых моделей для интерпретации намерений и превращает их в рабочий программный код среды.

Это снимает «проклятие размерности», которое десятилетиями тормозило обучение агентов в сложных условиях. Теперь агент может сам заказать себе полигон для тренировки, и система его «вырастит» за считанные секунды. Критическое отличие здесь в обратной связи.

В обычных генеративных моделях агент — это зритель. В Agent2World агент — это полноценный участник. Если он совершает действие, символьная среда обсчитывает результат по логическим правилам, а не по статистической вероятности появления следующего кадра.

Это решает главную проблему современных LLM — галлюцинации. В символьном мире нельзя просто так пройти сквозь стену, если код этого не позволяет. Это дает нам тот самый «grounding» или заземление интеллекта, о котором так долго твердили Ян Лекун и другие апологеты здравого смысла в ИИ.

Что это значит для индустрии в целом? Мы стоим на пороге появления бесконечных, процедурно генерируемых обучающих песочниц. Это прямой путь к ускорению развития робототехники.

Если раньше для сбора данных требовались тысячи часов реальных испытаний или годы ручного моделирования, то теперь мы можем запускать миллионы итераций в виртуальных мирах, которые строятся и перестраиваются сами собой. Это делает Agent2World не просто очередным фреймворком, а полноценным компилятором реальности для искусственного интеллекта. Похоже, эпоха, когда мы учили ИИ на текстах из интернета, окончательно уступает место эпохе, где ИИ учится на собственном опыте в мирах, которые сам же и кодит.

Главное: решит ли переход к символьным средам проблему нехватки данных для обучения роботов, или мы просто заменим галлюцинации картинок на баги в коде миров?

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…