AMI Labs Apuesta por Modelos del Mundo Más Allá de LLM y Ve Camino a Productos a Través de VLA
AMI Labs, un proyecto de Yann LeCun, avanza modelos del mundo como el siguiente paso después de LLM: en lugar de predecir tokens—entender el entorno y las conse

После бума LLM компания AMI Labs предлагает сместить центр тяжести ИИ с языка на понимание физической среды: машине мало уметь продолжать текст, если она должна безопасно действовать в реальном мире, планировать шаги и заранее оценивать последствия своих решений. AMI Labs — исследовательская компания Яна Лекуна, одного из ключевых пионеров глубокого обучения. Проект привлек 1,03 млрд долларов при оценке 3,5 млрд долларов до инвестиций, и это показывает, что интерес к world models вышел за пределы академической дискуссии.
В компании исходят из простой мысли: данные из камер, датчиков и сенсоров устроены иначе, чем текст. Они непрерывны, зашумлены, многомерны и плохо поддаются логике «предскажи следующий токен». Поэтому вместо адаптации LLM к любому сценарию AMI делает ставку на другой базовый слой — модель мира.
Под моделью мира здесь понимается не видеогенератор и не просто мультимодальная система с картинками, текстом и действиями на входе. Речь о модели, которая строит скрытое внутреннее представление среды, выделяет устойчивые связи и отбрасывает случайные детали. Важен не каждый пиксель будущего кадра, а структура происходящего: где находятся объекты, как они движутся, какие ограничения есть у среды и что изменится после действия агента.
Такая архитектура должна отвечать не только на вопрос «что я вижу», но и на вопрос «что случится, если я сделаю это». Именно поэтому в центре подхода оказывается JEPA — Joint Embedding Predictive Architecture. В этой логике модель предсказывает не сырые данные и не последовательность токенов, а состояние в пространстве представлений.
Это позволяет не тратить вычисления на шум и случайные вариации, а учиться на действительно значимых признаках сцены. Практический аргумент в пользу такого подхода уже появился в исследованиях V-JEPA 2: систему сначала предобучили более чем на миллионе часов интернет-видео, а затем дообучили action-conditioned версию меньше чем на 62 часах неразмеченных робототехнических видео. После этого модель в zero-shot режиме смогла работать на манипуляторах Franka в новых лабораториях, выполняя захват и перемещение объектов без отдельного сбора данных под конкретную среду и без функции вознаграждения.
Но сама модель мира — еще не готовый агент. Она умеет предсказывать развитие ситуации, однако кто-то должен перевести это понимание в конкретное действие. Здесь появляется VLA, visual-language-action уровень, который связывает восприятие, цель пользователя, языковую команду и допустимые действия системы.
Важный тезис AMI и смежных работ в том, что VLA и world model не конкурируют. Наоборот, без внутреннего прогноза VLA остается слишком реактивной: она может выдать правильное действие «на сейчас», но хуже справляется с длинными, хрупкими и физически чувствительными сценариями, где нужно мысленно проигрывать последствия касания, перемещения, столкновения или ошибки. Поэтому наиболее очевидные рынки для такого подхода — не чат-интерфейсы, а отрасли с высокой ценой ошибки: промышленная автоматизация, робототехника, носимые устройства и здравоохранение.
Если текстовая модель ошиблась в пересказе статьи, ущерб ограничен. Если интеллектуальная система неверно интерпретировала состояние оборудования, неправильно оценила риски в медицине или не рассчитала траекторию робота, последствия уже физические. Показательно, что первым партнером AMI называется Nabla из цифровой медицины.
Это не означает, что компания уже решила задачу надежного ИИ для клинической среды, но показывает направление: меньше фокуса на эффектных демо и больше — на управляемость, предсказуемость и внутреннюю симуляцию среды до совершения действия. Главный вывод в том, что после эпохи LLM разговор об ИИ постепенно смещается от языкового описания мира к его внутреннему моделированию. Подход AMI пока остается исследовательской программой, а не готовой заменой большим языковым моделям: термин «модель мира» уже размывается, а перенос в новые среды еще предстоит доказать.
Но если эта линия сработает, следующий практический прорыв в ИИ может прийти не из еще одного чат-бота, а из систем, которые сначала понимают физическую реальность, а уже потом действуют в ней.