NVIDIA объясняет разницу между VLA и WAM — двумя подходами к управлению роботами
NVIDIA опубликовала обзор двух конкурирующих подходов к управлению роботами. VLA-модели стартуют с языкового бэкбона — умеют понимать инструкции, но не…
AI-обработка оригинала NVIDIA Developer Blog; редакция Hamidun News
NVIDIA опубликовала развёрнутый обзор двух конкурирующих архитектур для роботного AI — VLA и WAM — и объясняет, почему второй подход может стать следующим стандартом отрасли.
Два класса роботных моделей
Сегодня существует два доминирующих способа создать модель, управляющую роботом. Первый — взять предобученную визуально-языковую модель и дообучить её генерировать команды для манипулятора. Такие системы называют Vision-Language-Action моделями, или VLA. Примеры уже в эксплуатации: Pi-0 от Physical Intelligence и GR00T N1 от NVIDIA. Оба стартуют с мощного VLM-бэкбона, впитавшего знания о мире через тексты и картинки, — и затем адаптируются для реальных двигательных задач. Ключевое преимущество: богатая семантика и способность обобщать незнакомые инструкции. Второй путь — World-Action Models, или WAM. Здесь базой служит не языковая, а «мировая» модель — система, обученная предсказывать будущие кадры видео в зависимости от выполненного действия. Такой бэкбон не читал интернет, но он видел, как объекты движутся, деформируются и реагируют на физическое воздействие.
Почему воображение важнее языка
Ключевая идея WAM — в том, что предсказание «что случится, если я толкну эту кружку» фундаментально полезнее для робота, чем способность разбирать сложные инструкции. Мировые модели, выросшие из задач генерации видео, накапливают именно этот тип знания. Практически это выражается в следующих различиях: VLM-бэкбон даёт богатую семантику и обобщение языковых команд World-model бэкбон встраивает физическую интуицию без явного программирования физики VLA дообучается преимущественно на датасетах телеопераций человека WAM может использовать синтетические видео как внутренний симулятор * Оба подхода не исключают друг друга — исследователи уже экспериментируют с гибридами ## NVIDIA в обоих лагерях Примечательно, что NVIDIA присутствует сразу в двух направлениях.
GR00T N1 — флагманская VLA-модель для гуманоидных роботов. Cosmos — платформа мировых моделей, которая потенциально служит WAM-бэкбоном для следующего поколения систем.
«Мы находимся в начале эпохи физического AI» — именно такой нарратив NVIDIA закрепляет через публикацию этого глоссария и концептуального обзора.
Стандартизируя терминологию прежде, чем рынок окончательно разделился на лагери, компания занимает позицию архитектора дискурса. Это не просто блог — это заявка на то, чтобы диктовать, как отрасль будет думать о следующем поколении роботов.
Что это значит
Выбор между VLA и WAM — стратегическое решение для всех, кто строит робототехнику сегодня. VLA быстрее запускается при наличии телеоперационных данных, WAM потенциально лучше масштабируется без дорогой ручной разметки. По мере того, как видеогенерационные модели дешевеют и улучшаются, World-Action Models будут становиться всё привлекательнее — и NVIDIA намерена занять ведущие позиции в обоих лагерях одновременно.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.