NVIDIA объясняет разницу между VLA и WAM — двумя подходами к управлению роботами

Q: Источник материала?

Оригинальная публикация на NVIDIA Developer Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

15 июн. 2026 г.. Время чтения: 3 мин.

NVIDIA опубликовала обзор двух конкурирующих подходов к управлению роботами. VLA-модели стартуют с языкового бэкбона — умеют понимать инструкции, но не…

ЖХ

Редакция Hamidun News

AI‑мониторинг · NVIDIA Developer Blog

15 июн. 2026 г.· 3 мин

AI-обработка оригинала NVIDIA Developer Blog; редакция Hamidun News

NVIDIA объясняет разницу между VLA и WAM — двумя подходами к управлению роботами — Источник: NVIDIA Developer Blog. Коллаж: Hamidun News.

◐ Слушать статью

NVIDIA опубликовала развёрнутый обзор двух конкурирующих архитектур для роботного AI — VLA и WAM — и объясняет, почему второй подход может стать следующим стандартом отрасли.

Два класса роботных моделей

Сегодня существует два доминирующих способа создать модель, управляющую роботом. Первый — взять предобученную визуально-языковую модель и дообучить её генерировать команды для манипулятора. Такие системы называют Vision-Language-Action моделями, или VLA. Примеры уже в эксплуатации: Pi-0 от Physical Intelligence и GR00T N1 от NVIDIA. Оба стартуют с мощного VLM-бэкбона, впитавшего знания о мире через тексты и картинки, — и затем адаптируются для реальных двигательных задач. Ключевое преимущество: богатая семантика и способность обобщать незнакомые инструкции. Второй путь — World-Action Models, или WAM. Здесь базой служит не языковая, а «мировая» модель — система, обученная предсказывать будущие кадры видео в зависимости от выполненного действия. Такой бэкбон не читал интернет, но он видел, как объекты движутся, деформируются и реагируют на физическое воздействие.

Почему воображение важнее языка

Ключевая идея WAM — в том, что предсказание «что случится, если я толкну эту кружку» фундаментально полезнее для робота, чем способность разбирать сложные инструкции. Мировые модели, выросшие из задач генерации видео, накапливают именно этот тип знания. Практически это выражается в следующих различиях: VLM-бэкбон даёт богатую семантику и обобщение языковых команд World-model бэкбон встраивает физическую интуицию без явного программирования физики VLA дообучается преимущественно на датасетах телеопераций человека WAM может использовать синтетические видео как внутренний симулятор * Оба подхода не исключают друг друга — исследователи уже экспериментируют с гибридами ## NVIDIA в обоих лагерях Примечательно, что NVIDIA присутствует сразу в двух направлениях.

GR00T N1 — флагманская VLA-модель для гуманоидных роботов. Cosmos — платформа мировых моделей, которая потенциально служит WAM-бэкбоном для следующего поколения систем.

«Мы находимся в начале эпохи физического AI» — именно такой нарратив NVIDIA закрепляет через публикацию этого глоссария и концептуального обзора.

Стандартизируя терминологию прежде, чем рынок окончательно разделился на лагери, компания занимает позицию архитектора дискурса. Это не просто блог — это заявка на то, чтобы диктовать, как отрасль будет думать о следующем поколении роботов.

Что это значит

Выбор между VLA и WAM — стратегическое решение для всех, кто строит робототехнику сегодня. VLA быстрее запускается при наличии телеоперационных данных, WAM потенциально лучше масштабируется без дорогой ручной разметки. По мере того, как видеогенерационные модели дешевеют и улучшаются, World-Action Models будут становиться всё привлекательнее — и NVIDIA намерена занять ведущие позиции в обоих лагерях одновременно.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация