NVIDIA Developer Blog→ original

NVIDIA Explica la Diferencia Entre VLA y WAM — Dos Enfoques para el Control de Robots

NVIDIA publicó una descripción general de dos enfoques competidores para el control de robots. Los modelos VLA comienzan con una columna vertebral de…

Procesado por IA desde NVIDIA Developer Blog; editado por Hamidun News
NVIDIA Explica la Diferencia Entre VLA y WAM — Dos Enfoques para el Control de Robots
Fuente: NVIDIA Developer Blog. Collage: Hamidun News.
◐ Escuchar artículo

NVIDIA ha publicado una descripción general exhaustiva de dos arquitecturas competidoras para la IA robótica — VLA y WAM — y explica por qué el segundo enfoque podría convertirse en el próximo estándar de la industria.

Dos Clases de Modelos Robóticos

Hoy existen dos formas dominantes de crear un modelo que controle un robot. La primera es tomar un modelo Vision-Language preentrenado y ajustarlo para generar comandos para un manipulador. Estos sistemas se llaman modelos Vision-Language-Action, o VLA. Ejemplos ya en operación: Pi-0 de Physical Intelligence y GR00T N1 de NVIDIA. Ambos comienzan con una poderosa backbone VLM que ha absorbido conocimiento sobre el mundo a través de textos e imágenes — y luego se adaptan para tareas motoras reales. La ventaja clave: semántica rica y la capacidad de generalizar instrucciones desconocidas.

El segundo camino son los World-Action Models, o WAM. Aquí la base no es un modelo de lenguaje, sino un modelo "del mundo" — un sistema entrenado para predecir fotogramas de vídeo futuros dependiendo de la acción realizada. Tal backbone no ha leído internet, pero ha visto cómo los objetos se mueven, se deforman y responden al impacto físico.

Por Qué la Imaginación Es Más Importante Que el Lenguaje

La idea clave de WAM es que predecir "qué sucederá si empujo esta taza" es fundamentalmente más útil para un robot que la capacidad de analizar instrucciones complejas. Los modelos del mundo, surgidos de tareas de generación de vídeo, acumulan precisamente este tipo de conocimiento. En la práctica, esto se expresa en las siguientes diferencias:

  • La backbone VLM proporciona semántica rica y generalización de comandos de lenguaje
  • La backbone de modelo del mundo incorpora intuición física sin programación explícita de física
  • VLA se ajusta predominantemente en conjuntos de datos de teleoperación humana
  • WAM puede usar vídeo sintético como un simulador interno
  • Ambos enfoques no se excluyen mutuamente — los investigadores ya están experimentando con híbridos

NVIDIA en Ambos Campos

Notablemente, NVIDIA está presente en ambas direcciones simultáneamente. GR00T N1 es el modelo VLA insignia para robots humanoides. Cosmos es una plataforma de modelos del mundo que potencialmente sirve como backbone WAM para la próxima generación de sistemas.

"Estamos en el comienzo de una era de IA física" — este es precisamente el narrativo que NVIDIA está cimentando a través de esta publicación de glosario y descripción conceptual.

Al estandarizar la terminología antes de que el mercado se divida completamente en campos, la empresa se posiciona como una arquitecta del discurso. Esto no es simplemente un blog — es un intento de dictar cómo la industria pensará sobre la próxima generación de robots.

Qué Significa Esto

La elección entre VLA y WAM es una decisión estratégica para todos los que construyen robótica hoy. VLA se lanza más rápido con datos de teleoperación disponibles; WAM potencialmente escala mejor sin anotación manual costosa. A medida que los modelos de generación de vídeo se vuelven más baratos y mejoran, los Modelos de Acción del Mundo se volverán cada vez más atractivos — y NVIDIA tiene la intención de ocupar posiciones líderes en ambos campos simultáneamente.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…