Hugging Face Blog→ original

NVIDIA mostró una forma eficiente de entrenar Cosmos en video robótico a través de LoRA

Los ingenieros de NVIDIA publicaron una guía para entrenar el modelo Cosmos Predict 2.5 utilizando el método LoRA/DoRA. Esto permite adaptar la video-modelo a t

Procesado por IA desde Hugging Face Blog; editado por Hamidun News
NVIDIA mostró una forma eficiente de entrenar Cosmos en video robótico a través de LoRA
Fuente: Hugging Face Blog. Collage: Hamidun News.
◐ Escuchar artículo

NVIDIA presentó una guía práctica para fine-tuning de su modelo Cosmos Predict 2.5 utilizando LoRA y DoRA — métodos de adaptación paramétrica eficiente. Este trabajo convierte el costoso reentrenamiento completo en un proceso accesible que cualquier equipo puede ejecutar en una única GPU.

Por qué es importante

Cosmos Predict 2.5 es un poderoso video-modelo de 2 mil millones de parámetros que genera videos físicamente plausibles basados en texto, imágenes u otros videos. El reentrenamiento completo convencional de tal modelo requiere enormes recursos computacionales y a menudo resulta en olvido — el modelo pierde conocimiento general al adaptarse a una tarea específica.

LoRA (Low-Rank Adaptation) resuelve este problema: en lugar de cambiar los 2 mil millones de parámetros, solo se entrenan pequeños adaptadores en las capas de atención y feedforward. Esto reduce el consumo de memoria en un orden de magnitud y permite trabajar en hardware económico.

Cómo funciona en la práctica

Utilizando el conjunto de datos GR1-100 (92 videos de manipulaciones robóticas) como ejemplo, NVIDIA mostró los resultados:

  • Entrenamiento en 1× GPU H100: 17 horas
  • Entrenamiento en 8× GPU H100: 2.5 horas
  • Los adaptadores ocupan solo unos pocos MB (en comparación con muchos GB de checkpoint completo)
  • Los adaptadores se cambian fácilmente — diferentes versiones para diferentes dominios

El modelo se entrenó durante 500 épocas en videos de manipulaciones: cuando necesita tomar un objeto de una alfombra a un tazón, llevar jugo a una taza verde, etcétera. Las instrucciones de texto para cada video ayudaron al modelo a entender exactamente qué necesitaba generar.

Qué trajo el entrenamiento

El modelo base se confundía en la salida: generaba manos humanas en lugar de manos robóticas, el video temblaba y los objetos se movían de manera no plausible. Después del fine-tuning a través de LoRA/DoRA:

Los modelos ajustados (LoRA r=32,

DoRA r=32) utilizan correctamente la mano especificada, eliminaron el movimiento errático y mejoraron la estabilidad del video.

Cualitativamente: desaparecieron las alucinaciones, el modelo usa consistentemente la mano correcta, los objetos se mueven de manera físicamente plausible, las instrucciones se siguen con mayor precisión.

Cuantitativamente: las puntuaciones de estabilidad geométrica (Sampson Error), plausibilidad física y seguimiento de instrucciones aumentaron en todas las configuraciones — LoRA rank 8, LoRA rank 32, DoRA rank 32. Rank 32 proporciona mejor precisión en instrucciones, rank 8 requiere menos memoria.

Qué significa esto

La generación de videos sintéticos de robots es una tarea candente: obtener datos reales de manipulaciones es costoso y toma tiempo. Con Cosmos + LoRA, un equipo de robótica puede generar miles de ejemplos durante la noche en una única GPU. Es más barato, más rápido y entrena robots reales con variedades elegantes de movimientos.

NVIDIA lanzó el código completo, recetas y adaptadores listos — copiar-pegar y ejecutar.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…