NVIDIA mostró una forma eficiente de entrenar Cosmos en video robótico a través de LoRA
Los ingenieros de NVIDIA publicaron una guía para entrenar el modelo Cosmos Predict 2.5 utilizando el método LoRA/DoRA. Esto permite adaptar la video-modelo a t
Procesado por IA desde Hugging Face Blog; editado por Hamidun News
NVIDIA presentó una guía práctica para fine-tuning de su modelo Cosmos Predict 2.5 utilizando LoRA y DoRA — métodos de adaptación paramétrica eficiente. Este trabajo convierte el costoso reentrenamiento completo en un proceso accesible que cualquier equipo puede ejecutar en una única GPU.
Por qué es importante
Cosmos Predict 2.5 es un poderoso video-modelo de 2 mil millones de parámetros que genera videos físicamente plausibles basados en texto, imágenes u otros videos. El reentrenamiento completo convencional de tal modelo requiere enormes recursos computacionales y a menudo resulta en olvido — el modelo pierde conocimiento general al adaptarse a una tarea específica.
LoRA (Low-Rank Adaptation) resuelve este problema: en lugar de cambiar los 2 mil millones de parámetros, solo se entrenan pequeños adaptadores en las capas de atención y feedforward. Esto reduce el consumo de memoria en un orden de magnitud y permite trabajar en hardware económico.
Cómo funciona en la práctica
Utilizando el conjunto de datos GR1-100 (92 videos de manipulaciones robóticas) como ejemplo, NVIDIA mostró los resultados:
- Entrenamiento en 1× GPU H100: 17 horas
- Entrenamiento en 8× GPU H100: 2.5 horas
- Los adaptadores ocupan solo unos pocos MB (en comparación con muchos GB de checkpoint completo)
- Los adaptadores se cambian fácilmente — diferentes versiones para diferentes dominios
El modelo se entrenó durante 500 épocas en videos de manipulaciones: cuando necesita tomar un objeto de una alfombra a un tazón, llevar jugo a una taza verde, etcétera. Las instrucciones de texto para cada video ayudaron al modelo a entender exactamente qué necesitaba generar.
Qué trajo el entrenamiento
El modelo base se confundía en la salida: generaba manos humanas en lugar de manos robóticas, el video temblaba y los objetos se movían de manera no plausible. Después del fine-tuning a través de LoRA/DoRA:
Los modelos ajustados (LoRA r=32,
DoRA r=32) utilizan correctamente la mano especificada, eliminaron el movimiento errático y mejoraron la estabilidad del video.
Cualitativamente: desaparecieron las alucinaciones, el modelo usa consistentemente la mano correcta, los objetos se mueven de manera físicamente plausible, las instrucciones se siguen con mayor precisión.
Cuantitativamente: las puntuaciones de estabilidad geométrica (Sampson Error), plausibilidad física y seguimiento de instrucciones aumentaron en todas las configuraciones — LoRA rank 8, LoRA rank 32, DoRA rank 32. Rank 32 proporciona mejor precisión en instrucciones, rank 8 requiere menos memoria.
Qué significa esto
La generación de videos sintéticos de robots es una tarea candente: obtener datos reales de manipulaciones es costoso y toma tiempo. Con Cosmos + LoRA, un equipo de robótica puede generar miles de ejemplos durante la noche en una única GPU. Es más barato, más rápido y entrena robots reales con variedades elegantes de movimientos.
NVIDIA lanzó el código completo, recetas y adaptadores listos — copiar-pegar y ejecutar.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.