NVIDIA a montré un moyen efficace d'entraîner Cosmos sur des vidéos de robots via LoRA
Les ingénieurs de NVIDIA ont publié un guide pour l'entraînement du modèle Cosmos Predict 2.5 via LoRA/DoRA. Cela permet d'adapter le modèle vidéo à des tâches
Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
NVIDIA a présenté un guide pratique pour l'ajustement fin de son modèle Cosmos Predict 2.5 à l'aide de LoRA et DoRA — des méthodes d'adaptation paramétriquement efficaces. Ce travail transforme le réentraînement complet coûteux en un processus accessible que toute équipe peut exécuter sur un seul GPU.
Pourquoi c'est important
Cosmos Predict 2.5 est un puissant modèle vidéo de 2 milliards de paramètres qui génère des vidéos physiquement plausibles basées sur du texte, des images ou d'autres vidéos. Le réentraînement complet ordinaire d'un tel modèle nécessite d'énormes ressources informatiques et entraîne souvent l'oubli catastrophique — le modèle perd les connaissances générales en s'adaptant à une tâche spécifique.
LoRA (Low-Rank Adaptation) résout ce problème : au lieu de modifier tous les 2 milliards de paramètres, seuls de petits adaptateurs dans les couches d'attention et feedforward sont entraînés. Cela réduit la consommation mémoire d'un ordre de grandeur et permet de fonctionner sur du matériel bon marché.
Comment cela fonctionne en pratique
Sur l'exemple du dataset GR1-100 (92 vidéos de manipulations robotiques) NVIDIA a montré les résultats :
- Entraînement sur 1× GPU H100 : 17 heures
- Entraînement sur 8× GPU H100 : 2,5 heures
- Les adaptateurs occupent seulement quelques MB (contre plusieurs GB pour le checkpoint complet)
- Les adaptateurs se changent facilement — différentes versions pour différents domaines
Le modèle a été entraîné sur 500 epochs sur des vidéos de manipulation : prendre un objet du tapis dans un bol, apporter du jus dans une tasse verte, etc. Les instructions textuelles pour chaque vidéo ont aidé le modèle à comprendre ce qui devait être généré.
Ce que l'entraînement a apporté
Le modèle de base était confus à la sortie : il générait des mains humaines au lieu de bras robotiques, la vidéo vacillait, les objets se mouvaient de manière implausible. Après l'ajustement fin via LoRA/DoRA :
Fine-tuned models (LoRA r=32,
DoRA r=32) correctly use specified hand and eliminated jitter and improved video stability.
Qualitativement : les hallucinations ont disparu, le modèle utilise systématiquement le bras spécifié, les objets se déplacent de manière physiquement plausible, les instructions sont exécutées plus précisément.
Quantitativement : les scores de stabilité géométrique (Erreur Sampson), de plausibilité physique et de suivi des instructions ont augmenté dans toutes les configurations — LoRA rank 8, LoRA rank 32, DoRA rank 32. Le rank 32 donne une meilleure précision des instructions, le rank 8 nécessite moins de mémoire.
Ce que cela signifie
Les vidéos synthétiques de robots sont une tâche brûlante : obtenir des données réelles de manipulation est coûteux et long. Avec Cosmos + LoRA, une équipe de robotique peut générer des milliers d'exemples en une nuit sur un seul GPU. C'est moins cher, plus rapide, et entraîne les vrais robots sur des variantes de mouvements élégantes.
NVIDIA a publié le code complet, les recettes et les adaptateurs prêts à l'emploi — copier-coller et c'est parti.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.