NVIDIA mostrou uma forma eficiente de treinar Cosmos em vídeos de robôs através de LoRA
Os engenheiros da NVIDIA publicaram um guia para treinar o modelo Cosmos Predict 2.5 usando o método LoRA/DoRA. Isso permite adaptar o modelo de vídeo para tare
Processado por IA de Hugging Face Blog; editado por Hamidun News
A NVIDIA apresentou um guia prático para fine-tuning de seu modelo Cosmos Predict 2.5 usando LoRA e DoRA — métodos de adaptação parametricamente eficiente. Este trabalho transforma o custoso retreinamento completo em um processo acessível que qualquer equipe pode executar em um único GPU.
Por que isso é importante
O Cosmos Predict 2.5 é um poderoso modelo de vídeo com 2 bilhões de parâmetros que gera vídeos fisicamente plausíveis com base em texto, imagens ou outros vídeos. O retreinamento completo usual de tal modelo requer enormes recursos computacionais e frequentemente causa esquecimento — o modelo perde conhecimento geral ao se adaptar a uma tarefa específica. LoRA (Low-Rank Adaptation) resolve este problema: em vez de modificar todos os 2 bilhões de parâmetros, apenas pequenos adaptadores nas camadas de atenção e feedforward são treinados. Isso reduz o consumo de memória em uma ordem de magnitude e permite trabalhar com hardware orçamentário.
Como funciona na prática
Usando o conjunto de dados GR1-100 (92 vídeos de manipulação de robôs) como exemplo, a NVIDIA mostrou os resultados:
- Treinamento em 1× GPU H100: 17 horas
- Treinamento em 8× GPU H100: 2,5 horas
- Os adaptadores ocupam apenas alguns MB (em comparação com muitos GB do checkpoint completo)
- Os adaptadores são facilmente intercambiáveis — diferentes versões para diferentes domínios
O modelo foi treinado por 500 épocas em vídeos de manipulação: quando precisa pegar um objeto do tapete em uma tigela, trazer suco em um copo verde e assim por diante. Instruções de texto para cada vídeo ajudaram o modelo a entender exatamente o que precisava gerar.
O que o treinamento proporcionou
O modelo de base estava confuso: gerava mãos humanas em vez de mãos de robô, o vídeo tremia, os objetos se moviam de forma implausível. Após fine-tuning via LoRA/DoRA:
Os modelos fine-tuned (LoRA r=32,
DoRA r=32) usam corretamente a mão especificada e eliminaram tremulações e melhoraram a estabilidade do vídeo.
Qualitativamente: desapareceram as alucinações, o modelo usa consistentemente a mão correta, os objetos se movem de forma fisicamente plausível, as instruções são seguidas com mais precisão. Quantitativamente: os scores para estabilidade geométrica (Sampson Error), plausibilidade física e cumprimento de instruções aumentaram em todas as configurações — LoRA rank 8, LoRA rank 32, DoRA rank 32. Rank 32 oferece melhor precisão de instruções, rank 8 requer menos memória.
O que isso significa
Vídeos sintéticos de robôs — essa é uma tarefa em alta demanda: obter dados reais de manipulação é caro e demorado. Com Cosmos + LoRA, uma equipe de robótica pode gerar milhares de exemplos em uma noite em um único GPU. É mais barato, mais rápido e treina robôs reais em variações de movimento estilizadas. A NVIDIA lançou código completo, receitas e adaptadores prontos — copiar-colar e executar.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.