Hugging Face Blog→ original

NVIDIA mostrou uma forma eficiente de treinar Cosmos em vídeos de robôs através de LoRA

Os engenheiros da NVIDIA publicaram um guia para treinar o modelo Cosmos Predict 2.5 usando o método LoRA/DoRA. Isso permite adaptar o modelo de vídeo para tare

Processado por IA de Hugging Face Blog; editado por Hamidun News
NVIDIA mostrou uma forma eficiente de treinar Cosmos em vídeos de robôs através de LoRA
Fonte: Hugging Face Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A NVIDIA apresentou um guia prático para fine-tuning de seu modelo Cosmos Predict 2.5 usando LoRA e DoRA — métodos de adaptação parametricamente eficiente. Este trabalho transforma o custoso retreinamento completo em um processo acessível que qualquer equipe pode executar em um único GPU.

Por que isso é importante

O Cosmos Predict 2.5 é um poderoso modelo de vídeo com 2 bilhões de parâmetros que gera vídeos fisicamente plausíveis com base em texto, imagens ou outros vídeos. O retreinamento completo usual de tal modelo requer enormes recursos computacionais e frequentemente causa esquecimento — o modelo perde conhecimento geral ao se adaptar a uma tarefa específica. LoRA (Low-Rank Adaptation) resolve este problema: em vez de modificar todos os 2 bilhões de parâmetros, apenas pequenos adaptadores nas camadas de atenção e feedforward são treinados. Isso reduz o consumo de memória em uma ordem de magnitude e permite trabalhar com hardware orçamentário.

Como funciona na prática

Usando o conjunto de dados GR1-100 (92 vídeos de manipulação de robôs) como exemplo, a NVIDIA mostrou os resultados:

  • Treinamento em 1× GPU H100: 17 horas
  • Treinamento em 8× GPU H100: 2,5 horas
  • Os adaptadores ocupam apenas alguns MB (em comparação com muitos GB do checkpoint completo)
  • Os adaptadores são facilmente intercambiáveis — diferentes versões para diferentes domínios

O modelo foi treinado por 500 épocas em vídeos de manipulação: quando precisa pegar um objeto do tapete em uma tigela, trazer suco em um copo verde e assim por diante. Instruções de texto para cada vídeo ajudaram o modelo a entender exatamente o que precisava gerar.

O que o treinamento proporcionou

O modelo de base estava confuso: gerava mãos humanas em vez de mãos de robô, o vídeo tremia, os objetos se moviam de forma implausível. Após fine-tuning via LoRA/DoRA:

Os modelos fine-tuned (LoRA r=32,

DoRA r=32) usam corretamente a mão especificada e eliminaram tremulações e melhoraram a estabilidade do vídeo.

Qualitativamente: desapareceram as alucinações, o modelo usa consistentemente a mão correta, os objetos se movem de forma fisicamente plausível, as instruções são seguidas com mais precisão. Quantitativamente: os scores para estabilidade geométrica (Sampson Error), plausibilidade física e cumprimento de instruções aumentaram em todas as configurações — LoRA rank 8, LoRA rank 32, DoRA rank 32. Rank 32 oferece melhor precisão de instruções, rank 8 requer menos memória.

O que isso significa

Vídeos sintéticos de robôs — essa é uma tarefa em alta demanda: obter dados reais de manipulação é caro e demorado. Com Cosmos + LoRA, uma equipe de robótica pode gerar milhares de exemplos em uma noite em um único GPU. É mais barato, mais rápido e treina robôs reais em variações de movimento estilizadas. A NVIDIA lançou código completo, receitas e adaptadores prontos — copiar-colar e executar.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…