NVIDIA empacotou 3 modelos em um arquivo e tornou o treinamento 360× mais eficiente
NVIDIA apresentou o Star Elastic, um método que treina três modelos de tamanhos diferentes (30B, 23B e 12B parâmetros) em um único ciclo de 160B tokens. Economi

NVIDIA apresentou Star Elastic — um método que empacota três modelos de tamanhos diferentes (30B, 23B e 12B parâmetros) em um único arquivo de pesos, treinando todos eles do zero em uma única execução de treinamento em vez de três treinamentos separados.
Economia de 360× nos Custos de Treinamento
Star Elastic é baseado no framework Nemotron Elastic e aplicado ao Nemotron Nano v3 — a nova geração de modelos da NVIDIA. A característica-chave: todas as três variantes do modelo treinam em um único ciclo de 160B tokens. Para comparação: se a NVIDIA treinasse cada modelo separadamente, seria necessário aproximadamente 360× mais computação.
Essa é uma economia massiva, especialmente considerando o custo da computação em supercomputadores. A abordagem convencional requer treinar cada tamanho separadamente (caro) ou podar pesos de um modelo maior (perda de precisão). Star Elastic faz uma terceira coisa: incorpora modelos aninhados em um único checkpoint preservando totalmente a qualidade de cada tamanho.
Os três modelos são armazenados em um arquivo e podem ser chamados durante a inferência.
Inferência Fica Mais Rápida e Precisa
Mas o treinamento é apenas metade da batalha. Star Elastic introduz elastic budget control — uma nova abordagem de inferência que maximiza os benefícios dos três modelos simultaneamente. A ideia é simples: durante a fase de "raciocínio" (quando o modelo delibera) um pequeno modelo de 12B é usado para economizar computação, enquanto na fase final de saída — o modelo completo de 30B é usado para a resposta mais precisa. Os resultados são impressionantes:
- 16% maior precisão em comparação com o budget control padrão
- 1.9× menor latência — o modelo responde mais rápido
- Flexibilidade: as organizações podem escolher a profundidade do raciocínio dependendo da tarefa e do orçamento
Compare isso com o budget control padrão — é aproximadamente a mesma coisa, mas sem a opção de alternar flexivelmente entre tamanhos durante a inferência. Aqui, a alternância está incorporada no próprio algoritmo e funciona automaticamente.
Toda a Família Agora Cabe em RTX
Star Elastic permite que os modelos sejam quantizados em FP8 e no formato proprietário NVFP4 (mais eficiente do que formatos padrão). Isso significa: toda a tríade de modelos pode residir em uma única GPU RTX, mesmo em placas gráficas de consumidor. Anteriormente, um modelo de 30B exigia equipamento profissional como a H100, que é inacessível para muitas empresas. Agora os engenheiros podem experimentar com modelos poderosos em seus próprios PCs.
"Isso democratiza o acesso a modelos de raciocínio", — nesse espírito,
argumentam os desenvolvedores da NVIDIA.
O Que Isso Significa
As organizações não precisam mais escolher entre velocidade (modelo pequeno) e qualidade (modelo grande) no momento do treinamento. Elas treinam uma vez e escolhem o compromisso durante a inferência — flexivelmente, sem retreinamento. Isso reduz custos não apenas para treinamento, mas também para servidores de inferência. Na prática: você paga menos por horas de GPU e obtém mais flexibilidade em produção.