MarkTechPost→ original

NVIDIA empacotou 3 modelos em um arquivo e tornou o treinamento 360× mais eficiente

NVIDIA apresentou o Star Elastic, um método que treina três modelos de tamanhos diferentes (30B, 23B e 12B parâmetros) em um único ciclo de 160B tokens. Economi

NVIDIA empacotou 3 modelos em um arquivo e tornou o treinamento 360× mais eficiente
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

NVIDIA apresentou Star Elastic — um método que empacota três modelos de tamanhos diferentes (30B, 23B e 12B parâmetros) em um único arquivo de pesos, treinando todos eles do zero em uma única execução de treinamento em vez de três treinamentos separados.

Economia de 360× nos Custos de Treinamento

Star Elastic é baseado no framework Nemotron Elastic e aplicado ao Nemotron Nano v3 — a nova geração de modelos da NVIDIA. A característica-chave: todas as três variantes do modelo treinam em um único ciclo de 160B tokens. Para comparação: se a NVIDIA treinasse cada modelo separadamente, seria necessário aproximadamente 360× mais computação.

Essa é uma economia massiva, especialmente considerando o custo da computação em supercomputadores. A abordagem convencional requer treinar cada tamanho separadamente (caro) ou podar pesos de um modelo maior (perda de precisão). Star Elastic faz uma terceira coisa: incorpora modelos aninhados em um único checkpoint preservando totalmente a qualidade de cada tamanho.

Os três modelos são armazenados em um arquivo e podem ser chamados durante a inferência.

Inferência Fica Mais Rápida e Precisa

Mas o treinamento é apenas metade da batalha. Star Elastic introduz elastic budget control — uma nova abordagem de inferência que maximiza os benefícios dos três modelos simultaneamente. A ideia é simples: durante a fase de "raciocínio" (quando o modelo delibera) um pequeno modelo de 12B é usado para economizar computação, enquanto na fase final de saída — o modelo completo de 30B é usado para a resposta mais precisa. Os resultados são impressionantes:

  • 16% maior precisão em comparação com o budget control padrão
  • 1.9× menor latência — o modelo responde mais rápido
  • Flexibilidade: as organizações podem escolher a profundidade do raciocínio dependendo da tarefa e do orçamento

Compare isso com o budget control padrão — é aproximadamente a mesma coisa, mas sem a opção de alternar flexivelmente entre tamanhos durante a inferência. Aqui, a alternância está incorporada no próprio algoritmo e funciona automaticamente.

Toda a Família Agora Cabe em RTX

Star Elastic permite que os modelos sejam quantizados em FP8 e no formato proprietário NVFP4 (mais eficiente do que formatos padrão). Isso significa: toda a tríade de modelos pode residir em uma única GPU RTX, mesmo em placas gráficas de consumidor. Anteriormente, um modelo de 30B exigia equipamento profissional como a H100, que é inacessível para muitas empresas. Agora os engenheiros podem experimentar com modelos poderosos em seus próprios PCs.

"Isso democratiza o acesso a modelos de raciocínio", — nesse espírito,

argumentam os desenvolvedores da NVIDIA.

O Que Isso Significa

As organizações não precisam mais escolher entre velocidade (modelo pequeno) e qualidade (modelo grande) no momento do treinamento. Elas treinam uma vez e escolhem o compromisso durante a inferência — flexivelmente, sem retreinamento. Isso reduz custos não apenas para treinamento, mas também para servidores de inferência. Na prática: você paga menos por horas de GPU e obtém mais flexibilidade em produção.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…