NVIDIA Developer Blog→ original

A NVIDIA explicou como treinar transformers com precisão reduzida sem perda de qualidade

A NVIDIA publicou um guia técnico sobre o treinamento de modelos transformer em precisão reduzida — FP8 e BF16. Quanto maior o modelo, mais cara fica cada…

Processado por IA de NVIDIA Developer Blog; editado por Hamidun News
A NVIDIA explicou como treinar transformers com precisão reduzida sem perda de qualidade
Fonte: NVIDIA Developer Blog. Colagem: Hamidun News.
◐ Ouvir artigo

NVIDIA publicou um guia extenso no Developer Blog sobre otimização de arquiteturas transformer para treinamento com computações de precisão reduzida — FP8 e BF16. O artigo é direcionado para engenheiros que desejam reduzir o custo de execuções de treinamento sem comprometer a qualidade do modelo.

Por que as equipes precisam disso

Transformers formam a base da maioria dos modelos de linguagem e generativos modernos. À medida que os tamanhos dos modelos crescem — de bilhões para dezenas de bilhões de parâmetros — o custo de uma única execução de treinamento aumenta exponencialmente. Cada iteração de experimento consome mais horas de GPU, o que desacelera o desenvolvimento e aumenta os custos. Na prática, isso significa que o treinamento lento não é apenas uma inconveniência técnica. É uma restrição sobre quantas hipóteses uma equipe pode testar em um trimestre e qual o tamanho de modelo que podem se permitir. NVIDIA chama a aceleração de transformers não de otimização, mas de requisito para competitividade.

O que é treinamento de baixa precisão

O treinamento padrão de redes neurais é conduzido em formato de 32 bits (FP32), que fornece alta precisão numérica, mas consome muita memória e funciona mais lentamente em GPUs modernas. Reduzir a largura de bits permite encaixar mais dados na memória de vídeo e acelerar operações matriciais:

  • FP16 — números de ponto flutuante de 16 bits; suportado pela maioria das GPUs modernas
  • BF16 — Brain Float 16; faixa dinâmica mais ampla, mais adequado para treinamento instável de modelos grandes
  • FP8 — formato de 8 bits, disponível na arquitetura Hopper (H100, H200); fornece um aumento duplo na taxa de transferência de operações matriciais em comparação com BF16
  • INT8 — inteiro de 8 bits; usado mais frequentemente para inferência do que para treinamento

O desafio principal é manter a estabilidade numérica ao reduzir a precisão tão drasticamente. Uma transição ingênua de FP32 para FP8 leva a gradientes divergentes e treinamento instável.

Técnicas que NVIDIA recomenda

A simples substituição de formato não funciona, então NVIDIA descreve várias abordagens comprovadas.

Precisão mista. Os pesos são armazenados em FP32, enquanto as passagens diretas e inversas são executadas em FP16 ou BF16. Isto combina a velocidade da computação de baixa precisão com a confiabilidade do armazenamento de parâmetros de precisão completa — o padrão de fato para a maioria dos pipelines de treinamento modernos.

Escalonamento de perda. FP16 representa mal números muito pequenos — gradientes em camadas posteriores podem ter underflow. O escalonamento de perda aumenta artificialmente o valor da função de perda antes da passagem inversa, então redimensiona os gradientes de volta. Implementações modernas fazem isso automaticamente e adaptativamente.

TransformerEngine. Uma biblioteca especializada de NVIDIA que gerencia automaticamente a precisão no nível de camadas individuais do transformer. Suporta FP8 em Hopper, integra-se com PyTorch, JAX e Megatron-LM. Em vez de reescrever todo o código de treinamento, um engenheiro simplesmente conecta o TransformerEngine e obtém aceleração FP8 com mudanças mínimas.

"Conforme os modelos crescem, as execuções de treinamento consomem cada vez mais horas de GPU e tempo de engenharia.

Isto afeta diretamente com que rapidez as equipes podem experimentar e qual o tamanho de modelo que podem se permitir," — NVIDIA Developer Blog.

O que isso significa

O guia é publicado em um momento em que a eficiência do treinamento se tornou tão importante quanto a precisão do modelo. Equipes em H100 ou H200 recebem orientação concreta: FP8 via TransformerEngine é uma das maneiras mais acessíveis de reduzir o orçamento de GPU sem reformular a arquitetura. Para pequenos laboratórios, isso pode significar a diferença entre conseguir treinar um modelo de 70 bilhões de parâmetros ou ter que abandoná-lo devido ao custo.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…