A NVIDIA explicou como treinar transformers com precisão reduzida sem perda de qualidade
A NVIDIA publicou um guia técnico sobre o treinamento de modelos transformer em precisão reduzida — FP8 e BF16. Quanto maior o modelo, mais cara fica cada…
Processado por IA de NVIDIA Developer Blog; editado por Hamidun News
NVIDIA publicou um guia extenso no Developer Blog sobre otimização de arquiteturas transformer para treinamento com computações de precisão reduzida — FP8 e BF16. O artigo é direcionado para engenheiros que desejam reduzir o custo de execuções de treinamento sem comprometer a qualidade do modelo.
Por que as equipes precisam disso
Transformers formam a base da maioria dos modelos de linguagem e generativos modernos. À medida que os tamanhos dos modelos crescem — de bilhões para dezenas de bilhões de parâmetros — o custo de uma única execução de treinamento aumenta exponencialmente. Cada iteração de experimento consome mais horas de GPU, o que desacelera o desenvolvimento e aumenta os custos. Na prática, isso significa que o treinamento lento não é apenas uma inconveniência técnica. É uma restrição sobre quantas hipóteses uma equipe pode testar em um trimestre e qual o tamanho de modelo que podem se permitir. NVIDIA chama a aceleração de transformers não de otimização, mas de requisito para competitividade.
O que é treinamento de baixa precisão
O treinamento padrão de redes neurais é conduzido em formato de 32 bits (FP32), que fornece alta precisão numérica, mas consome muita memória e funciona mais lentamente em GPUs modernas. Reduzir a largura de bits permite encaixar mais dados na memória de vídeo e acelerar operações matriciais:
- FP16 — números de ponto flutuante de 16 bits; suportado pela maioria das GPUs modernas
- BF16 — Brain Float 16; faixa dinâmica mais ampla, mais adequado para treinamento instável de modelos grandes
- FP8 — formato de 8 bits, disponível na arquitetura Hopper (H100, H200); fornece um aumento duplo na taxa de transferência de operações matriciais em comparação com BF16
- INT8 — inteiro de 8 bits; usado mais frequentemente para inferência do que para treinamento
O desafio principal é manter a estabilidade numérica ao reduzir a precisão tão drasticamente. Uma transição ingênua de FP32 para FP8 leva a gradientes divergentes e treinamento instável.
Técnicas que NVIDIA recomenda
A simples substituição de formato não funciona, então NVIDIA descreve várias abordagens comprovadas.
Precisão mista. Os pesos são armazenados em FP32, enquanto as passagens diretas e inversas são executadas em FP16 ou BF16. Isto combina a velocidade da computação de baixa precisão com a confiabilidade do armazenamento de parâmetros de precisão completa — o padrão de fato para a maioria dos pipelines de treinamento modernos.
Escalonamento de perda. FP16 representa mal números muito pequenos — gradientes em camadas posteriores podem ter underflow. O escalonamento de perda aumenta artificialmente o valor da função de perda antes da passagem inversa, então redimensiona os gradientes de volta. Implementações modernas fazem isso automaticamente e adaptativamente.
TransformerEngine. Uma biblioteca especializada de NVIDIA que gerencia automaticamente a precisão no nível de camadas individuais do transformer. Suporta FP8 em Hopper, integra-se com PyTorch, JAX e Megatron-LM. Em vez de reescrever todo o código de treinamento, um engenheiro simplesmente conecta o TransformerEngine e obtém aceleração FP8 com mudanças mínimas.
"Conforme os modelos crescem, as execuções de treinamento consomem cada vez mais horas de GPU e tempo de engenharia.
Isto afeta diretamente com que rapidez as equipes podem experimentar e qual o tamanho de modelo que podem se permitir," — NVIDIA Developer Blog.
O que isso significa
O guia é publicado em um momento em que a eficiência do treinamento se tornou tão importante quanto a precisão do modelo. Equipes em H100 ou H200 recebem orientação concreta: FP8 via TransformerEngine é uma das maneiras mais acessíveis de reduzir o orçamento de GPU sem reformular a arquitetura. Para pequenos laboratórios, isso pode significar a diferença entre conseguir treinar um modelo de 70 bilhões de parâmetros ou ter que abandoná-lo devido ao custo.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.