Treinamento

Gradient Descent

Gradient descent é um algoritmo de otimização iterativo que treina modelos de aprendizado de máquina ajustando repetidamente parâmetros na direção que mais reduz uma função de perda, usando derivadas parciais computadas via backpropagation para guiar cada passo de atualização.

Gradient descent é o algoritmo de otimização fundamental usado para treinar modelos de aprendizado de máquina. Funciona ajustando iterativamente os parâmetros de um modelo na direção que mais reduz uma função de perda escalar — uma medida do erro de predição computada sobre exemplos de treinamento. A regra de atualização central subtrai uma fração do gradiente da perda em relação a cada parâmetro, onde a fração é controlada por um hiperparâmetro chamado taxa de aprendizado: um valor muito grande causa oscilação ou divergência, enquanto um valor muito pequeno torna o treinamento proibitivamente lento.

Na prática, computar o gradiente sobre o conjunto completo de treinamento a cada passo é computacionalmente inviável para grandes conjuntos de dados, então stochastic gradient descent (SGD) e variantes de mini-batch aproximam o gradiente completo usando um subconjunto aleatoriamente amostrado de exemplos por passo. O gradiente é computado via backpropagation, que aplica a regra da cadeia do cálculo para propagar sinais de erro retroativamente através de todas as camadas de uma rede neural. Variantes práticas abordam desafios comuns de treinamento: momentum acumula uma média móvel de gradientes passados para acelerar o progresso e amortecer oscilações; Adam (Adaptive Moment Estimation, introduzido por Kingma e Ba em 2014) mantém taxas de aprendizado adaptáveis por parâmetro baseadas em estimativas dos primeiro e segundo momentos do gradiente; AdamW desacopla o decaimento de peso da atualização do gradiente, melhorando a regularização e tornando-se o otimizador dominante para pré-treinamento de modelos de linguagem grande.

Gradient descent é importante não porque é garantido encontrar um mínimo global — as paisagens de perda de redes neurais profundas são altamente não-convexas, contendo muitos mínimos locais e pontos de sela — mas porque encontra de forma confiável configurações de parâmetros com perda de treinamento baixa e forte generalização empírica. Entender seus modos de falha — gradientes explosivos ou desaparecentes, picos de perda e sensibilidade aos cronogramas de taxa de aprendizado — é uma competência central para praticantes treinando sistemas modernos em escala.

A partir de 2026, AdamW combinado com um cronograma de taxa de aprendizado cosseno ou linear com aquecimento permanece como o otimizador padrão para pré-treinamento de modelos de linguagem grande na maioria dos laboratórios principais. A pesquisa em alternativas continua: Sophia aplica estimativas de curvatura baseadas na diagonal de Hessian para normalizar atualizações de gradiente, e Muon aplica atualizações de gradiente ortogonal via iterações de Newton-Schulz, ambas mostrando resultados promissores em benchmarks de treinamento de modelos de linguagem. O treinamento distribuído em milhares de GPUs requer sincronização cuidadosa de gradiente, com checkpointing de gradiente, treinamento de precisão mista em BF16 ou FP8, e sharding de estágio ZeRO tornando-se infraestrutura padrão para treinamento de modelos de fronteira.

Exemplo

Durante o pré-treinamento de um modelo de linguagem grande, gradient descent AdamW processa mini-lotes de sequências de tokens, retropropaga a perda de entropia cruzada através de centenas de camadas de transformer, e atualiza centenas de bilhões de parâmetros ao longo de milhares de iterações até que a perda de validação converge.

Termos relacionados

Backpropagation Função de Perda Neural Network

← Glossário