Treinamento

Backpropagation

Backpropagation é um algoritmo para computar o gradiente da perda de uma rede neural em relação aos seus pesos propagando sinais de erro retroativamente através das camadas de rede, possibilitando otimização baseada em gradiente.

Backpropagation (abreviação de "retropropagação de erros") é o algoritmo central usado para treinar redes neurais artificiais. Computa quanto cada peso contribuiu para o erro de saída aplicando iterativamente a regra da cadeia do cálculo da camada de saída até a camada de entrada, produzindo um vetor de gradiente que guia atualizações de peso.

Durante um passo para frente, dados de entrada fluem pela rede, produzindo uma predição. A função de perda então mede a discrepância entre essa predição e o alvo. Backpropagation realiza o passo reverso: começando na saída, calcula derivadas parciais da perda em relação a cada peso, camada por camada. Esses gradientes são então usados por um otimizador — como stochastic gradient descent (SGD) ou Adam — para ajustar pesos na direção que reduz a perda.

O algoritmo foi popularizado para redes neurais por Rumelhart, Hinton e Williams em seu artigo de 1986 na Nature, embora derivações independentes anteriores existam. Permanece como o mecanismo de treinamento fundamental para praticamente todos os sistemas de aprendizado profundo, de pequenos classificadores a modelos de linguagem grande com centenas de bilhões de parâmetros.

A partir de 2026, backpropagation continua a fundamentar o treinamento de modelos de fronteira como GPT-4, Gemini e LLaMA 3. A pesquisa em alternativas — incluindo diferenciação de modo direto, gradientes sintéticos e regras de aprendizado local inspiradas biologicamente — permanece ativa mas não deslocou backpropagation no treinamento prático em larga escala.

Exemplo

Ao treinar um classificador de imagem, backpropagation computa quanto os pesos de cada filtro convolucional contribuíram para classificar erroneamente um gato como um cão, permitindo que esses pesos sejam ajustados para reduzir o erro na próxima iteração de treinamento.

Termos relacionados

Gradient Descent Neural Network Função de Perda

← Glossário