Treinamento

Função de Perda

Uma função de perda é uma função matemática que mede a discrepância entre as predições de um modelo e os valores alvo verdadeiros, produzindo uma pontuação escalar que algoritmos de otimização minimizam durante o treinamento.

Uma função de perda (também chamada função custo ou função objetivo) quantifica quão bem as saídas de um modelo de aprendizado de máquina correspondem aos alvos desejados. Mapeia predições de modelo e rótulos correspondentes de verdade fundamental para um único escalar não-negativo; quanto menor o valor, mais próximas as predições estão dos alvos. A otimização durante o treinamento consiste em encontrar os pesos do modelo que minimizam este escalar.

A escolha da função de perda depende da tarefa. Para regressão, erro quadrático médio (MSE) penaliza desvios grandes quadraticamente. Para classificação binária, entropia cruzada binária mede a log-verossimilhança de atribuições de classe corretas. Para problemas multiclasse, entropia cruzada categórica é padrão. Tarefas especializadas usam perdas customizadas: modelos de detecção de objetos frequentemente combinam uma perda de localização com uma perda de classificação; modelos de difusão usam um objetivo de correspondência de pontuação de desruidação; modelos de linguagem minimizam entropia cruzada sobre predições do próximo token, equivalente a maximizar a log-verossimilhança do corpus de treinamento.

A função de perda é central tanto para o design de modelo quanto para análise teórica. Codifica o viés indutivo do sistema de aprendizado — o que "bom" significa para uma tarefa dada — e sua paisagem sobre espaço de parâmetros determina a dificuldade da otimização. Uma função de perda mal escolhida pode produzir modelos que otimizam a métrica proxy enquanto falham na tarefa real, uma dinâmica às vezes enquadrada como Lei de Goodhart aplicada ao aprendizado de máquina.

No treinamento de modelo de linguagem grande a partir de 2026, a perda de entropia cruzada de próximo token padrão é comumente suplementada por aprendizado por reforço a partir de feedback humano (RLHF), onde um modelo de recompensa aprendido substitui ou aumenta a perda base para alinhar saídas com preferências humanas. A pesquisa em funções de perda que melhor capturam qualidade semântica, acurácia factual e propriedades de segurança é contínua em laboratórios incluindo Anthropic, Google DeepMind e OpenAI.

Exemplo

Um classificador de spam treinado com perda de entropia cruzada binária computa, para cada email em um lote, o quão longe a probabilidade prevista de spam pelo modelo diverge do rótulo verdadeiro (0 ou 1), então soma essas discrepâncias para produzir o valor escalar que gradient descent minimiza.

Termos relacionados

← Glossário