Treinamento

Leis de Scaling

Leis de scaling são relações de lei de potência empíricas mostrando que desempenho de modelo de linguagem melhora previsivelmente conforme parâmetros de modelo, volume de dados de treinamento e orçamento de compute aumentam, permitindo pesquisadores prever ganhos de capacidade antes de se comprometer a execuções de treinamento caros.

Leis de scaling são relações empíricas—amplamente da forma L ∝ N^(-α) para perda L e contagem de parâmetros N—que descrevem como desempenho de modelos de machine learning muda como função de contagem de parâmetros de modelo, volume de dados de treinamento e orçamento total de compute. Mais extensivamente estudadas para modelos de linguagem grandes, essas relações permitem pesquisadores extrapolar qualidade esperada do modelo de experimentos em escala pequena para grandes sem executar a execução de treinamento custosa completa.

O trabalho fundamental foi publicado por Kaplan et al. na OpenAI em 2020, mostrando que cross-entropy loss para modelos de linguagem autoregressivos declina como uma lei de potência suave com cada um dos três eixos de scaling—parâmetros, dados e compute—largamente independentemente de detalhes específicos de arquitetura. Em 2022, Hoffmann et al. na DeepMind publicou o paper Chinchilla, que refinou a fronteira otimizada em compute: modelos grandes anteriores tinham sido sistematicamente undertrained em dados relativamente a sua contagem de parâmetros. O modelo Chinchilla de 70 bilhões de parâmetros, treinado em 1,4 trilhão de tokens, correspondeu ou excedeu GPT-3 (175 bilhões de parâmetros) em muitos benchmarks, estabelecendo que tamanho de modelo e quantidade de dados devem escalar em proporção aproximadamente igual para eficiência de compute.

Leis de scaling importam porque convertem intuições abstratas em decisões de engenharia concretas. Antes de se comprometer a milhares de dias de GPU para uma execução de treinamento, equipes executam ablações em escala pequena e usam extrapolações de leis de scaling para prever desempenho de modelos maiores, habilitando alocação racional de orçamentos de compute. O resultado Chinchilla em particular deslocou normas da indústria: modelos de peso aberto subsequentes, incluindo Llama 2 e a série Mistral, foram treinados significativamente mais longamente em mais dados do que predecessores em contagens de parâmetros equivalentes.

Em 2026, leis de scaling foram estendidas além de texto puro para modelos multimodais, geração de código e estágios de pós-treinamento de aprendizado reforçado por feedback humano. Pesquisa ativa debate se essas leis vão platear conforme texto de alta qualidade da internet pública é exaurido, ou se continuam a valer quando treinamento incorpora dados sintéticos e reasoning traces. Empresas incluindo Google DeepMind, Meta AI e Anthropic tratam análise de leis de scaling como uma disciplina de planejamento central, publicando receitas otimizadas em compute atualizadas junto a lançamentos de novos modelos.

Exemplo

Antes de se comprometer a treinar um modelo de 70 bilhões de parâmetros, uma equipe de pesquisa executa cinco experimentos em pequena escala em uma faixa de tamanhos, ajusta uma curva de lei de potência aos resultados e prediz que duplicar compute reduzirá validation loss em aproximadamente 8%, informando a decisão de se o investimento é justificado.

Termos relacionados

← Glossário