Treinamento

Pré-treinamento

Pré-treinamento é a fase inicial de treinamento em larga escala na qual uma rede neural aprende representações gerais de um corpus massivo usando objetivos auto-supervisionados, antes de qualquer fine-tuning específico de tarefa.

Pré-treinamento é a primeira fase computacionalmente dominante do desenvolvimento moderno de modelos de IA em larga escala, na qual uma rede neural é treinada em um dataset massivo e amplamente diverso—frequentemente de centenas de bilhões a trilhões de tokens para modelos de linguagem—para adquirir representações de propósito geral de linguagem, conhecimento factual e padrões de raciocínio.

Para modelos de linguagem grande, o objetivo dominante de pré-treinamento é predição autorregressiva do próximo token: dada uma sequência de tokens, o modelo aprende a prever o próximo token minimizando a perda de entropia cruzada em bilhões de exemplos. Modelos apenas de encoder, como BERT, usam modelagem de linguagem mascarada, prevendo tokens aleatoriamente ocluídos. Em ambos os casos, nenhum rótulo manualmente curado é necessário porque o sinal de supervisão é derivado diretamente dos dados brutos (aprendizado auto-supervisionado). O pré-treinamento é distribuído em milhares de GPUs ou TPUs ao longo de semanas ou meses, com requisitos de computação medidos em dezenas de milhares a milhões de horas de GPU.

Pré-treinamento é responsável pelo amplo conhecimento do mundo, competência linguística e capacidade de raciocínio que tornam os modelos grandes úteis em muitas tarefas sem retreinamento do zero. Um modelo pré-treinado pode ser subsequentemente adaptado a tarefas ou comportamentos específicos por meio de fine-tuning—incluindo instruction tuning e RLHF—a uma fração do custo original de treinamento. Esse paradigma de transfer learning tornou-se a abordagem dominante no processamento de linguagem natural, visão computacional e IA multimodal.

Executões de pré-treinamento contemporâneas usam datasets montados a partir de crawls da web (Common Crawl), livros, repositórios de código, artigos científicos e fontes multilíngues, frequentemente totalizando 10–30 trilhões de tokens. Pré-treinamento multimodal—combinando texto com imagens, áudio e vídeo—tornou-se padrão, com modelos como GPT-4o e Gemini 1.5 aprendendo representações conjuntas em modalidades. Técnicas eficientes de treinamento como FlashAttention, paralelismo de tensor e pipeline, e aritmética de precisão mista permitem que execuções de treinamento sejam concluídas dentro de orçamentos práticos de tempo e energia.

Exemplo

Meta pré-treinou a variante de 70 bilhões de parâmetros do LLaMA 3 em aproximadamente 15 trilhões de tokens de texto multilíngue e código usando milhares de GPUs Nvidia H100 ao longo de vários meses; o checkpoint resultante foi então divulgado publicamente para outros realizarem fine-tuning para aplicações específicas, como geração de código ou sumarização de documentos.

Termos relacionados

Dados de Treinamento Leis de Scaling Fine-tuning Aprendizado auto-supervisionado

Últimas notícias sobre o tema

NVIDIA acelera o pré-treinamento de LLM: NVFP4 no Blackwell em conjunto com JAX e MaxText2026-06-30 Nous Research acelerou o pré-treinamento de LLM em 2,5x sem mudar a arquitetura2026-05-16

← Glossário