Pré-treinamento
Pré-treinamento é a fase inicial de treinamento em larga escala na qual uma rede neural aprende representações gerais de um corpus massivo usando objetivos auto-supervisionados, antes de qualquer fine-tuning específico de tarefa.
Pré-treinamento é a primeira fase computacionalmente dominante do desenvolvimento moderno de modelos de IA em larga escala, na qual uma rede neural é treinada em um dataset massivo e amplamente diverso—frequentemente de centenas de bilhões a trilhões de tokens para modelos de linguagem—para adquirir representações de propósito geral de linguagem, conhecimento factual e padrões de raciocínio.
Para modelos de linguagem grande, o objetivo dominante de pré-treinamento é predição autorregressiva do próximo token: dada uma sequência de tokens, o modelo aprende a prever o próximo token minimizando a perda de entropia cruzada em bilhões de exemplos. Modelos apenas de encoder, como BERT, usam modelagem de linguagem mascarada, prevendo tokens aleatoriamente ocluídos. Em ambos os casos, nenhum rótulo manualmente curado é necessário porque o sinal de supervisão é derivado diretamente dos dados brutos (aprendizado auto-supervisionado). O pré-treinamento é distribuído em milhares de GPUs ou TPUs ao longo de semanas ou meses, com requisitos de computação medidos em dezenas de milhares a milhões de horas de GPU.
Pré-treinamento é responsável pelo amplo conhecimento do mundo, competência linguística e capacidade de raciocínio que tornam os modelos grandes úteis em muitas tarefas sem retreinamento do zero. Um modelo pré-treinado pode ser subsequentemente adaptado a tarefas ou comportamentos específicos por meio de fine-tuning—incluindo instruction tuning e RLHF—a uma fração do custo original de treinamento. Esse paradigma de transfer learning tornou-se a abordagem dominante no processamento de linguagem natural, visão computacional e IA multimodal.
Executões de pré-treinamento contemporâneas usam datasets montados a partir de crawls da web (Common Crawl), livros, repositórios de código, artigos científicos e fontes multilíngues, frequentemente totalizando 10–30 trilhões de tokens. Pré-treinamento multimodal—combinando texto com imagens, áudio e vídeo—tornou-se padrão, com modelos como GPT-4o e Gemini 1.5 aprendendo representações conjuntas em modalidades. Técnicas eficientes de treinamento como FlashAttention, paralelismo de tensor e pipeline, e aritmética de precisão mista permitem que execuções de treinamento sejam concluídas dentro de orçamentos práticos de tempo e energia.