Dados de Treinamento
Dados de treinamento é o conjunto de dados rotulado ou não rotulado alimentado a um modelo de machine learning durante o processo de otimização, permitindo que ele ajuste parâmetros internos minimizando erro de predição; sua qualidade, escala e diversidade são determinantes primários da capacidade do modelo.
Dados de treinamento é a coleção de exemplos—rotulados ou não rotulados—usados para otimizar os parâmetros de um modelo de machine learning através de exposição repetida e correção de erro baseada em gradientes. Durante o treinamento, o modelo processa esses exemplos, gera predições, computa uma perda medindo erro de predição e ajusta pesos internos via backpropagation de forma que predições melhorem ao longo de sucessivas passagens pelos dados.
A composição e preparação de dados de treinamento profundamente moldam o que um modelo aprende. Para tarefas supervisionadas como classificação de imagem, cada exemplo emparelha uma entrada com um rótulo alvo. Para modelos de linguagem, dados de treinamento consistem de vastos corpora de texto processados sem rótulos por exemplo; o modelo aprende predizendo o próximo token dado contexto anterior, um objetivo auto-supervisionado que escala para dados em escala de internet. Passos de curação—deduplicação, remoção de conteúdo de baixa qualidade ou prejudicial, e tokenização—substancialmente afetam comportamento downstream. Conjuntos de dados marcantes incluem ImageNet (aproximadamente 1,4 milhão de imagens rotuladas, fundamental para visão computacional desde 2012), Common Crawl (petabytes de texto web usado em quase todo modelo de linguagem maior) e The Pile (um corpus de texto de 800 GB curado pelo EleutherAI em 2021).
A quantidade e qualidade de dados de treinamento são determinantes primários da capacidade do modelo. Erros, vieses e gaps se propagam diretamente em comportamento do modelo: um modelo de linguagem treinado predominantemente em texto web em inglês tem desempenho inferior em línguas de baixa quantidade de recursos, e um sistema de reconhecimento facial treinado em imagens demograficamente enviesadas exibe taxas de erro desiguais entre grupos. A frase 'dados são o novo petróleo' reflete como vantagem competitiva em IA se deslocou para aquisição de dados, curação e licenciamento.
Treinamento de modelos de linguagem da fronteira em 2025–2026 envolve conjuntos de dados medidos em trilhões de tokens. Modelos Llama da Meta, série Gemini do Google e modelos Claude da Anthropic são treinados em corpora de multi-trilhão de tokens misturando dados web, livros, código, papers científicos e material sintético curado. Preocupação sobre a exaustão de texto de alta qualidade escrito por humanos na internet pública está impulsionando investimento em geração de dados sintéticos e pipelines de filtragem de qualidade mais agressivos para sustentar scaling.