Treinamento

Aprendizado por transferência

Aprendizado por transferência é uma técnica na qual um modelo pré-treinado em um grande conjunto de dados ou tarefa é adaptado para uma tarefa diferente mas relacionada, reduzindo substancialmente a necessidade de dados rotulados e compute de treinamento.

Aprendizado por transferência refere-se à prática de inicializar os pesos de um modelo a partir de um checkpoint obtido ao treinar em um domínio ou tarefa de origem, depois continuando a treinar em uma tarefa alvo que é usualmente menor em escala. A suposição principal é que features e representações aprendidas para o problema de origem carregam inductive biases úteis para o problema alvo, mesmo quando as duas tarefas diferem substancialmente em domínio ou objetivo.

O processo tipicamente envolve dois estágios. Primeiro, um modelo é pré-treinado em um grande conjunto de dados de propósito geral — bilhões de páginas web para modelos de linguagem, ou dezenas de milhões de imagens rotuladas para modelos de visão. Segundo, o modelo pré-treinado é fine-tuned no conjunto de dados alvo. Dependendo da similaridade de tarefa e dados disponíveis, praticantes podem fazer fine-tune de todas as camadas, congelar camadas iniciais e treinar apenas as posteriores, ou anexar uma pequena cabeça específica da tarefa em cima de representações congeladas. CNNs pré-treinadas em ImageNet tornaram-se o ponto de partida canônico para visão computacional ao longo dos 2010s; em NLP, BERT (2018) estabeleceu o mesmo padrão para compreensão de linguagem.

Aprendizado por transferência reduz dramaticamente o custo de implantar IA em domínios com dados rotulados limitados. Um time de biomedicina carecendo de milhões de notas clínicas anotadas pode fazer fine-tune de um modelo de linguagem pré-treinado como BioBERT ou Med-PaLM em alguns milhares de exemplos e alcançar desempenho que de outra forma exigiria vastamente mais dados e compute. A abordagem também reduz a pegada energética do desenvolvimento de IA ao amortizar o custo de grandes execuções de pré-treinamento através de muitas aplicações downstream.

Por 2026, aprendizado por transferência é o paradigma padrão para praticamente todo NLP aplicado, visão computacional e IA multimodal. O workflow dominante começa a partir de um checkpoint de modelo foundation publicamente liberado ou proprietário e o adapta via fine-tuning completo, prompt tuning, ou métodos parameter-efficient como LoRA. Treinamento a partir de inicialização aleatória em uma tarefa específica agora é raro fora de pesquisa em arquiteturas inteiramente novas ou objetivos fundacionais.

Exemplo

Uma startup de legal-tech baixa um checkpoint pré-treinado de Llama 3 e faz fine-tune em 10.000 cláusulas de contrato anotadas; dentro de horas de treinamento em dois GPUs, o modelo resultante identifica termos de responsabilidade não-padrão com acurácia que exigiria muito maiores conjuntos de dados rotulados se treinado do zero.

Termos relacionados

← Glossário