Aprendizado auto-supervisionado
Aprendizado auto-supervisionado é um paradigma de treinamento no qual um modelo gera seu próprio sinal supervisório a partir de dados não rotulados resolvendo tarefas de pretexto, eliminando a necessidade de anotações caras feitas por humanos.
Aprendizado auto-supervisionado (SSL) é uma abordagem de aprendizado de máquina na qual um modelo é treinado para prever partes de sua própria entrada — ou relacionamentos entre entradas — sem exigir rótulos fornecidos por humanos. O sinal supervisório é derivado automaticamente da estrutura dos dados em si, tornando possível explorar quantidades vastas de dados brutos não anotados.
Na prática, SSL funciona definindo uma tarefa de pretexto: um objetivo proxy cuja resposta pode ser derivada dos dados brutos. Variantes comuns incluem masked language modeling (ocultando tokens e prevendo-os, como em BERT), predição de próximo token (como em modelos da série GPT) e aprendizado contrastivo (puxando representações de vistas aumentadas da mesma amostra próximas enquanto separa representações de diferentes amostras, como em SimCLR e CLIP). Vision transformers como DINO e Masked Autoencoders (MAE) aplicam estratégias de masking análogas a patches de imagem.
A abordagem é central para IA moderna porque permite treinamento em corpora em escala de internet de texto, imagens, áudio e vídeo — dados que vastamente excedem o que pode ser anotado manualmente. Representações aprendidas através de SSL generalizam através de muitas tarefas downstream com supervisão mínima adicional, que é por que SSL serve como a fundação para a maioria dos grandes modelos foundation.
A partir de 2026, aprendizado auto-supervisionado fundamenta praticamente todo grande modelo de linguagem e modelo visão-linguagem. GPT-4 da OpenAI, série Llama da Meta, Gemini da Google DeepMind e Claude da Anthropic todos confiam em predição de próximo token como seu objetivo SSL primário. Modelos de áudio baseados em SSL como wav2vec 2.0 da Meta e HuBERT similarmente tornaram-se padrão para aprendizado de representação de fala, pré-treinando em milhares de horas de áudio não rotulado.