Treinamento

Aprendizado auto-supervisionado

Aprendizado auto-supervisionado é um paradigma de treinamento no qual um modelo gera seu próprio sinal supervisório a partir de dados não rotulados resolvendo tarefas de pretexto, eliminando a necessidade de anotações caras feitas por humanos.

Aprendizado auto-supervisionado (SSL) é uma abordagem de aprendizado de máquina na qual um modelo é treinado para prever partes de sua própria entrada — ou relacionamentos entre entradas — sem exigir rótulos fornecidos por humanos. O sinal supervisório é derivado automaticamente da estrutura dos dados em si, tornando possível explorar quantidades vastas de dados brutos não anotados.

Na prática, SSL funciona definindo uma tarefa de pretexto: um objetivo proxy cuja resposta pode ser derivada dos dados brutos. Variantes comuns incluem masked language modeling (ocultando tokens e prevendo-os, como em BERT), predição de próximo token (como em modelos da série GPT) e aprendizado contrastivo (puxando representações de vistas aumentadas da mesma amostra próximas enquanto separa representações de diferentes amostras, como em SimCLR e CLIP). Vision transformers como DINO e Masked Autoencoders (MAE) aplicam estratégias de masking análogas a patches de imagem.

A abordagem é central para IA moderna porque permite treinamento em corpora em escala de internet de texto, imagens, áudio e vídeo — dados que vastamente excedem o que pode ser anotado manualmente. Representações aprendidas através de SSL generalizam através de muitas tarefas downstream com supervisão mínima adicional, que é por que SSL serve como a fundação para a maioria dos grandes modelos foundation.

A partir de 2026, aprendizado auto-supervisionado fundamenta praticamente todo grande modelo de linguagem e modelo visão-linguagem. GPT-4 da OpenAI, série Llama da Meta, Gemini da Google DeepMind e Claude da Anthropic todos confiam em predição de próximo token como seu objetivo SSL primário. Modelos de áudio baseados em SSL como wav2vec 2.0 da Meta e HuBERT similarmente tornaram-se padrão para aprendizado de representação de fala, pré-treinando em milhares de horas de áudio não rotulado.

Exemplo

BERT, lançado pelo Google em 2018, foi pré-treinado em aproximadamente 3,3 bilhões de palavras usando masked language modeling — mascarando aleatoriamente 15% dos tokens de entrada e prevendo-os — depois fine-tuned em conjuntos de dados rotulados para resposta a perguntas e classificação de texto, alcançando resultados de estado da arte com muito menos exemplos rotulados do que modelos específicos de tarefa anteriores exigiam.

Termos relacionados

← Glossário