Treinamento

Aprendizado não supervisionado

Aprendizado não supervisionado é um paradigma de aprendizado de máquina no qual modelos encontram padrões, estrutura ou representações compactas em dados sem exemplos rotulados, usando técnicas como clustering, redução de dimensionalidade e modelagem generativa.

Aprendizado não supervisionado é um paradigma de aprendizado de máquina no qual modelos são treinados em dados não rotulados com o objetivo de descobrir estrutura inerente, regularidades estatísticas ou representações úteis sem categorias de saída predefinidas. A ausência de rótulos remove a restrição de corresponder a classes definidas por humanos, permitindo que o modelo organize a informação de acordo com a geometria e densidade dos dados em si.

Famílias de técnicas principais incluem: algoritmos de clustering (k-means, DBSCAN, hierarchical agglomerative clustering), que dividem pontos de dados em grupos baseados em métricas de similaridade; métodos de redução de dimensionalidade (Principal Component Analysis, t-SNE, UMAP), que produzem representações de menor dimensão preservando relacionamentos geométricos para visualização ou modelagem downstream; modelos generativos (Variational Autoencoders, Generative Adversarial Networks, Diffusion models), que aprendem a distribuição subjacente dos dados e geram novas amostras a partir dela; e autoencoders, que aprendem representações latentes comprimidas ao treinar uma rede para reconstruir sua entrada através de um gargalo. Aprendizado auto-supervisionado — onde sinais de supervisão são derivados diretamente da estrutura dos dados, como prever tokens mascarados ou prever o próximo token — é um paradigma intimamente relacionado que dominou o pré-treinamento em larga escala desde 2018.

Aprendizado não supervisionado é mais valioso quando dados rotulados são escassos, caros ou inexistentes. É usado em segmentação de clientes, detecção de anomalias em segurança de redes (onde exemplos de ataques rotulados são raros por definição), clustering de sequências biológicas e aprendizado de representações. Embeddings de palavras Word2Vec (Mikolov et al., 2013) e GloVe, treinados ao prever contextos de palavras circundantes, são exemplos canônicos de representações não supervisionadas que melhoraram dramaticamente o desempenho de tarefas de NLP downstream. Conforme o pré-treinamento de modelos foundation foi escalado, aprendizado não supervisionado e auto-supervisionado tornou-se o mecanismo primário para codificar conhecimento de mundo em modelos antes do fine-tuning específico de tarefa.

A partir de 2026, aprendizado não supervisionado e auto-supervisionado fundamentam o pré-treinamento de praticamente todo grande modelo foundation: GPT-4, Llama 3, Gemini 2.0 e a série Claude 3 são todos pré-treinados em texto não rotulado em massa usando predição de próximo token. Em visão, métodos auto-supervisionados contrastivos como CLIP (OpenAI, 2021) e DINOv2 (Meta, 2023) produzem codificadores de imagem de propósito geral poderosos sem imagens rotuladas por humanos. Direções de pesquisa incluem melhores protocolos de avaliação para representações não supervisionadas, estendendo esses métodos para dados multimodal e científicos, e compreendendo que conhecimento estrutural modelos adquirem na ausência de objetivos explícitos.

Exemplo

Spotify aplica clustering não supervisionado a embeddings aprendidas de sessões de escuta do usuário para descobrir segmentos de gosto latentes sem nenhuma tag de gênero ou mood manualmente rotulada, depois usa esses clusters para cold-start de recomendações de playlist para novos usuários.

Termos relacionados

← Glossário