Técnicas e métodos

Embedding

Um embedding é um vetor numérico denso de comprimento fixo que representa dados — como texto, uma imagem ou áudio — em um espaço de alta dimensionalidade onde itens semanticamente similares estão localizados geometricamente próximos uns dos outros.

No aprendizado de máquina, um embedding mapeia entradas discretas ou de alta dimensionalidade em um espaço vetorial contínuo de tipicamente 256 a 4096 dimensões. A propriedade definidora é que a proximidade geométrica neste espaço corresponde à similaridade semântica: os vetores para "gato" e "felino" estarão próximos, enquanto os vetores para "gato" e "automóvel" estarão distantes. Embeddings podem representar palavras, sentenças, documentos, imagens, código, estruturas moleculares ou qualquer outro tipo de dado para o qual um modelo codificador foi treinado.

Os embeddings de texto são produzidos por redes neurais baseadas em codificadores — como transformadores estilo BERT — ou pela agregação dos estados ocultos de grandes modelos generativos. O codificador processa uma entrada e retorna um único vetor, frequentemente a média dos estados ocultos finais ou uma representação de token [CLS] especial. Modelos de embedding são treinados usando objetivos como aprendizado contrastivo em pares de exemplos semanticamente similares e dissimilares, ensinando o modelo a colocar itens similares próximos e itens dissimilares distantes no espaço vetorial. A similaridade entre dois embeddings é então medida por similaridade de cosseno ou produto escalar.

Embeddings são o componente fundacional da busca semântica, geração aumentada por recuperação, sistemas de recomendação e muitos pipelines de classificação e clustering. Eles permitem que sistemas operem sobre significado em vez de forma de superfície: uma consulta sobre "manutenção de veículos" pode corresponder a documentos sobre "reparo de carros" mesmo que nenhuma palavra-chave comum seja compartilhada. Embeddings multimodais — que colocam texto e imagens no mesmo espaço vetorial — potencializam busca cross-modal, como consultar um banco de dados de imagens com uma descrição de texto.

Os principais modelos de embedding em 2026 incluem text-embedding-3-large da OpenAI (3072 dimensões), Cohere Embed v3, a família de embeddings Gecko do Google e modelos open-source do leaderboard Massive Text Embedding Benchmark (MTEB). A qualidade é avaliada no MTEB em tarefas de recuperação, classificação, clustering e similaridade semântica em múltiplas línguas. O aprendizado de representação Matryoshka permite que praticantes truncuem vetores de embedding para dimensões menores com degradação de precisão graciosa, possibilitando trade-offs custo-qualidade no tempo de inferência.

Exemplo

Uma plataforma de e-commerce codifica todas as descrições de produtos em embeddings de 1536 dimensões no tempo de indexação; quando um usuário digita 'sapatos confortáveis para caminhadas longas', a consulta é embutida e os vetores de produtos mais próximos são retornados, exibindo resultados relevantes mesmo que nenhum contenha essas palavras exatas.

Termos relacionados

Últimas notícias sobre o tema

← Glossário