Modelo de Embedding
Um modelo de embedding converte texto, imagens ou outros dados em vetores numéricos de comprimento fixo em um espaço de alta dimensionalidade, onde itens semanticamente similares ficam geometricamente próximos um do outro.
Um modelo de embedding é uma rede neural treinada para mapear entradas—mais comumente texto, mas também imagens, áudio ou registros estruturados—em vetores numéricos densos de tamanho fixo chamados de embeddings. Esses vetores codificam significado semântico e sintático de modo que itens com significado similar ocupem regiões próximas do espaço vetorial, enquanto itens dissimilares ficam distantes.
O treinamento normalmente usa objetivos de aprendizado contrastivo. Modelos de embedding de sentenças como Sentence-BERT (2019) aproximam pares de sentenças semanticamente similares no espaço vetorial enquanto afastam os dissimilares. Modelos cross-modal como CLIP (OpenAI, 2021) alinham representações de texto e imagem treinando em centenas de milhões de pares imagem-legenda. Vetores de saída normalmente variam de 384 a 3.072 dimensões. No momento da inferência, medir similaridade entre dois embeddings se reduz a um produto escalar ou similaridade de cosseno—uma operação rápida o suficiente para executar em milhões de candidatos em milissegundos com índices de vizinho mais próximo aproximado.
Embeddings sustentam virtualmente todo sistema moderno de recuperação e busca. Como similaridade semântica se torna uma distância geométrica, eles possibilitam busca de vizinho mais próximo aproximado em larga escala e são a base de pipelines de geração aumentada por recuperação (RAG), motores de busca semântica, sistemas de recomendação, detecção de duplicatas e fluxos de agrupamento de documentos.
A partir de meados de 2025, os principais modelos de embedding de texto incluíam OpenAI text-embedding-3-large, Cohere Embed v3, Google text-embedding-004 e alternativas de código aberto como a família BGE (BAAI), E5-mistral (Microsoft) e GTE-Qwen (Alibaba). O leaderboard Massive Text Embedding Benchmark (MTEB) acompanha a qualidade do modelo em dezenas de tarefas de recuperação, classificação e agrupamento, com os principais modelos alcançando forte desempenho multilíngue zero-shot em mais de 50 idiomas.