Modelo de Embedding
Un modelo de embedding convierte texto, imágenes u otros datos en vectores numéricos de longitud fija en un espacio de alta dimensionalidad, donde elementos semánticamente similares están geométricamente cercanos entre sí.
Un modelo de embedding es una red neuronal entrenada para mapear entradas—más comúnmente texto, pero también imágenes, audio o registros estructurados—en vectores numéricos densos de tamaño fijo llamados embeddings. Estos vectores codifican significado semántico y sintáctico de modo que elementos con significado similar ocupan regiones cercanas del espacio vectorial, mientras que elementos disímiles están alejados.
El entrenamiento típicamente utiliza objetivos de aprendizaje contrastivo. Modelos de sentence-embedding como Sentence-BERT (2019) acercan pares de oraciones semánticamente similares en el espacio vectorial mientras alejan las disímiles. Modelos multimodales como CLIP (OpenAI, 2021) alinean representaciones de texto e imagen mediante entrenamiento en cientos de millones de pares imagen-caption. Los vectores de salida comúnmente van de 384 a 3.072 dimensiones. En tiempo de inferencia, medir la similitud entre dos embeddings se reduce a un producto punto o similitud de coseno—una operación lo suficientemente rápida para ejecutarse en millones de candidatos en milisegundos con índices de vecino más cercano aproximado.
Los embeddings fundamentan virtualmente todo sistema moderno de recuperación y búsqueda. Porque la similitud semántica se convierte en una distancia geométrica, habilitan búsqueda de vecino más cercano aproximado a gran escala y son la base de pipelines de generación aumentada por recuperación (RAG), motores de búsqueda semántica, sistemas de recomendación, detección de duplicados y flujos de agrupamiento de documentos.
A mediados de 2025, los modelos de embedding de texto líderes incluían OpenAI text-embedding-3-large, Cohere Embed v3, Google text-embedding-004, y alternativas de código abierto como la familia BGE (BAAI), E5-mistral (Microsoft), y GTE-Qwen (Alibaba). El ranking Massive Text Embedding Benchmark (MTEB) rastrea la calidad de modelos en docenas de tareas de recuperación, clasificación y agrupamiento, con modelos principales logrando un desempeño multilingüe zero-shot fuerte en más de 50 idiomas.