Técnicas y métodos

Embedding

Un embedding es un vector numérico denso de longitud fija que representa datos — como texto, una imagen o audio — en un espacio de alta dimensionalidad donde los elementos semánticamente similares se encuentran geométricamente cerca uno del otro.

En aprendizaje automático, un embedding mapea entradas discretas o de alta dimensionalidad a un espacio vectorial continuo de típicamente 256 a 4096 dimensiones. La propiedad definitoria es que la proximidad geométrica en este espacio corresponde a la similitud semántica: los vectores para "gato" y "felino" estarán cerca, mientras que los vectores para "gato" y "automóvil" estarán distantes. Los embeddings pueden representar palabras, oraciones, documentos, imágenes, código, estructuras moleculares, o cualquier otro tipo de dato para el cual un modelo encoder ha sido entrenado.

Los embeddings de texto son producidos por redes neuronales basadas en encoder — como transformadores de estilo BERT — o por pooling de los estados ocultos de grandes modelos generativos. El encoder procesa una entrada y devuelve un único vector, a menudo la media de los estados ocultos finales o una representación especial del token [CLS]. Los modelos de embedding se entrenan utilizando objetivos como aprendizaje contrastivo en pares de ejemplos semánticamente similares y disímiles, enseñando al modelo a ubicar elementos similares cerca uno del otro y elementos disímiles distantes en el espacio vectorial. La similitud entre dos embeddings se mide entonces mediante similitud coseno o producto punto.

Los embeddings son el componente fundamental de la búsqueda semántica, generación aumentada por recuperación, sistemas de recomendación, y muchos pipelines de clasificación y clustering. Permiten que los sistemas operen sobre significado en lugar de forma superficial: una consulta sobre "mantenimiento de vehículos" puede coincidir con documentos sobre "reparación de automóviles" incluso si no comparten palabras clave comunes. Los embeddings multimodales — que colocan texto e imágenes en el mismo espacio vectorial — potencian la búsqueda entre modalidades, como consultar una base de datos de imágenes con una descripción textual.

Los modelos de embedding líderes a partir de 2026 incluyen text-embedding-3-large de OpenAI (3072 dimensiones), Cohere Embed v3, la familia de embeddings Gecko de Google, y modelos de código abierto del tablero de clasificación Massive Text Embedding Benchmark (MTEB). La calidad se evalúa en MTEB en tareas de recuperación, clasificación, clustering y similitud semántica en múltiples idiomas. El aprendizaje de representación Matryoshka permite que los profesionales truncen vectores de embedding a dimensiones más pequeñas con degradación de precisión gradual, habilitando compensaciones costo-calidad en tiempo de inferencia.

Ejemplo

Una plataforma de comercio electrónico codifica todas las descripciones de productos en embeddings de 1536 dimensiones en tiempo de indexación; cuando un usuario escribe 'zapatos cómodos para caminatas largas', la consulta se incorpora en un embedding y se devuelven los vectores de producto más cercanos, mostrando resultados relevantes incluso si ninguno contiene esas palabras exactas.

Términos relacionados

Base de datos vectorial Modelo de Embedding Búsqueda semántica Tokenización

Últimas noticias sobre el tema

Clustering de textos sin etiquetado: embeddings de LLM y HDBSCAN de Machine Learning Mastery2026-06-29 Machine Learning Mastery: búsqueda semántica con embeddings en lugar de palabras clave2026-05-25 Vector search en Python desde cero: embeddings y búsqueda por similitud2026-05-17 De TF-IDF a Word2vec: Beeline Cloud lanzó una recopilación sobre embeddings2026-05-17 IBM lanzó Granite Embedding R2 — un modelo multilingüe para búsqueda semántica2026-05-16

← Glosario