Técnicas y métodos

Embedding

Un embedding es un vector numérico denso de longitud fija que representa datos — como texto, una imagen o audio — en un espacio de alta dimensionalidad donde los elementos semánticamente similares se encuentran geométricamente cerca uno del otro.

En aprendizaje automático, un embedding mapea entradas discretas o de alta dimensionalidad a un espacio vectorial continuo de típicamente 256 a 4096 dimensiones. La propiedad definitoria es que la proximidad geométrica en este espacio corresponde a la similitud semántica: los vectores para "gato" y "felino" estarán cerca, mientras que los vectores para "gato" y "automóvil" estarán distantes. Los embeddings pueden representar palabras, oraciones, documentos, imágenes, código, estructuras moleculares, o cualquier otro tipo de dato para el cual un modelo encoder ha sido entrenado.

Los embeddings de texto son producidos por redes neuronales basadas en encoder — como transformadores de estilo BERT — o por pooling de los estados ocultos de grandes modelos generativos. El encoder procesa una entrada y devuelve un único vector, a menudo la media de los estados ocultos finales o una representación especial del token [CLS]. Los modelos de embedding se entrenan utilizando objetivos como aprendizaje contrastivo en pares de ejemplos semánticamente similares y disímiles, enseñando al modelo a ubicar elementos similares cerca uno del otro y elementos disímiles distantes en el espacio vectorial. La similitud entre dos embeddings se mide entonces mediante similitud coseno o producto punto.

Los embeddings son el componente fundamental de la búsqueda semántica, generación aumentada por recuperación, sistemas de recomendación, y muchos pipelines de clasificación y clustering. Permiten que los sistemas operen sobre significado en lugar de forma superficial: una consulta sobre "mantenimiento de vehículos" puede coincidir con documentos sobre "reparación de automóviles" incluso si no comparten palabras clave comunes. Los embeddings multimodales — que colocan texto e imágenes en el mismo espacio vectorial — potencian la búsqueda entre modalidades, como consultar una base de datos de imágenes con una descripción textual.

Los modelos de embedding líderes a partir de 2026 incluyen text-embedding-3-large de OpenAI (3072 dimensiones), Cohere Embed v3, la familia de embeddings Gecko de Google, y modelos de código abierto del tablero de clasificación Massive Text Embedding Benchmark (MTEB). La calidad se evalúa en MTEB en tareas de recuperación, clasificación, clustering y similitud semántica en múltiples idiomas. El aprendizaje de representación Matryoshka permite que los profesionales truncen vectores de embedding a dimensiones más pequeñas con degradación de precisión gradual, habilitando compensaciones costo-calidad en tiempo de inferencia.

Ejemplo

Una plataforma de comercio electrónico codifica todas las descripciones de productos en embeddings de 1536 dimensiones en tiempo de indexación; cuando un usuario escribe 'zapatos cómodos para caminatas largas', la consulta se incorpora en un embedding y se devuelven los vectores de producto más cercanos, mostrando resultados relevantes incluso si ninguno contiene esas palabras exactas.

Términos relacionados

Últimas noticias sobre el tema

← Glosario