Técnicas y métodos

Base de datos vectorial

Una base de datos vectorial es un almacén de datos construido específicamente para almacenar vectores numéricos de alta dimensionalidad y realizar búsqueda rápida de vecinos más cercanos aproximados (ANN) en millones o miles de millones de ellos, habilitando recuperación semántica a escala.

Mientras que una base de datos relacional indexa columnas estructuradas y un almacén de documentos indexa valores de campos, una base de datos vectorial indexa vectores de punto flotante — los embeddings que representan texto, imágenes u otros datos. Su consulta principal no es "buscar filas donde el campo sea igual al valor" sino "buscar los K vectores más similares a este vector de consulta". Esto requiere estructuras de índice especializadas porque la comparación por fuerza bruta de cada vector almacenado contra una consulta es computacionalmente prohibitiva a escala.

Las bases de datos vectoriales logran búsqueda rápida mediante algoritmos de vecinos más cercanos aproximados (ANN). El más ampliamente adoptado es HNSW (Hierarchical Navigable Small Worlds), un índice basado en grafos en el cual cada nodo se conecta a nodos cercanos; la búsqueda navega el grafo de forma codiciosa, sacrificando corrección perfecta por ganancias de velocidad de órdenes de magnitud. Otros enfoques incluyen IVF (Inverted File Index, que particiona el espacio en clusters y busca solo en los relevantes), ScaNN (variante de cuantización aprendida de Google), y cuantización de productos, que comprime vectores para reducir la huella de memoria. La mayoría de los sistemas de producción exponen parámetros de compensación entre recall y latencia para que los operadores puedan ajustar según sus requisitos.

Las bases de datos vectoriales son la columna vertebral de la infraestructura de pipelines de generación aumentada por recuperación, motores de búsqueda semántica y sistemas de recomendación. Sin búsqueda ANN eficiente, los sistemas RAG estarían limitados a algunos cientos de documentos en lugar de millones. Las consultas híbridas que combinan búsqueda de similitud ANN con filtros de atributos — por ejemplo, restringir la búsqueda a documentos pertenecientes a un inquilino específico — son una característica crítica para despliegues SaaS multiinquilino, y todas las bases de datos vectoriales maduras soportan este patrón.

El mercado se ha consolidado alrededor de sistemas especializados — Pinecone, Weaviate, Qdrant, y Milvus — junto con bases de datos de propósito general que agregaron capacidades vectoriales, incluyendo PostgreSQL con pgvector, Redis, MongoDB Atlas, y Elasticsearch. Todos los principales proveedores de nube ofrecen servicios de búsqueda vectorial administrados. Una tendencia notable a través de 2025–2026 es el surgimiento de índices vectoriales basados en disco como DiskANN que permiten búsqueda a escala de miles de millones sin cargar todos los vectores en RAM, reduciendo significativamente los costos de infraestructura para despliegues grandes.

Ejemplo

Una empresa de tecnología legal almacena embeddings de 50 millones de cláusulas de contrato en Qdrant; cuando un abogado busca 'cláusulas de indemnización que excluyen daños consecuentes', el índice ANN devuelve las 20 cláusulas más semánticamente similares en menos de 100 milisegundos.

Términos relacionados

Últimas noticias sobre el tema

← Glosario