Machine Learning Mastery→ оригинал

Machine Learning Mastery a expliqué comment fonctionnent les bases de données vectorielles, du simple au complexe

Machine Learning Mastery a publié une explication claire des bases de données vectorielles — des embeddings et de la nearest neighbor search à HNSW, IVF et PQ.

◐ Слушать статью

27 марта 2026 года Machine Learning Mastery выпустила подробный разбор векторных баз данных в трёх уровнях сложности — от базовой идеи similarity search до индексов, которые делают поиск по миллионам эмбеддингов пригодным для продакшена. Материал особенно полезен тем, кто строит RAG-системы, поиск по документам или рекомендательные сервисы и хочет понять, что именно происходит под капотом.

Почему SQL мало

Классическая база данных хорошо отвечает на точные вопросы: существует ли запись с таким id, email или датой. Но большая часть данных, с которыми сейчас работают AI-продукты, устроена иначе. Текст, изображения, аудио, логи поведения пользователей и длинные документы редко ищут по полному совпадению. В таких задачах важнее не точное равенство, а смысловая близость: найти похожий документ, релевантный ответ или ближайший пример. Именно здесь появляются эмбеддинги. Модель преобразует текст, картинку или другой объект в набор чисел фиксированной длины, а близкие по смыслу объекты оказываются рядом в векторном пространстве. Поэтому запрос меняется по сути: вместо «найди это» система спрашивает «найди то, что ближе всего к этому». Векторная база хранит такие представления и умеет быстро возвращать ближайших соседей для нового запроса.

«Правильный запрос — не “найди это”, а “найди то, что близко к этому”».

Как ищут по смыслу

Во второй части Machine Learning Mastery разбирает, как работает поиск на практике. Сначала нужно получить эмбеддинг через отдельную модель, затем выбрать метрику расстояния и только после этого запускать поиск. На маленьких наборах данных можно просто сравнить запрос со всеми векторами и отсортировать результаты.

Такой brute-force подход даёт максимальную точность, но на миллионах записей становится слишком дорогим по задержке и вычислениям. В реальных системах обычно сочетаются сразу несколько механизмов: cosine similarity для текстовых эмбеддингов, где важнее направление, чем длина вектора dot product для нормализованных векторов и быстрых продакшен-сценариев фильтрация по метаданным, когда нужно искать только внутри конкретного пользователя, даты или категории гибридный поиск, который объединяет dense-векторы со sparse-поиском вроде BM25 или TF-IDF Отдельный акцент сделан на том, что чистый семантический поиск не всегда выигрывает. Если пользователь ищет точную фразу вроде даты релиза модели, векторный поиск может увести в соседние темы.

Поэтому всё чаще используется hybrid search: dense и sparse-поиск запускаются параллельно, а затем результаты объединяются ранжированием вроде reciprocal rank fusion. Это даёт баланс между пониманием смысла и точностью по ключевым словам.

Индексы для масштаба Самая важная часть статьи — разбор того, как векторный поиск масштабируют.

Главная проблема проста: полный перебор даёт идеальный результат, но плохо переносит рост данных. Поэтому продакшен-системы обычно опираются на approximate nearest neighbor, или ANN. Эти алгоритмы жертвуют небольшой долей точности, чтобы резко сократить время ответа и стоимость поиска.

Автор выделяет три базовых подхода. HNSW строит многослойный граф похожих векторов и быстро проходит по нему к нужной области пространства. IVF сначала группирует векторы по кластерам и ищет не по всей базе, а по ближайшим кластерам.

PQ сжимает векторы и уменьшает требования к памяти, что особенно важно на очень больших датасетах. На практике выбор между ними — это всегда компромисс между recall, latency и объёмом RAM. Дальше начинается инженерная часть: параметры вроде ef_search, M, nlist и nprobe напрямую влияют на качество и скорость.

Один и тот же индекс можно сделать быстрее, но потерять часть релевантных результатов, или наоборот повысить recall ценой задержки. При объёмах в десятки миллионов векторов приходится думать уже не только об индексе, но и о шардинге, хранении на диске и выборе инструмента. В качестве вариантов статья перечисляет Pinecone, Qdrant, Weaviate, Milvus, pgvector, Faiss и Annoy — от управляемых сервисов до библиотек и расширений для Postgres.

Что это значит

Разбор Machine Learning Mastery полезен тем, что снимает магию с одной из базовых технологий современного AI-стека. Если ты строишь RAG, поиск по знаниям или рекомендации, важно понимать не только как получить эмбеддинг, но и как выбрать метрику, индекс и компромисс между точностью и скоростью. Именно на этих деталях чаще всего и ломается путь от демо к рабочему продукту.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…