ZeroEntropy представила Zerank-2 — лёгкий переранжировщик для точного поиска
ZeroEntropy выпустила Zerank-2 — кроссэнкодер на базе Qwen3 (всего 4 млрд параметров), который переранжирует результаты поиска с высокой точностью. Подходит для

ZeroEntropy выпустила Zerank-2, новый кроссэнкодер для переранжирования результатов поиска. Модель на базе Qwen3 содержит всего 4 млрд параметров, но обеспечивает высокую точность в двухэтапных retrieve-and-rerank пайплайнах для информационного поиска и retrieval-augmented generation (RAG) систем.
Архитектура двухэтапного поиска
Zerank-2 встраивается в стандартную архитектуру поиска, которая состоит из двух стадий. На первой стадии быстрый би-энкодер или лёгкий ретривер (например, BM25, Elasticsearch) возвращает топ-K кандидатов из большой базы документов. На второй стадии Zerank-2 переранжирует эти кандидаты, переоценивая релевантность каждого документа для конкретного запроса пользователя. Модель работает как кроссэнкодер: оценивает пары запрос-документ как единое целое, учитывая семантическое взаимодействие и контекст. Это более затратно по вычислениям, чем векторное сравнение, но гораздо точнее. Именно поэтому кроссэнкодеры обычно работают на уже отобранном наборе, а не на всей базе.
Ключевые преимущества *
Компактный размер (4 млрд параметров) — помещается в видеопамять одного потребительского GPU Высокая точность переранжирования документов без замедления системы Экономия ресурсов — двухэтапный поиск дешевле, чем один медленный поиск по всей базе Лёгкая интеграция в существующие RAG-системы и приложения поиска Open-source и готова к немедленному использованию ## Когда это полезно Zerank-2 особенно эффективна для приложений, где нужна высокая точность поиска, но нет возможности сканировать всю базу медленным методом. Типичные сценарии: поиск в документах компании, question-answering системы, рекомендательные системы, помощники на основе RAG. Разработчики уже интегрируют Zerank-2 в production приложения.
На практике двухэтапная архитектура с Zerank-2 даёт 30-50% улучшение точности по сравнению с простым retrieval, при этом замедляя запрос всего на 100-200 мс. Модель работает с любым retriever'ом — от BM25 до векторных БД вроде Pinecone или Weaviate.
«Маленький и точный кроссэнкодер часто полезнее, чем большой энкодер»,
— пишут разработчики в документации.
Что это значит RAG-системы становятся практичнее и эффективнее.
Вместо выбора между быстрым но неточным поиском и медленным но точным, можно иметь оба: быстрый поиск находит кандидатов, Zerank-2 выбирает лучшие. Это особенно важно для enterprise приложений, где нужна и скорость, и качество. Zerank-2 показывает, что специализированные кроссэнкодеры умеренного размера часто эффективнее больших общих моделей на узких задачах.