Hugging Face Blog→ оригинал

Ettin Reranker от Hugging Face: 6 моделей для точного переранжирования поиска

Hugging Face представила Ettin Reranker — семейство из 6 переранжировщиков размерами от 17 миллионов до 1 миллиарда параметров. Модели построены на ModernBERT и

Ettin Reranker от Hugging Face: 6 моделей для точного переранжирования поиска
Источник: Hugging Face Blog. Коллаж: Hamidun News.
◐ Слушать статью

Hugging Face выпустила семейство из 6 переранжировщиков Ettin на основе архитектуры ModernBERT. Это состояние искусства модели для вторичного переранжирования результатов поиска, обученные методом дистилляции от большей модели.

Что такое переранжировщик

Переранжировщик (cross-encoder) — это специальный класс моделей, которые принимают на вход пару (запрос, документ) и выдают единственный релевантностный скор. Ключевое отличие от обычных моделей эмбеддингов: переранжировщик кодирует обе последовательности совместно, позволяя им видеть друг друга через все слои трансформера. Это делает переранжировщики гораздо точнее, но и дороже в вычислительном плане.

Как это работает на практике

Обычный поиск использует паттерн retrieve-then-rerank (сначала получить, потом переранжировать): Первый шаг: быстрая модель эмбеддингов достаёт топ-K кандидатов Второй шаг: переранжировщик пересортирует эти K кандидатов с высокой точностью * Результат: лучшее качество без чрезмерных затрат на вычисления Этот паттерн экономичнее, чем пускать переранжировщик на весь корпус. Ettin обучены именно для такого сценария.

Архитектура и оптимизации

Все модели семейства используют ModernBERT как базу с несколькими ключевыми оптимизациями: Flash Attention 2 для ускорения внимания Unpadded sequences (последовательности без паддинга) — каждый слой видит только реальные токены CLS pooling вместо mean pooling (оказалось точнее в аблейшене) Специальная структура: Transformer → Pooling → Dense layer → LayerNorm → Dense layer Unpadded sequences дают особенный прирост. Благодаря этому 150M модель работает в 2.3 раза быстрее, чем две другие 150M модели на основе ModernBERT. Общее ускорение bf16 + Flash Attention + unpadding достигает 1.7–8.3 раза в зависимости от размера.

Производительность в цифрах

На бенчмарке MTEB(eng, v2) даже компактные версии впечатляют: 17M версия обрабатывает 7517 пар в секунду (на H100) 32M — 6602 пары в секунду 150M — 3237 пар в секунду (в 2.3 раза быстрее конкурентов) 1B версия работает в 2.4 раза быстрее учителя (1.54B) Это означает, что для большинства приложений есть версия, которая будет и быстрой, и точной одновременно.

Что это значит Ettin Reranker делает высокоточный поиск доступнее.

Компактные версии позволяют встроить переранжирование даже в приложения с ограниченными вычислительными ресурсами, а крупные версии конкурируют с состоянием искусства. Дистилляция на открытых данных означает, что любой может воспроизвести результаты и обучить свою версию.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…