Ettin Reranker от Hugging Face: 6 моделей для точного переранжирования поиска
Hugging Face представила Ettin Reranker — семейство из 6 переранжировщиков размерами от 17 миллионов до 1 миллиарда параметров. Модели построены на ModernBERT и

Hugging Face выпустила семейство из 6 переранжировщиков Ettin на основе архитектуры ModernBERT. Это состояние искусства модели для вторичного переранжирования результатов поиска, обученные методом дистилляции от большей модели.
Что такое переранжировщик
Переранжировщик (cross-encoder) — это специальный класс моделей, которые принимают на вход пару (запрос, документ) и выдают единственный релевантностный скор. Ключевое отличие от обычных моделей эмбеддингов: переранжировщик кодирует обе последовательности совместно, позволяя им видеть друг друга через все слои трансформера. Это делает переранжировщики гораздо точнее, но и дороже в вычислительном плане.
Как это работает на практике
Обычный поиск использует паттерн retrieve-then-rerank (сначала получить, потом переранжировать): Первый шаг: быстрая модель эмбеддингов достаёт топ-K кандидатов Второй шаг: переранжировщик пересортирует эти K кандидатов с высокой точностью * Результат: лучшее качество без чрезмерных затрат на вычисления Этот паттерн экономичнее, чем пускать переранжировщик на весь корпус. Ettin обучены именно для такого сценария.
Архитектура и оптимизации
Все модели семейства используют ModernBERT как базу с несколькими ключевыми оптимизациями: Flash Attention 2 для ускорения внимания Unpadded sequences (последовательности без паддинга) — каждый слой видит только реальные токены CLS pooling вместо mean pooling (оказалось точнее в аблейшене) Специальная структура: Transformer → Pooling → Dense layer → LayerNorm → Dense layer Unpadded sequences дают особенный прирост. Благодаря этому 150M модель работает в 2.3 раза быстрее, чем две другие 150M модели на основе ModernBERT. Общее ускорение bf16 + Flash Attention + unpadding достигает 1.7–8.3 раза в зависимости от размера.
Производительность в цифрах
На бенчмарке MTEB(eng, v2) даже компактные версии впечатляют: 17M версия обрабатывает 7517 пар в секунду (на H100) 32M — 6602 пары в секунду 150M — 3237 пар в секунду (в 2.3 раза быстрее конкурентов) 1B версия работает в 2.4 раза быстрее учителя (1.54B) Это означает, что для большинства приложений есть версия, которая будет и быстрой, и точной одновременно.
Что это значит Ettin Reranker делает высокоточный поиск доступнее.
Компактные версии позволяют встроить переранжирование даже в приложения с ограниченными вычислительными ресурсами, а крупные версии конкурируют с состоянием искусства. Дистилляция на открытых данных означает, что любой может воспроизвести результаты и обучить свою версию.