Hugging Face Blog→ original

Ettin Reranker от Hugging Face: 6 моделей для точного переранжирования поиска

Hugging Face представила Ettin Reranker — семейство из 6 переранжировщиков размерами от 17 миллионов до 1 миллиарда параметров. Модели построены на ModernBERT и

Processado por IA de Hugging Face Blog; editado por Hamidun News
Ettin Reranker от Hugging Face: 6 моделей для точного переранжирования поиска
Fonte: Hugging Face Blog. Colagem: Hamidun News.

Hugging Face выпустила семейство из 6 переранжировщиков Ettin на основе архитектуры ModernBERT. Это состояние искусства модели для вторичного переранжирования результатов поиска, обученные методом дистилляции от большей модели.

Что такое переранжировщик

Переранжировщик (cross-encoder) — это специальный класс моделей, которые принимают на вход пару (запрос, документ) и выдают единственный релевантностный скор. Ключевое отличие от обычных моделей эмбеддингов: переранжировщик кодирует обе последовательности совместно, позволяя им видеть друг друга через все слои трансформера. Это делает переранжировщики гораздо точнее, но и дороже в вычислительном плане.

Как это работает на практике

Обычный поиск использует паттерн retrieve-then-rerank (сначала получить, потом переранжировать): Первый шаг: быстрая модель эмбеддингов достаёт топ-K кандидатов Второй шаг: переранжировщик пересортирует эти K кандидатов с высокой точностью * Результат: лучшее качество без чрезмерных затрат на вычисления Этот паттерн экономичнее, чем пускать переранжировщик на весь корпус. Ettin обучены именно для такого сценария.

Архитектура и оптимизации

Все модели семейства используют ModernBERT как базу с несколькими ключевыми оптимизациями: Flash Attention 2 для ускорения внимания Unpadded sequences (последовательности без паддинга) — каждый слой видит только реальные токены CLS pooling вместо mean pooling (оказалось точнее в аблейшене) Специальная структура: Transformer → Pooling → Dense layer → LayerNorm → Dense layer Unpadded sequences дают особенный прирост. Благодаря этому 150M модель работает в 2.3 раза быстрее, чем две другие 150M модели на основе ModernBERT. Общее ускорение bf16 + Flash Attention + unpadding достигает 1.7–8.3 раза в зависимости от размера.

Производительность в цифрах

На бенчмарке MTEB(eng, v2) даже компактные версии впечатляют: 17M версия обрабатывает 7517 пар в секунду (на H100) 32M — 6602 пары в секунду 150M — 3237 пар в секунду (в 2.3 раза быстрее конкурентов) 1B версия работает в 2.4 раза быстрее учителя (1.54B) Это означает, что для большинства приложений есть версия, которая будет и быстрой, и точной одновременно.

Что это значит Ettin Reranker делает высокоточный поиск доступнее.

Компактные версии позволяют встроить переранжирование даже в приложения с ограниченными вычислительными ресурсами, а крупные версии конкурируют с состоянием искусства. Дистилляция на открытых данных означает, что любой может воспроизвести результаты и обучить свою версию.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…