Hugging Face Blog→ original

Ettin Reranker от Hugging Face: 6 моделей для точного переранжирования поиска

Hugging Face представила Ettin Reranker — семейство из 6 переранжировщиков размерами от 17 миллионов до 1 миллиарда параметров. Модели построены на ModernBERT и

Procesado por IA desde Hugging Face Blog; editado por Hamidun News
Ettin Reranker от Hugging Face: 6 моделей для точного переранжирования поиска
Fuente: Hugging Face Blog. Collage: Hamidun News.

Hugging Face выпустила семейство из 6 переранжировщиков Ettin на основе архитектуры ModernBERT. Это состояние искусства модели для вторичного переранжирования результатов поиска, обученные методом дистилляции от большей модели.

Что такое переранжировщик

Переранжировщик (cross-encoder) — это специальный класс моделей, которые принимают на вход пару (запрос, документ) и выдают единственный релевантностный скор. Ключевое отличие от обычных моделей эмбеддингов: переранжировщик кодирует обе последовательности совместно, позволяя им видеть друг друга через все слои трансформера. Это делает переранжировщики гораздо точнее, но и дороже в вычислительном плане.

Как это работает на практике

Обычный поиск использует паттерн retrieve-then-rerank (сначала получить, потом переранжировать): Первый шаг: быстрая модель эмбеддингов достаёт топ-K кандидатов Второй шаг: переранжировщик пересортирует эти K кандидатов с высокой точностью * Результат: лучшее качество без чрезмерных затрат на вычисления Этот паттерн экономичнее, чем пускать переранжировщик на весь корпус. Ettin обучены именно для такого сценария.

Архитектура и оптимизации

Все модели семейства используют ModernBERT как базу с несколькими ключевыми оптимизациями: Flash Attention 2 для ускорения внимания Unpadded sequences (последовательности без паддинга) — каждый слой видит только реальные токены CLS pooling вместо mean pooling (оказалось точнее в аблейшене) Специальная структура: Transformer → Pooling → Dense layer → LayerNorm → Dense layer Unpadded sequences дают особенный прирост. Благодаря этому 150M модель работает в 2.3 раза быстрее, чем две другие 150M модели на основе ModernBERT. Общее ускорение bf16 + Flash Attention + unpadding достигает 1.7–8.3 раза в зависимости от размера.

Производительность в цифрах

На бенчмарке MTEB(eng, v2) даже компактные версии впечатляют: 17M версия обрабатывает 7517 пар в секунду (на H100) 32M — 6602 пары в секунду 150M — 3237 пар в секунду (в 2.3 раза быстрее конкурентов) 1B версия работает в 2.4 раза быстрее учителя (1.54B) Это означает, что для большинства приложений есть версия, которая будет и быстрой, и точной одновременно.

Что это значит Ettin Reranker делает высокоточный поиск доступнее.

Компактные версии позволяют встроить переранжирование даже в приложения с ограниченными вычислительными ресурсами, а крупные версии конкурируют с состоянием искусства. Дистилляция на открытых данных означает, что любой может воспроизвести результаты и обучить свою версию.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…