Ettin Reranker de Hugging Face : 6 modèles pour un réordonnement de recherche précis
Hugging Face a présenté Ettin Reranker — une famille de 6 réordonneurs allant de 17 millions à 1 milliard de paramètres. Les modèles sont construits sur ModernB
Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
Hugging Face a publié une famille de 6 réordonneurs Ettin basés sur l'architecture ModernBERT. Ce sont des modèles de pointe pour le réordonnement secondaire des résultats de recherche, entraînés par distillation à partir d'un modèle plus grand.
Qu'est-ce qu'un réordonnateur
Un réordonnateur (cross-encoder) est une classe spéciale de modèles qui prennent en entrée une paire (requête, document) et produisent un seul score de pertinence. La différence clé avec les modèles d'embeddings ordinaires : le réordonnateur encode les deux séquences conjointement, ce qui leur permet de se voir à travers tous les niveaux du transformateur. Cela rend les réordonnateurs beaucoup plus précis, mais aussi plus coûteux en termes de calcul.
Comment cela fonctionne en pratique
La recherche ordinaire utilise le modèle retrieve-then-rerank (d'abord récupérer, puis réordonner) :
- Première étape : un modèle d'embeddings rapide récupère les K meilleurs candidats
- Deuxième étape : le réordonnateur retrie ces K candidats avec haute précision
- Résultat : une meilleure qualité sans coûts de calcul excessifs
Ce modèle est plus économique que d'exécuter le réordonnateur sur l'ensemble du corpus. Ettin sont entraînés précisément pour ce scénario.
Architecture et optimisations
Tous les modèles de la famille utilisent ModernBERT comme base avec plusieurs optimisations clés :
- Flash Attention 2 pour l'accélération de l'attention
- Unpadded sequences (séquences sans padding) — chaque couche ne voit que les jetons réels
- CLS pooling au lieu de mean pooling (s'est avéré plus précis dans l'ablation)
- Structure spéciale : Transformer → Pooling → Couche dense → LayerNorm → Couche dense
Les séquences non complétées donnent un gain particulier. Grâce à cela, le modèle 150M fonctionne 2,3 fois plus vite que deux autres modèles 150M basés sur ModernBERT. L'accélération globale bf16 + Flash Attention + unpadding atteint 1,7 à 8,3 fois selon la taille.
Performance en chiffres
Sur le benchmark MTEB(eng, v2), même les versions compactes sont impressionnantes :
- La version 17M traite 7517 paires par seconde (sur H100)
- 32M — 6602 paires par seconde
- 150M — 3237 paires par seconde (2,3 fois plus rapide que les concurrents)
- La version 1B fonctionne 2,4 fois plus vite que le modèle maître (1,54B)
Cela signifie que pour la plupart des applications, il existe une version qui sera à la fois rapide et précise.
Ce que cela signifie
Ettin Reranker rend la recherche haute précision plus accessible. Les versions compactes permettent d'intégrer le réordonnement même dans les applications avec des ressources de calcul limitées, tandis que les versions plus grandes concurrencent l'état de l'art. La distillation sur des données ouvertes signifie que quiconque peut reproduire les résultats et entraîner sa propre version.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.