Ettin Reranker de Hugging Face: 6 modelos para reranking preciso de búsqueda
Hugging Face presentó Ettin Reranker, una familia de 6 rerankers con tamaños que van desde 17 millones hasta 1 mil millones de parámetros. Los modelos se constr
Procesado por IA desde Hugging Face Blog; editado por Hamidun News
Hugging Face lanzó una familia de 6 rerankers Ettin basados en la arquitectura ModernBERT. Estos son modelos de última generación para reranking secundario de resultados de búsqueda, entrenados mediante destilación de un modelo más grande.
¿Qué es un reranker?
Un reranker (cross-encoder) es una clase especial de modelos que toman como entrada un par (consulta, documento) y producen una única puntuación de relevancia. La diferencia clave con los modelos de embeddings ordinarios es que el reranker codifica ambas secuencias conjuntamente, permitiéndoles verse mutuamente a través de todas las capas del transformer. Esto hace que los rerankers sean mucho más precisos, pero también más costosos desde el punto de vista computacional.
Cómo funciona en la práctica
La búsqueda ordinaria utiliza el patrón retrieve-then-rerank (primero recuperar, luego reranking):
- Primer paso: un modelo de embeddings rápido extrae los K candidatos principales
- Segundo paso: el reranker reordena estos K candidatos con alta precisión
- Resultado: mejor calidad sin costos computacionales excesivos
Este patrón es más económico que ejecutar el reranker en todo el corpus. Ettin fue entrenado específicamente para este escenario.
Arquitectura y optimizaciones
Todos los modelos de la familia utilizan ModernBERT como base con varias optimizaciones clave:
- Flash Attention 2 para acelerar la atención
- Unpadded sequences (secuencias sin relleno) — cada capa ve solo tokens reales
- CLS pooling en lugar de mean pooling (resultó más preciso en el ablation)
- Estructura especial: Transformer → Pooling → Dense layer → LayerNorm → Dense layer
Las secuencias sin relleno proporcionan un aumento especial. Gracias a esto, el modelo de 150M funciona 2.3 veces más rápido que otros dos modelos de 150M basados en ModernBERT. La aceleración total de bf16 + Flash Attention + unpadding alcanza 1.7–8.3 veces dependiendo del tamaño.
Rendimiento en cifras
En el benchmark MTEB(eng, v2) incluso las versiones compactas impresionan:
- La versión de 17M procesa 7517 pares por segundo (en H100)
- 32M — 6602 pares por segundo
- 150M — 3237 pares por segundo (2.3 veces más rápido que los competidores)
- La versión de 1B funciona 2.4 veces más rápido que el modelo maestro (1.54B)
Esto significa que para la mayoría de las aplicaciones hay una versión que será rápida y precisa al mismo tiempo.
Qué significa esto
Ettin Reranker hace que la búsqueda de alta precisión sea más accesible. Las versiones compactas permiten incorporar reranking incluso en aplicaciones con recursos computacionales limitados, mientras que las versiones más grandes compiten con lo último en tecnología. La destilación en datos abiertos significa que cualquiera puede reproducir los resultados y entrenar su propia versión.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.