Ettin Reranker de Hugging Face: 6 modelos para reranking preciso de búsqueda

Hugging Face presentó Ettin Reranker, una familia de 6 rerankers con tamaños que van desde 17 millones hasta 1 mil millones de parámetros. Los modelos se construyen sobre ModernBERT y fueron entrenados mediante destilación en 143 millones de ejemplos. Utilizan Flash Attention 2 para acelerar. La versión más compacta funciona 19 veces más rápido que un competidor grande, pero pierde solo el 0.5% de precisión.

Khamidun Zhemal

Monitoreo de AI · Hugging Face Blog

23 may 2026· 3 min·actualizado 12 jul 2026

Procesado por IA desde Hugging Face Blog; editado por Hamidun News

Ettin Reranker de Hugging Face: 6 modelos para reranking preciso de búsqueda — Fuente: Hugging Face Blog. Collage: Hamidun News.

◐ Escuchar artículo

Hugging Face lanzó una familia de 6 rerankers Ettin basados en la arquitectura ModernBERT. Estos son modelos de última generación para reranking secundario de resultados de búsqueda, entrenados mediante destilación de un modelo más grande.

¿Qué es un reranker?

Un reranker (cross-encoder) es una clase especial de modelos que toman como entrada un par (consulta, documento) y producen una única puntuación de relevancia. La diferencia clave con los modelos de embeddings ordinarios es que el reranker codifica ambas secuencias conjuntamente, permitiéndoles verse mutuamente a través de todas las capas del transformer. Esto hace que los rerankers sean mucho más precisos, pero también más costosos desde el punto de vista computacional.

Cómo funciona en la práctica

La búsqueda ordinaria utiliza el patrón retrieve-then-rerank (primero recuperar, luego reranking):

Primer paso: un modelo de embeddings rápido extrae los K candidatos principales
Segundo paso: el reranker reordena estos K candidatos con alta precisión
Resultado: mejor calidad sin costos computacionales excesivos

Este patrón es más económico que ejecutar el reranker en todo el corpus. Ettin fue entrenado específicamente para este escenario.

Arquitectura y optimizaciones

Todos los modelos de la familia utilizan ModernBERT como base con varias optimizaciones clave:

Flash Attention 2 para acelerar la atención
Unpadded sequences (secuencias sin relleno) — cada capa ve solo tokens reales
CLS pooling en lugar de mean pooling (resultó más preciso en el ablation)
Estructura especial: Transformer → Pooling → Dense layer → LayerNorm → Dense layer

Las secuencias sin relleno proporcionan un aumento especial. Gracias a esto, el modelo de 150M funciona 2.3 veces más rápido que otros dos modelos de 150M basados en ModernBERT. La aceleración total de bf16 + Flash Attention + unpadding alcanza 1.7–8.3 veces dependiendo del tamaño.

Rendimiento en cifras

En el benchmark MTEB(eng, v2) incluso las versiones compactas impresionan:

La versión de 17M procesa 7517 pares por segundo (en H100)
32M — 6602 pares por segundo
150M — 3237 pares por segundo (2.3 veces más rápido que los competidores)
La versión de 1B funciona 2.4 veces más rápido que el modelo maestro (1.54B)

Esto significa que para la mayoría de las aplicaciones hay una versión que será rápida y precisa al mismo tiempo.

Qué significa esto

Ettin Reranker hace que la búsqueda de alta precisión sea más accesible. Las versiones compactas permiten incorporar reranking incluso en aplicaciones con recursos computacionales limitados, mientras que las versiones más grandes compiten con lo último en tecnología. La destilación en datos abiertos significa que cualquiera puede reproducir los resultados y entrenar su propia versión.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 50 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?

Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).

Reservar consulta gratuita →