Hugging Face Blog→ original

Ettin Reranker da Hugging Face: 6 modelos para reranking preciso de busca

A Hugging Face apresentou o Ettin Reranker — uma família de 6 rerranqueadores com tamanhos que variam de 17 milhões a 1 bilhão de parâmetros. Os modelos são con

Processado por IA de Hugging Face Blog; editado por Hamidun News
Ettin Reranker da Hugging Face: 6 modelos para reranking preciso de busca
Fonte: Hugging Face Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A Hugging Face lançou uma família de 6 rerranqueadores Ettin baseados na arquitetura ModernBERT. Estes são modelos de ponta para reranking secundário de resultados de busca, treinados usando destilação de um modelo maior.

O que é um rerranqueador

Um rerranqueador (cross-encoder) é uma classe especial de modelos que recebem um par (consulta, documento) como entrada e produzem uma única pontuação de relevância. A diferença fundamental dos modelos de embedding comuns: o rerranqueador codifica ambas as sequências conjuntamente, permitindo que elas se vejam por meio de todas as camadas do transformador. Isso torna os rerranqueadores muito mais precisos, mas também mais caros computacionalmente.

Como funciona na prática

A busca comum usa o padrão retrieve-then-rerank (primeiro recuperar, depois reranking):

  • Primeiro passo: um modelo de embedding rápido extrai os K principais candidatos
  • Segundo passo: o rerranqueador reordena esses K candidatos com alta precisão
  • Resultado: melhor qualidade sem gastos computacionais excessivos

Este padrão é mais econômico do que executar o rerranqueador em todo o corpus. Os modelos Ettin foram treinados especificamente para este cenário.

Arquitetura e otimizações

Todos os modelos da família usam ModernBERT como base com várias otimizações principais:

  • Flash Attention 2 para acelerar a atenção
  • Unpadded sequences (sequências sem padding) — cada camada vê apenas tokens reais
  • CLS pooling em vez de mean pooling (mostrou-se mais preciso na ablação)
  • Estrutura especial: Transformer → Pooling → Dense layer → LayerNorm → Dense layer

Unpadded sequences trazem um ganho especial. Graças a isso, o modelo de 150M funciona 2,3 vezes mais rápido do que dois outros modelos de 150M baseados em ModernBERT. A aceleração geral bf16 + Flash Attention + unpadding atinge 1,7–8,3 vezes dependendo do tamanho.

Desempenho em números

No benchmark MTEB(eng, v2) até as versões compactas impressionam:

  • A versão 17M processa 7.517 pares por segundo (em H100)
  • 32M — 6.602 pares por segundo
  • 150M — 3.237 pares por segundo (2,3 vezes mais rápido que concorrentes)
  • A versão 1B funciona 2,4 vezes mais rápido que o professor (1.54B)

Isso significa que para a maioria das aplicações existe uma versão que será rápida e precisa ao mesmo tempo.

O que isso significa

O Ettin Reranker torna a busca de alta precisão mais acessível. As versões compactas permitem incorporar reranking até em aplicativos com recursos computacionais limitados, enquanto as versões maiores competem com o estado da arte. A destilação em dados abertos significa que qualquer pessoa pode reproduzir os resultados e treinar sua própria versão.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…