Modelos híbridos predizem melhor palavras de conteúdo do que transformers — estudo da Allen AI

Q: Qual é a fonte?

Publicado originalmente em Hugging Face Blog. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

28 de jun. de 2026. Tempo de leitura: 3 min.

A equipe da Allen AI comparou o transformer OLMo 3 com o híbrido OLMo Hybrid nas mesmas condições de treinamento. Conclusão: os híbridos predizem com mais…

Redação da Hamidun News

Monitoramento de AI · Hugging Face Blog

28 de jun. de 2026· 2 min

Processado por IA de Hugging Face Blog; editado por Hamidun News

Modelos híbridos predizem melhor palavras de conteúdo do que transformers — estudo da Allen AI — Fonte: Hugging Face Blog. Colagem: Hamidun News.

◐ Ouvir artigo

Modelos híbridos predizem melhor palavras semânticas do que transformers — pesquisa do Allen AI

A equipe do Allen AI descobriu em quais exatamente tokens os modelos de linguagem híbridos superam os transformers — e onde essa vantagem desaparece. Os autores compararam OLMo 3 (transformer) e OLMo Hybrid em condições idênticas de treinamento para isolar o efeito puramente arquitetural.

Transformer vs. Híbrido

A questão central da pesquisa: o que exatamente muda no comportamento do modelo quando parte das camadas de atenção é substituída por componentes recorrentes? Ambos os modelos foram treinados nos mesmos dados — artigos, páginas da Wikipedia, livros, trabalhos científicos, código, HTML e LaTeX. A diferença na função de loss ao prever o próximo token foi medida não em média, mas dividida por categorias.

Diferença arquitetural fundamental:

Transformer acessa cada token anterior através de um mecanismo de atenção — com precisão, mas computacionalmente caro: o custo cresce com o comprimento do contexto.
Híbrido alterna camadas de atenção com recorrentes: estas últimas mantêm um "retrato" fixo do histórico com custo computacional constante, independentemente do comprimento da sequência.

O componente recorrente é forte onde rastrear mudanças na informação importa. A atenção é insubstituível onde você precisa recordar precisamente um token específico do passado.

Onde o Híbrido Leva Vantagem

Um padrão claro emergiu em todos os tipos de texto: o modelo híbrido prevê com mais precisão palavras semânticas — substantivos, verbos, adjetivos. O hiato de loss a seu favor nesses tokens foi cerca de 0,04, enquanto em palavras funcionais (preposições, artigos, conjunções) o hiato foi metade menor — 0,02. O transformer permanece competitivo onde capturar padrões gramaticais superficiais é suficiente.

Para entender a natureza da vantagem, os pesquisadores compararam adicionalmente três arquiteturas em modelos de 1B parâmetros — transformer, híbrido e um modelo totalmente recorrente sem camadas de atenção. Resultados em tokens semânticos e não-lexicamente repetidos:

Tanto o modelo híbrido quanto o totalmente recorrente superaram o transformer.
Dos dois, o híbrido ficou em primeiro lugar.
O modelo puramente recorrente sem atenção ficou atrás de ambos em fragmentos repetidos.

Isso sugere que as camadas recorrentes por si só fornecem uma vantagem em tokens semânticos, enquanto a presença de camadas de atenção preenche a fraqueza do modelo recorrente na cópia exata de texto.

Onde a Vantagem Desaparece

Correspondência de parênteses. Parênteses de fechamento — em código ou texto matemático — o transformer e o híbrido predizem com precisão quase igual. Aqui é suficiente olhar para trás através da atenção e encontrar o parêntese de abertura correspondente; o componente recorrente não adiciona benefício.

N-gramas repetidos. Quanto mais longo o fragmento que o modelo reproduz literalmente de texto encontrado anteriormente, menor o hiato a favor do híbrido. Em sequências longas tende a zero. Modelos puramente recorrentes perdem em tais repetições contra ambos — "recordação" precisa de uma sequência específica é exatamente para o que a atenção serve.

"OLMo

Hybrid é mais forte em tokens que carregam significado — substantivos, verbos, adjetivos", observam os autores, acrescentando que essa vantagem diminui ao reproduzir texto repetido.

O Que Isso Significa

Métricas agregadas (função de loss total) ocultam diferenças arquiteturais: apenas filtrar por categorias de tokens revela exatamente onde uma abordagem supera a outra. A equipe do Allen AI pretende incorporar essas descobertas no desenvolvimento posterior de arquiteturas híbridas — otimizando componentes específicos em vez de números médios.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis