Hugging Face Blog→ original

TII apresentou o QIMMA — um leaderboard de LLMs árabes com verificação da qualidade dos benchmarks

A TII lançou o QIMMA, um novo leaderboard para LLMs árabes em que os próprios testes são limpos e validados antes da avaliação dos modelos. O conjunto inclui…

Processado por IA de Hugging Face Blog; editado por Hamidun News
TII apresentou o QIMMA — um leaderboard de LLMs árabes com verificação da qualidade dos benchmarks
Fonte: Hugging Face Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A TII lançou QIMMA — um novo ranking para LLMs árabes que transforma a abordagem para avaliação de modelos: a equipe primeiro verifica a qualidade dos benchmarks e só depois publica os resultados. Os autores do projeto demonstraram que até datasets árabes bem conhecidos têm erros sistemáticos que distorcem os scores finais.

O que é QIMMA

O QIMMA combina 109 subconjuntos de 14 benchmarks originais em um sistema de avaliação unificado com mais de 52 mil exemplos. A cobertura é ampla: cultura, STEM, direito, medicina, segurança, poesia e literatura, além de programação. Segundo os autores, 99% do conteúdo no dataset é originalmente em árabe, não traduzido do inglês.

Isso importa porque testes traduzidos frequentemente quebram o contexto natural, tornam a formulação desajeitada e dão à modelo tarefas que refletem mal o uso real da língua árabe. Nesse contexto, QIMMA se posiciona não apenas como mais um ranking, mas como uma tentativa de resolver vários problemas antigos do NLP árabe: rankings fragmentados, baixa reprodutibilidade, falta de resultados linha por linha e respostas gold não verificadas. Os autores enfatizam ainda outra diferença: este é o primeiro ranking árabe com avaliação de código embutida.

Para isso, o sistema adicionou versões árabes adaptadas de HumanEval+ e MBPP+ para verificar não apenas o conhecimento de linguagem, mas também a capacidade da modelo de compreender tarefas de programação formuladas em árabe.

Como funciona a validação

A parte chave do projeto é um pipeline de validação em dois estágios. Antes de rodar as modelos, cada exemplo é verificado independentemente por duas modelos grandes: Qwen3-235B-A22B-Instruct e DeepSeek-V3-671B. Elas avaliam as tarefas em uma escala de dez critérios binários. Se pelo menos uma modelo atribui ao exemplo menos de 7 em 10, é considerado problemático: quando ambas as modelos concordam, tal exemplo é imediatamente excluído, e casos disputados são enviados para revisão manual por falantes nativos familiarizados com nuances regionais e dialetais.

QIMMA verifica benchmarks antes de avaliar modelos, para que os scores

finais reflitam a verdadeira qualidade dos LLMs árabes.

Para benchmarks de código, a equipe adotou uma abordagem diferente. Em vez de remover tarefas, os pesquisadores reescreveram as formulações árabes sem alterar identificadores, soluções de referência e conjuntos de testes. Em HumanEval+, corrigiram 145 de 164 prompts, ou seja, 88%, e em MBPP+ — 308 de 378, ou 81%. As correções abordaram vários aspectos:

  • normalização da linguagem para árabe literário contemporâneo natural
  • remoção de ambiguidades e esclarecimento de restrições
  • alinhamento de terminologia, pontuação e formato de exemplos
  • correção de erros estruturais como linhas quebradas e fragmentos de texto corrompidos
  • esclarecimento de significado onde ranges ou condições eram ambíguas

Quais problemas foram encontrados

A revisão mostrou que não se tratava de erros isolados, mas de defeitos recorrentes nos próprios datasets. Por exemplo, em ArabicMMLU, a equipe descartou 436 exemplos, ou 3,1% do dataset, e em MizanQA — 41 exemplos, ou 2,3%. Havia taxas de defeito menores em algumas, mas o padrão se repetia entre datasets: erros em respostas corretas, texto ilegível, duplicatas, rótulos culturalmente controversos e desalinhamento entre resposta gold e método de avaliação.

Em outras palavras, alguns benchmarks árabes populares estavam sendo usados como se fossem livres de erros, quando não o eram. No dataset limpo, a líder foi Qwen3.5-397B-A17B-FP8 com uma pontuação média de 68,06.

Em segundo lugar — Karnak com 66,20, em terceiro — Jais-2-70B-Chat com 65,81. Notavelmente, os autores apontam que o tamanho do modelo não garante melhores resultados. Modelos especializados em árabe frequentemente têm melhor desempenho em tarefas culturais e linguísticas, enquanto sistemas multilíngues se saem melhor em codificação: Qwen3.

5-397B alcança os melhores resultados tanto em HumanEval+ quanto em MBPP+. Em outras palavras, QIMMA é útil não apenas como um ranking, mas como um mapa dos pontos fortes de diferentes arquiteturas.

O que isso significa

QIMMA faz um deslocamento simples mas importante: comparar LLMs sem verificar os próprios testes não é mais suficiente. Para o mercado árabe, isso pode se tornar um novo padrão de avaliação e, para desenvolvedores — um lembrete de que a qualidade do benchmark afeta a reputação do modelo tanto quanto o modelo em si.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…