TII apresentou o QIMMA — um leaderboard de LLMs árabes com verificação da qualidade dos benchmarks
A TII lançou o QIMMA, um novo leaderboard para LLMs árabes em que os próprios testes são limpos e validados antes da avaliação dos modelos. O conjunto inclui…
Processado por IA de Hugging Face Blog; editado por Hamidun News
A TII lançou QIMMA — um novo ranking para LLMs árabes que transforma a abordagem para avaliação de modelos: a equipe primeiro verifica a qualidade dos benchmarks e só depois publica os resultados. Os autores do projeto demonstraram que até datasets árabes bem conhecidos têm erros sistemáticos que distorcem os scores finais.
O que é QIMMA
O QIMMA combina 109 subconjuntos de 14 benchmarks originais em um sistema de avaliação unificado com mais de 52 mil exemplos. A cobertura é ampla: cultura, STEM, direito, medicina, segurança, poesia e literatura, além de programação. Segundo os autores, 99% do conteúdo no dataset é originalmente em árabe, não traduzido do inglês.
Isso importa porque testes traduzidos frequentemente quebram o contexto natural, tornam a formulação desajeitada e dão à modelo tarefas que refletem mal o uso real da língua árabe. Nesse contexto, QIMMA se posiciona não apenas como mais um ranking, mas como uma tentativa de resolver vários problemas antigos do NLP árabe: rankings fragmentados, baixa reprodutibilidade, falta de resultados linha por linha e respostas gold não verificadas. Os autores enfatizam ainda outra diferença: este é o primeiro ranking árabe com avaliação de código embutida.
Para isso, o sistema adicionou versões árabes adaptadas de HumanEval+ e MBPP+ para verificar não apenas o conhecimento de linguagem, mas também a capacidade da modelo de compreender tarefas de programação formuladas em árabe.
Como funciona a validação
A parte chave do projeto é um pipeline de validação em dois estágios. Antes de rodar as modelos, cada exemplo é verificado independentemente por duas modelos grandes: Qwen3-235B-A22B-Instruct e DeepSeek-V3-671B. Elas avaliam as tarefas em uma escala de dez critérios binários. Se pelo menos uma modelo atribui ao exemplo menos de 7 em 10, é considerado problemático: quando ambas as modelos concordam, tal exemplo é imediatamente excluído, e casos disputados são enviados para revisão manual por falantes nativos familiarizados com nuances regionais e dialetais.
QIMMA verifica benchmarks antes de avaliar modelos, para que os scores
finais reflitam a verdadeira qualidade dos LLMs árabes.
Para benchmarks de código, a equipe adotou uma abordagem diferente. Em vez de remover tarefas, os pesquisadores reescreveram as formulações árabes sem alterar identificadores, soluções de referência e conjuntos de testes. Em HumanEval+, corrigiram 145 de 164 prompts, ou seja, 88%, e em MBPP+ — 308 de 378, ou 81%. As correções abordaram vários aspectos:
- normalização da linguagem para árabe literário contemporâneo natural
- remoção de ambiguidades e esclarecimento de restrições
- alinhamento de terminologia, pontuação e formato de exemplos
- correção de erros estruturais como linhas quebradas e fragmentos de texto corrompidos
- esclarecimento de significado onde ranges ou condições eram ambíguas
Quais problemas foram encontrados
A revisão mostrou que não se tratava de erros isolados, mas de defeitos recorrentes nos próprios datasets. Por exemplo, em ArabicMMLU, a equipe descartou 436 exemplos, ou 3,1% do dataset, e em MizanQA — 41 exemplos, ou 2,3%. Havia taxas de defeito menores em algumas, mas o padrão se repetia entre datasets: erros em respostas corretas, texto ilegível, duplicatas, rótulos culturalmente controversos e desalinhamento entre resposta gold e método de avaliação.
Em outras palavras, alguns benchmarks árabes populares estavam sendo usados como se fossem livres de erros, quando não o eram. No dataset limpo, a líder foi Qwen3.5-397B-A17B-FP8 com uma pontuação média de 68,06.
Em segundo lugar — Karnak com 66,20, em terceiro — Jais-2-70B-Chat com 65,81. Notavelmente, os autores apontam que o tamanho do modelo não garante melhores resultados. Modelos especializados em árabe frequentemente têm melhor desempenho em tarefas culturais e linguísticas, enquanto sistemas multilíngues se saem melhor em codificação: Qwen3.
5-397B alcança os melhores resultados tanto em HumanEval+ quanto em MBPP+. Em outras palavras, QIMMA é útil não apenas como um ranking, mas como um mapa dos pontos fortes de diferentes arquiteturas.
O que isso significa
QIMMA faz um deslocamento simples mas importante: comparar LLMs sem verificar os próprios testes não é mais suficiente. Para o mercado árabe, isso pode se tornar um novo padrão de avaliação e, para desenvolvedores — um lembrete de que a qualidade do benchmark afeta a reputação do modelo tanto quanto o modelo em si.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.