Hugging Face Blog→ original

TII presentó QIMMA — un leaderboard de LLM árabes con verificación de la calidad de los benchmarks

TII lanzó QIMMA, un nuevo leaderboard para LLM árabes en el que primero se limpian y validan las pruebas y solo después se evalúan los modelos. El conjunto…

Procesado por IA desde Hugging Face Blog; editado por Hamidun News
TII presentó QIMMA — un leaderboard de LLM árabes con verificación de la calidad de los benchmarks
Fuente: Hugging Face Blog. Collage: Hamidun News.
◐ Escuchar artículo

TII lanzó QIMMA — un nuevo ranking para LLMs árabes que transforma el enfoque para evaluar modelos: el equipo primero verifica la calidad de los benchmarks y solo después publica los resultados. Los autores del proyecto demostraron que incluso datasets árabes bien conocidos tienen errores sistemáticos que distorsionan los scores finales.

Qué es QIMMA

QIMMA combina 109 subconjuntos de 14 benchmarks originales en un sistema de evaluación unificado con más de 52 mil ejemplos. La cobertura es amplia: cultura, STEM, derecho, medicina, seguridad, poesía y literatura, además de programación. Según los autores, el 99% del contenido en el dataset es originalmente en árabe, no traducido del inglés.

Esto importa porque las pruebas traducidas frecuentemente rompen el contexto natural, hacen el planteamiento torpe y dan a los modelos tareas que reflejan mal el uso real del árabe. En este contexto, QIMMA se posiciona no solo como otro ranking, sino como un intento de resolver varios problemas antiguos del NLP árabe: rankings fragmentados, baja reproducibilidad, falta de resultados línea por línea y respuestas gold sin verificar. Los autores enfatizan además otra diferencia: este es el primer ranking árabe con evaluación de código integrada.

Para lograrlo, el sistema añadió versiones árabes adaptadas de HumanEval+ y MBPP+ para verificar no solo el conocimiento del lenguaje, sino también la capacidad del modelo para entender tareas de programación formuladas en árabe.

Cómo funciona la validación

La parte clave del proyecto es un pipeline de validación en dos etapas. Antes de ejecutar los modelos, cada ejemplo es verificado independientemente por dos modelos grandes: Qwen3-235B-A22B-Instruct y DeepSeek-V3-671B. Evalúan las tareas en una escala de diez criterios binarios. Si al menos un modelo da al ejemplo menos de 7 de 10, se considera problemático: cuando ambos modelos están de acuerdo, tal ejemplo se excluye inmediatamente y los casos disputados se envían a revisión manual por hablantes nativos familiarizados con los matices regionales y dialectales.

QIMMA verifica los benchmarks antes de evaluar modelos, para que los

scores finales reflejen la verdadera calidad de los LLMs árabes.

Para benchmarks de código, el equipo tomó un enfoque diferente. En lugar de eliminar tareas, los investigadores reescribieron las formulaciones árabes sin cambiar identificadores, soluciones de referencia y conjuntos de pruebas. En HumanEval+, corrigieron 145 de 164 prompts, es decir, el 88%, y en MBPP+ — 308 de 378, o el 81%. Las correcciones abordaron varios aspectos:

  • normalización del lenguaje al árabe literario contemporáneo natural
  • eliminación de ambigüedades y aclaración de restricciones
  • alineación de terminología, puntuación y formato de ejemplos
  • corrección de errores estructurales como líneas rotas y fragmentos de texto corruptos
  • aclaración de significado donde rangos o condiciones eran ambiguos

Qué problemas se encontraron

La revisión mostró que no se trataba de errores aislados, sino de defectos recurrentes en los propios datasets. Por ejemplo, en ArabicMMLU, el equipo descartó 436 ejemplos, o el 3,1% del dataset, y en MizanQA — 41 ejemplos, o el 2,3%. Había tasas de defecto menores en algunos, pero el patrón se repetía en todos los datasets: errores en respuestas correctas, texto ilegible, duplicados, etiquetas culturalmente controvertidas y desajuste entre respuesta gold y método de evaluación.

En otras palabras, algunos benchmarks árabes populares se estaban usando como si fueran libres de errores, cuando no lo eran. En el dataset limpio, la líder fue Qwen3.5-397B-A17B-FP8 con una puntuación promedio de 68,06.

En segundo lugar — Karnak con 66,20, en tercero — Jais-2-70B-Chat con 65,81. Significativamente, los autores señalan que el tamaño del modelo no garantiza mejores resultados. Los modelos especializados en árabe frecuentemente tienen mejor desempeño en tareas culturales y lingüísticas, mientras que los sistemas multilingües se desempeñan mejor en codificación: Qwen3.

5-397B logra los mejores resultados tanto en HumanEval+ como en MBPP+. En otras palabras, QIMMA es útil no solo como un ranking, sino como un mapa de las fortalezas de diferentes arquitecturas.

Lo que esto significa

QIMMA realiza un cambio simple pero importante: comparar LLMs sin verificar las propias pruebas ya no es suficiente. Para el mercado árabe, esto podría convertirse en un nuevo estándar de evaluación, y para los desarrolladores — un recordatorio de que la calidad del benchmark afecta la reputación del modelo tanto como el modelo en sí.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…