Hugging Face Blog→ оригинал

TII introduced QIMMA — an Arabic LLM leaderboard with benchmark quality checks

TII launched QIMMA, a new leaderboard for Arabic LLMs where the tests themselves are cleaned and validated before models are evaluated. The set includes 109 sub

TII introduced QIMMA — an Arabic LLM leaderboard with benchmark quality checks
Источник: Hugging Face Blog. Коллаж: Hamidun News.
◐ Слушать статью

TII запустил QIMMA — новый лидерборд для арабских LLM, который меняет сам подход к оценке моделей: сначала команда проверяет качество бенчмарков, а уже потом публикует результаты. Авторы проекта показали, что даже у известных арабских наборов данных есть системные ошибки, которые искажают итоговые баллы.

Что такое QIMMA QIMMA объединяет 109 подмножеств из 14 исходных

бенчмарков в единую систему оценки размером более 52 тысяч примеров. Покрытие широкое: культура, STEM, право, медицина, безопасность, поэзия и литература, а также программирование. По словам авторов, 99% контента в наборе изначально арабоязычный, а не переведённый с английского.

Это важно, потому что именно переводные тесты часто ломают естественный контекст, делают формулировки неуклюжими и дают модели задания, которые плохо отражают реальное использование арабского языка. На этом фоне QIMMA позиционируется не просто как ещё одна таблица с баллами, а как попытка закрыть сразу несколько старых проблем арабского NLP: разрозненные лидерборды, слабую воспроизводимость, отсутствие построчных результатов и непроверенные gold-ответы. Авторы отдельно подчеркивают ещё одно отличие: это первый арабский лидерборд, куда встроена оценка кода.

Для этого в систему добавили адаптированные арабские версии HumanEval+ и MBPP+, чтобы проверять не только знание языка, но и способность модели понимать задачи на программирование, сформулированные по-арабски.

Как идет проверка Ключевая часть проекта — двухэтапный пайплайн валидации.

До запуска моделей каждый пример независимо проверяют две большие модели: Qwen3-235B-A22B-Instruct и DeepSeek-V3-671B. Они оценивают задания по шкале из десяти бинарных критериев. Если хотя бы одна модель ставит примеру меньше 7 из 10, он считается проблемным: при согласии двух моделей такой пример сразу исключают, а спорные случаи отправляют на ручную проверку носителям языка, знакомым с региональными и диалектными нюансами.

QIMMA проверяет бенчмарки до оценки моделей, чтобы итоговые баллы отражали реальное качество арабских LLM.

Для кодовых бенчмарков команда пошла другим путём. Вместо удаления задач исследователи переписывали арабские формулировки, не меняя идентификаторы, эталонные решения и тестовые наборы. В HumanEval+ они исправили 145 из 164 промптов, то есть 88%, а в MBPP+ — 308 из 378, или 81%.

Правки касались нескольких вещей: нормализации языка до естественного современного литературного арабского снятия двусмысленностей и уточнения ограничений выравнивания терминологии, пунктуации и формата примеров исправления структурных ошибок вроде битых строк и повреждённых фрагментов текста * уточнения смысла там, где диапазоны или условия читались неоднозначно ## Какие проблемы нашли Проверка показала, что речь идёт не о единичных промахах, а о повторяющихся дефектах в самих наборах данных. Например, в ArabicMMLU команда отбросила 436 примеров, или 3,1% датасета, а в MizanQA — 41 пример, или 2,3%. Были и более низкие доли брака, но картина повторялась в разных наборах: ошибки в правильных ответах, нечитаемый текст, дубли, культурно спорные метки и несоответствие между gold-ответом и способом оценки.

Иными словами, часть популярных арабских бенчмарков до сих пор использовалась как будто они безошибочны, хотя это не так. На очищенном наборе лидером стал Qwen3.5-397B-A17B-FP8 со средним баллом 68,06.

На втором месте — Karnak с 66,20, на третьем — Jais-2-70B-Chat с 65,81. При этом авторы отдельно отмечают, что размер модели не гарантирует лучшего результата. Арабскоспециализированные модели часто сильнее на культурных и языковых задачах, тогда как в кодинге лучше выступают мультиязычные системы: у Qwen3.

5-397B лучшие результаты и на HumanEval+, и на MBPP+. То есть QIMMA полезен не только как рейтинг, но и как карта сильных сторон разных архитектур.

Что это значит QIMMA делает простой, но важный сдвиг: сравнивать LLM

без проверки самих тестов уже недостаточно. Для арабского рынка это может стать новым стандартом оценки, а для разработчиков — напоминанием, что качество бенчмарка влияет на репутацию модели не меньше, чем сама модель.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…