قدمت TII QIMMA — لوحة صدارة لـ LLM العربية مع التحقق من جودة الـ benchmarks

Q: ما هو المصدر؟

نُشر أصلاً على Hugging Face Blog. يعالج Hamidun News المواد ويكيّفها بالذكاء الاصطناعي.

Q: متى نُشر؟

2 مايو 2026. وقت القراءة: 3 دقيقة.

أطلقت TII QIMMA، وهي لوحة صدارة جديدة لـ LLM العربية تُنظَّف فيها الاختبارات نفسها وتُتحقَّق أولًا قبل تقييم النماذج. وتضم المجموعة 109 مجموعات فرعية من 14…

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · Hugging Face Blog

2 مايو 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News

قدمت TII QIMMA — لوحة صدارة لـ LLM العربية مع التحقق من جودة الـ benchmarks — المصدر: Hugging Face Blog. كولاج: Hamidun News.

◐ استمع للمقال

أطلقت مؤسسة TII نظام QIMMA — لائحة ترتيب جديدة لنماذج اللغة الكبيرة العربية تحول طريقة تقييم النماذج: تتحقق الفريق أولاً من جودة المعايير، وفقط بعد ذلك تنشر النتائج. أثبت مؤلفو المشروع أنه حتى مجموعات البيانات العربية المعروفة تحتوي على أخطاء منهجية تشوه النتائج النهائية.

ما هو QIMMA

يجمع نظام QIMMA 109 مجموعة فرعية من 14 معيار أساسي في نظام تقييم موحد يحتوي على أكثر من 52 ألف مثال. التغطية واسعة: الثقافة والعلوم والتكنولوجيا والهندسة والرياضيات والقانون والطب والأمان والشعر والأدب وكذلك البرمجة. وفقاً لمؤلفي المشروع، فإن 99% من المحتوى في مجموعة البيانات أصلي باللغة العربية وليس مترجماً من الإنجليزية.

هذا مهم لأن الاختبارات المترجمة غالباً ما تكسر السياق الطبيعي وتجعل الصياغة محرجة وتعطي النماذج مهام لا تعكس بشكل جيد الاستخدام الحقيقي للغة العربية. في هذا السياق، يضع QIMMA نفسه ليس فقط كلائحة ترتيب أخرى، بل كمحاولة لحل عدة مشاكل قديمة في معالجة اللغة الطبيعية العربية: لوائح الترتيب المجزأة والقابلية الضعيفة للتكرار وعدم وجود نتائج سطر بسطر والإجابات المرجعية غير المتحقق منها. يؤكد المؤلفون بشكل خاص على فرق آخر: هذه هي لائحة الترتيب العربية الأولى التي تتضمن تقييم الكود المدمج.

ولتحقيق ذلك، أضاف النظام إصدارات عربية معدلة من HumanEval+ و MBPP+ للتحقق ليس فقط من معرفة اللغة بل أيضاً من قدرة النموذج على فهم مهام البرمجة المصيغة باللغة العربية.

كيفية عمل التحقق

الجزء الرئيسي من المشروع هو خط أنابيب التحقق على مرحلتين. قبل تشغيل النماذج، يتم التحقق من كل مثال بشكل مستقل من قبل نموذجين كبيرين: Qwen3-235B-A22B-Instruct و DeepSeek-V3-671B. يقيمان المهام على مقياس من عشرة معايير ثنائية. إذا أعطى أحد النموذج المثال أقل من 7 من أصل 10، يعتبر مشكلاً: عندما يتفق النموذجان، يتم استبعاد هذا المثال على الفور، والحالات المثيرة للخلاف ترسل للمراجعة اليدوية من قبل المتحدثين الأصليين الذين يعرفون الفروقات الإقليمية واللهجية.

يتحقق QIMMA من المعايير قبل تقييم النماذج، بحيث تعكس النتائج النهائية

الجودة الحقيقية لنماذج اللغة الكبيرة العربية.

بالنسبة لمعايير الكود، اتخذ الفريق نهجاً مختلفاً. بدلاً من حذف المهام، أعاد الباحثون صياغة الصيغ العربية دون تغيير المعرّفات والحلول المرجعية ومجموعات الاختبار. في HumanEval+، صححوا 145 من أصل 164 استدعاء، أي 88%، وفي MBPP+ — 308 من أصل 378، أي 81%. تناولت التصحيحات عدة جوانب:

تطبيع اللغة إلى العربية الأدبية المعاصرة الطبيعية
إزالة الغموض وتوضيح القيود
محاذاة المصطلحات والعلامات الترقيمية وتنسيق الأمثلة
تصحيح الأخطاء الهيكلية مثل السطور المكسورة والأجزاء النصية التالفة
توضيح المعنى حيث كانت النطاقات أو الشروط غامضة

ما هي المشاكل التي تم العثور عليها

أظهر التحقق أنها لم تكن أخطاء معزولة بل عيوب متكررة في مجموعات البيانات نفسها. على سبيل المثال، في ArabicMMLU، استبعد الفريق 436 مثال، أي 3.1% من مجموعة البيانات، وفي MizanQA — 41 مثال، أي 2.

3%. كانت هناك معدلات عيوب أقل في البعض، لكن النمط تكرر عبر مجموعات البيانات: أخطاء في الإجابات الصحيحة ونصوص غير قابلة للقراءة وتكرارات وعلامات مثيرة للخلاف ثقافياً وعدم توافق بين الإجابة المرجعية وطريقة التقييم. بمعنى آخر، كانت بعض المعايير العربية الشهيرة تستخدم كما لو كانت خالية من الأخطاء، بينما لم تكن كذلك.

على مجموعة البيانات النظيفة، كان المتصدر هو Qwen3.5-397B-A17B-FP8 برصيد متوسط 68.06.

في المركز الثاني — Karnak برصيد 66.20، في الثالث — Jais-2-70B-Chat برصيد 65.81.

بشكل ملحوظ، يشير المؤلفون إلى أن حجم النموذج لا يضمن نتائج أفضل. غالباً ما تتفوق النماذج المتخصصة في العربية في المهام الثقافية واللغوية، بينما تتفوق الأنظمة متعددة اللغات في البرمجة: يحقق Qwen3.5-397B أفضل النتائج على كل من HumanEval+ و MBPP+.

بمعنى آخر، QIMMA مفيد ليس فقط كترتيب بل كخريطة لنقاط القوة في بنى معمارية مختلفة.

ماذا يعني هذا

يقدم QIMMA تحولاً بسيطاً لكن مهماً: فمقارنة نماذج اللغة الكبيرة دون التحقق من الاختبارات نفسها لم تعد كافية. بالنسبة للسوق العربي، قد يصبح هذا معياراً جديداً للتقييم، وللمطورين — تذكير بأن جودة المعايير تؤثر على سمعة النموذج بقدر تأثير النموذج نفسه.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية