Kaggle تحت إدارة Google DeepMind تطلق Benchmarks SDK لمقارنة نماذج الذكاء الاصطناعي الكبيرة
لم تعد Kaggle مجرد منصة لمسابقات علوم البيانات. في عام 2026، وتحت مظلة Google DeepMind، أطلقت المنصة قسم Benchmarks وSDK مفتوح المصدر لإنشاء مجموعات اختبار…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
كاغل، منصة يعرفها ملايين متخصصي علم البيانات باعتبارها الساحة الرئيسية لمسابقات التعلم الآلي، تغير هويتها. شعار "بيتك لعلم البيانات" تنازل عن مكانه لـ "ساحة اختبار الذكاء الاصطناعي العالمية" — وهذا ليس مجرد إعادة تسمية تسويقية. في عام 2026، انتقلت كاغل رسمياً تحت إدارة حدود الذكاء الاصطناعي (AI Frontier) — قسم جديد من جوجل ديب مايند.
يعني تغيير المشرف تغييراً في التركيز الاستراتيجي. كاغل لم تعد مجرد مكان لمسابقات التنبؤ أو تصنيف الصور. الآن مهمة المنصة هي التقييم المنهجي للنماذج اللغوية الكبيرة والمتعددة الأنماط في ظروف موحدة.
التحديث التقني الرئيسي — قسم جديد للمعايير (Benchmarks) على الموقع وحزمة تطوير كاغل للمعايير مفتوحة المصدر على جيت هب. هذا إطار عمل شامل لإنشاء والتحكم في مجموعات الاختبار وتشغيلها. الميكانيكا بسيطة: يصف الباحث اختباراً — بيانات الإدخال والنتيجة المتوقعة ومقياس الجودة — يجمع عدة اختبارات في مجموعة، وتصبح هذه المجموعة معياراً.
تتولى حزمة التطوير تشغيل النماذج في ظروف متساوية وتنتج النتيجة: السجلات و JSON وجداول المقارنة واللوحات الترتيبية. تسمح مرونة النظام بتنفيذ أي ميكانيكا اختبار تقريباً — من الدقة الكلاسيكية إلى المهام المعقدة متعددة الخطوات مع تقييم التفكير. في الوقت ذاته، يمكن الاحتفاظ ببيانات المعايير والأكواس في مجموعات بيانات خاصة مغلقة أمام الوصول العام.
يمكن للشركات إنشاء معايير داخلية لتقييم النماذج دون الكشف للمنافسين عن المنهجية وحالات الاختبار. إذا أرادوا — سيجعلون المعيار عاماً، ويصبح معياراً مشتركاً للمجتمع. لماذا هذا مهم الآن؟ مشكلة التقييم العادل لنماذج الذكاء الاصطناعي حادة جداً.
المعايير العامة الشهيرة — MMLU و HumanEval و GPQA وغيرها — ينتقدها الجميع بانتظام: تسرب البيانات منها إلى مجموعات التدريب، والنماذج تأخذ فعلياً الاختبار بواسطة الغش بدلاً من إظهار القدرات الحقيقية. تنشئ المختبرات الكبيرة اختبارات داخلية مغلقة — لكن الفرق الصغيرة والمجموعات الأكاديمية لا تملك هذه البنية التحتية. تجعل حزمة كاغل للمعايير هذه الأدوات متاحة.
تحصل جوجل ديب مايند على مزايا واضحة من تحول المنصة. تصبح كاغل بمجتمعها ذي الملايين مكاناً لإظهار قدرات نماذجها الخاصة مقارنة بالمنافسين — في ظروف يُنظر إليها على أنها محايدة. للمجتمع أيضاً فوائد واضحة: سابقاً، كان إنشاء معيار قابل للتكرار وعادل يتطلب عملاً هندسياً جاداً، الآن يمكن الوصول إليه عبر حزمة تطوير قياسية.
الحنين إلى كاغل القديمة مفهوم. الأوقات التي كانت فيها نصر XGBoost المضبوط بشكل صحيح على شبكة عصبية على البيانات الجدولية حساً قد مضت. تحول مهمة الصناعة: من "من يتنبأ بدقة أكثر" — إلى "كيف نقيس بشكل موضوعي ما تفعله نموذج كبير".
تتكيف كاغل مع هذا التحول، وحسب حجم التغييرات، تعتزم أن تصبح معيار هذا القياس.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.