Habr AI→ المصدر

جمعت Beeline Cloud اختبارات AI معيارية غير معتادة: من غرف الهروب إلى لعب دور "الإنسان"

يتم اختبار نماذج LLM بشكل متزايد ليس عبر مسائل مدرسية، بل عبر سيناريوهات غريبة من الحياة الواقعية. وتتضمن قائمة Beeline Cloud غرف هروب تضم عناصر زائدة،…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
جمعت Beeline Cloud اختبارات AI معيارية غير معتادة: من غرف الهروب إلى لعب دور "الإنسان"
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

المعايير الكلاسيكية لنماذج اللغة الكبيرة غالباً ما تقيس المعرفة الحقائقية والقدرة على حل المهام وفقاً لنمط معين، لكنها تفشل بشكل متزايد في شرح كيف يتصرف النموذج في ظروف حقيقية. لذلك يبتكر الباحثون والشركات بشكل متزايد اختبارات غريبة، شبه لعبية تقريباً: من الهروب من غرفة الألغاز إلى محاولة تمثيل إنسان بشكل مقنع وسط برامج روبوتية أخرى.

الألغاز والفخاخ

أحد الأمثلة الأكثر إيضاحاً هو معيار المهندس جايمين ها. فيه تجد النماذج نفسها في نسخة نصية من غرفة ألغاز: يتلقون وصفاً للمساحة والأشياء المتاحة ومهمة يجب حلها مع مراعاة قيود العالم الفيزيائي. على سبيل المثال، استخراج كرة تنس الطاولة من أنبوب ضيق أو سحب جرة تحتوي على كلمة مرور من فتحة ضيقة.

هذا التنسيق لا يستهدف المعرفة الموسوعية، بل القدرة على مراعاة السياق وخصائص الأشياء وتسلسل الإجراءات. والنقطة أيضاً أنه بجانب الأشياء المفيدة توجد عناصر تشتت الانتباه. يجب على النموذج ليس فقط أن يقترح تفكيراً أنيقاً، بل أن يفصل الأداة الفعالة عن القمامة.

في الاختبارات، كانت GPT-4 و Claude 3.5 Haiku تفهمان أحياناً فكرة الحل لكنهما تتحيران في التفاصيل: تحاولان استخدام مسطرة غير ضرورية، أو تسلسلان الخطوات بشكل غير صحيح، أو تضيفان إجراءات غير ضرورية. هذا مثال جيد على كيفية أن نماذج اللغة الكبيرة تعثر ليس على المنطق بشكل عام، بل على المنطق التطبيقي.

الهجمات والتصميم

متجه آخر هو الأمان. لا يسأل معيار SCAM من 1Password النموذج عما إذا كانت الرسالة تبدو مثل محاولة اختراق، بل يحاكي عبء العمل الفعلي: رسائل واردة، روابط مريبة، صفحات دخول مزيفة والهندسة الاجتماعية. في مثال إيضاحي، يسلم Gemini 2.5 Flash كلمة مرور لموقع مزيف في عشر ثوان. بالنسبة للمؤلفين، هذا يهم أكثر من أي مقياس أكاديمي: يجب على الوكيل ليس فقط تصنيف التهديد، بل عدم الوقوع فيه أثناء التنفيذ.

  • التفكير الفيزيائي في مساحة محدودة
  • المقاومة للتصيد الاحتيالي والحقن الموجه
  • جودة الواجهات وتجربة المستخدم الناتجة
  • سلوك النموذج في مجموعة حيث يجب أن يبدو كإنسان

يتضمن SCAM 30 سيناريو من تسع فئات تهديد، والقادة في تصنيف فبراير، Claude Opus 4.6 و GPT-5.2، اعترفوا بالحالات الخطرة بنسبة 92% و81%. بعد التعزيز بموجه نظام، ارتفعت الدرجات إلى 98% و97%.

جنباً إلى جنب مع هذا توجد نوع مختلف تماماً من الاختبار—Design Arena، حيث تتنافس النماذج في إنشاء واجهات وألعاب وتصورات، ويختار الفائزين الأشخاص بشكل عمياني باستخدام نظام تقييم Elo. هنا، لا يتم اختبار إجابة صحيحة واحدة، بل جودة المنتج النهائي. يعمل هذا النهج بشكل جيد حيث تفشل المقاييس الرسمية. في أحد البطولات، طُلب من النماذج إنشاء لعبة إطلاق نار بأجانب للمتصفح: لم تعمل نسخة واحدة على الإطلاق، والأخرى أنتجت لعبة كاملة مع تطور الصعوبة والترقيات. فيما بعد، استخدم الباحثون المنصة للتحقق من نتائج معيار OpenDesign الخاص بهم مقابل تقييمات المجتمع وحصلوا على توافق حوالي 60–80%. هذه ليست دقة مثالية، لكنها معايرة مفيدة للمهام حيث لا يمكن تقليل الذوق والراحة إلى رقم واحد.

التنكر كإنسان

هناك أيضاً تنسيقات تجريبية تماماً. في لعبة اجتماعية واحدة، حاولت واحد وعشرون نموذج لغة بالتناوب معرفة من بين المشاركين كان إنساناً، على الرغم من أنه في الواقع لم تكن هناك أشخاص أحياء في الغرفة على الإطلاق. تتكون كل جلسة من ستة نماذج تم اختيارها عشوائياً، واعتبر الفائزون آخر اثنين لم يتم التصويت عليهم للخروج. كانت النتيجة ليست معياراً نموذجياً للمعرفة، بل اختباراً للتكيف الاجتماعي وأسلوب التواصل والقدرة على عدم الكشف عن طبيعتها الآلية.

حاول كل نظام ذكاء اصطناعي إثبات أنه هو المخلوق من لحم وعظام.

كانت Claude Sonnet 4.5 الأداء الأفضل في هذه البطولة الغريبة: فازت في 53% من الجولات. يليها Gemini 2.0 Flash بنسبة 49.2%، و Claude 3 Haiku انتهت بها الحال في أسفل الجدول بنسبة 6.7%. طلب الباحثون حتى من Gemini 2.5 Pro تحليل إجابات الخصوم وتقديم اقتراحات حول كيفية التنكر بشكل فعال كإنسان. نجحت النصيحة لبعض: حققت GPT-4o مكاسب ملحوظة، فائزة تقريباً بنسبة 12% أكثر، بينما انخفضت نتائج Claude 3 Haiku. الخلاصة غير مريحة للصناعة: قد يبدو النموذج مقنعاً لكنه لا يزال يتصرف بشكل غير طبيعي في الحوار الحي.

ماذا يعني هذا

المعايير غير المعتادة مفيدة لأنها تختبر نماذج اللغة الكبيرة حيث الاختبارات الكلاسيكية تصمت: في بيئات ذات قيود فيزيائية وتهديدات وتقييم ذاتي وضغط اجتماعي. لكنها أيضاً ليست خالية من العيوب: مجموعات المهام نفسها تحتوي أحياناً على صياغة غامضة وإجابات قابلة للنقاش. لذلك فإن أفضل سيناريو ليس إيجاد اختبار واحد نهائي، بل تجميع مجموعة من الفحوصات المخصصة للمنتج ومراقبة سلوك النموذج في عدة أوضاع في نفس الوقت.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…