البجع على الدراجات: اختبار سايمون ويليسون الفريد لنماذج اللغة الكبيرة
يختبر سايمون ويليسون نماذج اللغة الكبيرة بطلب بسيط: «أنشئ رسم بجعة بصيغة SVG على دراجة». للوهلة الأولى، يبدو الأمر فكاهيًا بلا فائدة عملية. لكن النتائج تكشف…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
ابتكر سايمون ويليسون، مبتكر إطار العمل Django، طريقة غير عادية لاختبار نماذج اللغة الكبيرة: طلب من الشبكة العصبية رسم بجعة بصيغة SVG على دراجة. للوهلة الأولى، يبدو الأمر وكأنه نكتة، لكن النتائج اتضح أنها أكثر إفادة من العديد من المقاييس المرجعية الجادة.
مصدر اختبار البجع
الفكرة بسيطة: القدرة على رسم بصيغة SVG وفهم الصور المركبة المعقدة (بجعة + دراجة + حركة) تكشف عن الحدود الحقيقية لقدرات الذكاء الاصطناعي. يتطلب SVG كودًا منظمًا وليس مجرد التنبؤ بالرموز. الأمر يشبه طلب من الذكاء الاصطناعي ليس فقط التفكير بل والبناء أيضًا - تجسيد الأفكار في صيغة محددة. اتضح أن كل نسخة جديدة تقريبًا من نماذج اللغة الكبيرة تفسر المهمة بطريقتها الخاصة: البعض ينتج SVG صحيحًا من حيث بناء الجملة مع بجعة قابلة للتعرف من الناحية التشريحية، والبعض الآخر ينشئ طيورًا غريبة الأطوار بهندسة تقريبية، والثالث يخلط بين الدراجة وراكب الدراجة أو يرسم شيئًا غير متوقع تمامًا.
ما الذي يكشفه الاختبار
يكشف الاختبار عدة معاملات نموذج في الحال دون استخدام المقاييس الكلاسيكية:
- فهم الهندسة والنسب والفضاء
- القدرة على توليد كود منظم وعامل
- تفسير الصور المركبة (حيوان + كائن + إجراء في واحد)
- الإبداعية والقدرة على الحلول غير التقليدية
- السيطرة على التفاصيل والقدرة على الاحتفاظ بالسياق
على الرغم من أن البجعة بصيغة SVG لا تساعد بشكل مباشر في تقييم الأداء على المهام الإنتاجية، فإن النتائج غالبًا ما ترتبط بالقوة الإجمالية وقابلية الفهم للنموذج.
على الروسية: القطط التي تكود
أعاد مؤلفو المقالة على Habr التحقق من التجربة باللغة الروسية بطلب «أنشئ رسم قطة بصيغة SVG تكتب الأكواد». اختلفت النتائج عن النسخة الإنجليزية: النماذج الناطقة بالروسية تفسر المهمة بطريقة جديدة. البعض يضيف كمبيوتر محمول في مخالب القطة، والبعض الآخر يرسم شاشة بها أكواد في المخالب، والثالث ينشئ قطة جالسة على طاولة أمام شاشة. يوضح هذا أن السياق الثقافي وخصائص اللغة تؤثر على تفسير المهمة حتى على مستوى الكائنات الهندسية الأساسية والسيناريوهات.
ماذا يعني هذا
اختبار SVG لويليسون هو تذكير بأن تقييم قدرات نماذج اللغة الكبيرة لا يقتصر على المقاييس المرجعية القياسية والمجموعات المدربة. في بعض الأحيان، تكشف أبسط الأسئلة والأسئلة الفكاهية حدود قدرات الشبكات العصبية بصراحة أكثر من الاختبارات المهنية المعقدة. وكل نموذج جديد يمر بهذا الاختبار بطريقته الخاصة، تاركًا آثارًا لـ «تفكيره».
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.