الرمز الثقافي الروسي كاختبار للشبكات العصبية: شوريك وpanelki وNano Banana
أنشأ مطور على Habr معيارًا مصغرًا للشبكات العصبية: بدلًا من المقاييس الأكاديمية، يعتمد على شوريك وpanelki السوفيتية والدكتور Livesey. وجاءت الفكرة بعد أن…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
اختبر مطوّر عدة نماذج للذكاء الاصطناعي لتوليد الصور قدرتها على فهم الرمز الثقافي الروسي — الأبنية السوفييتية متعددة الطوابق والشخصية شوريك والدكتور ليفسي. ليس من الناحية الأكاديمية، بل "بالعين المجردة": تنظر إلى الصورة فتدرك فوراً ما إذا كانت النموذج قد فهمت الأجواء.
الفكرة: الأجواء بدلاً من المقاييس
كل شيء بدأ مع نانو بانانا. طلب المؤلف من النموذج أن ترسم مشهداً سريالياً بخلفية من الأبنية السوفييتية متعددة الطوابق — لم تقتصر النموذج على تصوير المباني فحسب، بل نقلت الأجواء بدقة. وهذا أصبح سبباً لإنشاء اختبار صغير: ليس بآلاف الأوامر، وليس بدرجات الـ FID، وليس بالجداول الأكاديمية. مجرد مجموعة من الصور المعروفة بصرياً — ومقارنة النتائج مباشرة.
الرمز الثقافي الروسي يصعب فهمه من الخارج. الأبنية متعددة الطوابق ليست مجرد نوع من السكن، بل هي سرد بصري كامل: المساحة السوفييتية والساحات والمقاعد الباهتة ورائحة الصيف. شوريك ليس مجرد طالب يرتدي نظارات، بل هو نموذج أولي من الكوميديا السوفييتية بطاقة معينة. الدكتور ليفسي هو نكتة إنترنت عن كيفية المشي كأنك النجم الرئيسي في أي غرفة. إذا كانت النموذج لا "تعرف" هذه الصور من الداخل، فستكون الصور صحيحة من الناحية التقنية، لكن الشعور سيكون خاطئاً.
اختبارات بصرية من هذا النوع لا تزال نادرة — معظم الاختبارات تركز على النص والمنطق والحقائق. لكن بالنسبة للنماذج التي ترسم، فهم الثقافة البصرية أكثر أهمية من التهجئة الصحيحة لكلمة "بانيلكا".
الأوامر من الحياة الواقعية
في الاختبار، استخدم المؤلف عدة مشاهد مشحونة ثقافياً:
- الأبنية السوفييتية متعددة الطوابق — الساحة والمقاعد والمرائب والصيف
- شوريك من "العملية واي" — طالب يرتدي نظارات يشتري شاورما "وهو يسير"
- الدكتور ليفسي بمشيته المميزة من النكتة الفيروسية
- الجمالية الفناء ما بعد السوفييتية بشكل عام
لا أحد من الأوامر يشرح السياق بالتفصيل — وهذا تماماً ما يختبره: كم "امتصت" النموذج من الطبقة الثقافية، بدلاً من معرفة الكلمات فقط. الاختبار الجيد هو الذي لا يحتوي على تلميحات.
حيث تتعثر النماذج
النماذج الغربية، المدربة بشكل أساسي على محتوى باللغة الإنجليزية، تعيد إنتاج "السوفييتي" من خلال الصور النمطية: مظلمة جداً، صناعية جداً، بدون حيوية. شوريكهم هو طالب غربي نموذجي يرتدي نظارات، بدون العفوية السوفييتية. تبدو الأبنية متعددة الطوابق مثل عالم ديستوبيا، وليست حنيناً.
المشكلة ليست في جودة الرسم — بل في أن النموذج تنظر إلى الثقافة من الخارج.
"لم تقتصر على رسم الأبنية متعددة الطوابق، ولم تقتصر على تنفيذ الأمر
بشكل مثالي، بل نقلت الأجواء والجو العام بدقة"، يكتب المؤلف عن نانو بانانا.
أثبتت نانو بانانا في هذا الاختبار أنها الأقرب إلى "من الداخل": النموذج مدربة على مواد بصرية ما بعد سوفييتية كافية لإعادة إنتاج الشعور وليس فقط الشكل. هذا نادر بين نماذج توليد الصور التجارية.
لماذا هذا مهم
معظم الاختبارات تقيّم المنطق والمعرفة الواقعية والقدرات اللغوية. تبقى الدقة الثقافية في منطقة عمياء — خاصة بالنسبة للثقافات غير اللاتينية. في الوقت نفسه، هذا هو بالضبط ما يحدد مدى فائدة النموذج للمهام المحلية: التصميم والمحتوى والتعليم والتسويق. الاختبارات "الشعبية" هي طريقة سريعة وصادقة لرؤية الفجوة التي لا تلتقطها المقاييس الأكاديمية.
إذا لم تفهم النموذج لماذا يأخذ شوريك الشاورما على وجه التحديد "وهو يسير"، فإنها لا تفهم الثقافة — حتى لو كتبت باللغة الروسية بدون أخطاء.
ماذا يعني هذا
الرمز الثقافي هو معامل مقلل الأهمية لتقييم الشبكات العصبية. فهم اللغة ≠ فهم الثقافة. بالنسبة للمستخدمين الناطقين بالروسية، هذا يعني أن اختيار النموذج يستحق التحقق لا فقط من خلال MMLU أو HumanEval، بل من خلال "شوريك والشاورما" — ورؤية ما يخرج.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.