حاول DeepSeek وQwen اجتياز "Everlasting Summer" لكنهما علقا في المتاهة
اختُبرت نماذج LLM محلية في "Everlasting Summer": رُبطت اللعبة المبنية على Ren’Py مع Ollama عبر جسر TCP، وطُلب من النماذج اختيار الردود والمسارات. تقنيًا نجحت…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
وصفت مدونة Selectel على Habr تجربة تم فيها ربط نماذج لغة كبيرة محلية برواية بصرية "الصيف اللانهائي" وإجبارها على اتخاذ قرارات الحبكة بدلاً من اللاعب. من الناحية التقنية عملت المحاولة، لكن في الممارسة العملية حتى النماذج القوية كانت غالباً ما تخطئ في الإجابات وتتباطأ على السياق الطويل وتقود القصة إلى نهايات غير ناجحة.
كيفية إعداد الاختبار
اختاروا "الصيف اللانهائي" تحديداً لأن الرواية البصرية تتكون تقريباً بالكامل من نصوص، مما يعني أنها تستفيد من نقاط القوة في نماذج اللغة الكبيرة. اللعبة لها 13 نهاية مختلفة، وعلاقات الشخصيات تتغير حسب الحوار والإجراءات، لذا أثبت هذا الشكل أنه حقل اختبار مناسب للتحقق من كيفية تصرف النموذج في حوار حبكة طويل. والميزة الإضافية أن بعض النماذج المحلية لم تكن تعرف هذه اللعبة مسبقاً ولا يمكنها ببساطة "تذكر" الحركات الصحيحة.
تم بناء الجانب التقني حول Ren'Py، محرك اللعبة. أضاف المؤلف ملف bridge.rpy إلى المشروع، وأطلق خادم TCP داخل اللعبة واعترض الوظائف الأساسية: إخراج الحوار عبر say، قوائم الاختيار عبر display_menu وتفاعلات الخريطة عبر store. بهذه الطريقة بدأت اللعبة بإرسال كل الحوار إلى الخارج، بينما قام منسق خارجي باتخاذ القرارات بدلاً من الإنسان. كانت النماذج تعمل محلياً على خادم سحابي يحتوي على 12 vCPU و128 جيجابايت RAM وواحدة H100 و300 جيجابايت SSD عبر av/harbor و Docker و Ollama. اضطروا إلى تجاوز لعبة بطاقات حبكة صغيرة منفصلة حتى لا يضطر النموذج إلى تعلم ميكانيكا إضافية غير متعلقة باختيارات قائمة على النص.
حيث انهار كل شيء
بعد التصحيح، بدأت اللعبة بالتحكم من الخارج عبر Ollama. كان المنسق يجمع الحوار ويصنفه بأدوار system و tool و user و assistant ويرسل للنموذج طلباً بسيطاً: أمامك خيار، اقترح الخيار الصحيح وأجب برقم واحد. على الورق بدا المخطط مباشراً، لكن حتى في المشاهد الأولى بدأت النماذج بالرد مثل البشر: تضيف شروحات وتكرر قائمة الخيارات وتختار رقماً غير موجود أو تصدر عبارات بصيغة خاطئة. لهذا السبب اضطروا لإدخال طلب إضافي يستخرج رقم الإجابة من النص على حدة.
المشكلة الثانية تبين أنها أكثر إيلاماً: السياق كان ينمو بسرعة كبيرة جداً. في المقدمة وحدها كان هناك 134 سطر حوار، في اليوم الأول — 862 سطراً، والعبة بأكملها تحتوي على عشرات الآلاف من الأسطر. بعد الثلث الأول من اللعب، كل نقطة تفرع يمكن أن تستغرق 5–7 دقائق للمعالجة. الحل تبين أنه خشن لكن فعال: الرسائل القديمة بدأت بالانضغاط إلى ملخصات موجزة على دفعات مئة حتى لا يحتوي الحوار النشط على أكثر من مئتي رسالة. هذا سرّع الإجابات بشكل ملحوظ وقلل من نسبة التفاعلات الغريبة.
كيف انتهت جولات الاختبار
بعد المعايرة، تم إرسال خمسة نماذج محلية للاختبار النهائي: DeepSeek-R1:70b و Qwen3.5:9b و Qwen2.5:3b و gpt-oss:20b و Gemma3:27b. لعبت جميعها اللعبة من البداية بدون الوصول إلى اللعب الجاهز، وسجل المنسق الخيارات المتخذة والإجابات الوسيطة والتفكير.
الفكرة كانت بسيطة: اختبار ليس النظرية بل القدرة الفعلية للنموذج على الحفاظ على الحبكة والتنقل في التفرعات وإحضار قصة طويلة إلى نهاية متماسكة.
- DeepSeek-R1:70b وصل إلى النهاية السيئة الرئيسية في الاختبارات لكن علق في حلقة في المتاهة.
- gpt-oss:20b وصل باستمرار إلى النهاية السيئة الرئيسية بدون مفاجآت ملحوظة.
- Qwen3.5:9b تحرك بسرعة لكن قضى أكثر من عشرين دقيقة في خيار واحد.
- Qwen2.5:3b تمكن من الوصول إلى نهاية سيئة في خط Lena.
- Gemma3:27b ضاع في المتاهة مرتين وجاء إلى النهاية السيئة لـ Alice في الاختبارات.
"مولد الأرقام العشوائية الأكثر تكلفة"، هكذا وصف المؤلف النظام بعد الجولات.
النتيجة الإجمالية تبينت ضعيفة ليس فقط بسبب النهايات نفسها. المشكلة الرئيسية ظهرت في المتاهة، حيث كان يجب الأخذ في الاعتبار المنعطفات التي تمت بالفعل وعدم تكرار الاختيار نفسه. هناك حيث علقت النماذج في الأغلب في النمط القديم وكررت الإجابة السابقة حتى عندما كانت تقود بالفعل إلى طريق مسدود. بالنظر إلى أن اللعبة لديها 13 نهاية والعديد من خطوط الحبكة تنهار بقرار خاطئ واحد بالقرب من النهاية، حتى وكيل يعمل بشكل رسمي يبقى لاعباً غير موثوق به جداً.
ماذا يعني هذا
أظهرت التجربة أن نماذج اللغة المحلية يمكن بالفعل توصيلها بسرعة جيدة بلعبة قائمة على النص عبر Ren'Py و Ollama وجسر شبكة بسيط. لكن هذا ليس بعد قصة حول وكيل مستقل يفهم بثقة حبكة طويلة ويلعب بشكل استراتيجي رواية بصرية: بدون تطبيع صارم للإجابات وضغط السياق والتجاوزات اليدوية، مثل هذه النماذج تعلق بسهولة في حلقات وتتردد على الخيارات وأكثر غالباً ما تصل إلى نتائج سيئة أكثر من النتائج الجيدة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.