يحول المطور المحفز إلى لعبة RPG كاملة: المواقع وشخصيات NPC والموسيقى والقتال من الشبكات العصبية
قبل سنتين، فشلت محاولة إنشاء مولد RPG باستخدام GPT-4 و Stable Diffusion — كانت التقنيات بالكاد قادرة على التعامل مع خرائط ASCII، ناهيك عن إنشاء عالم متسق…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
منذ سنتين، حاول مطور إنشاء مُولِّد ألعاب RPG عصبي باستخدام GPT-4 و Stable Diffusion. لم تسر الأمور بشكل جيد. الآن عاد مع التمويل وعمارة معاد تصميمها — والنتيجة التي تعمل فعليًا.
من حيث بدأ كل شيء
كانت الفكرة تبدو طموحة: يكتب المستخدم موجهًا نصيًا — وبدلاً من محادثة لا نهاية لها مع السجل، يحصل على لعبة حقيقية. بعالم وشخصيات وميكانيكا وطريقة لعب. شيء مثل لعبة RPG توليدية حيث تنشئ كل مرة تشغيل مغامرة فريدة.
في عام 2024، كان GPT-4 و Stable Diffusion بالكاد يتعاملان مع خرائط ASCII والرسومات البدائية. كانت الاتساقية صفرية: كانت الشخصية "تنسى" اسمها بعد ثلاثة حوارات، والمواقع بدت كرسومات منقطعة بدون لغة بصرية موحدة. لم تعمل محاولات جعل النماذج المختلفة "تتحدث" مع بعضها والحفاظ على السياق بين الخطوات بشكل موثوق. تم تجميد المشروع.
لكن الفكرة لم يتم التخلي عنها.
ما الذي تستطيع أن تفعله النماذج الجديدة
الآن عادت الفريق مع التمويل وخط أنابيب معاد صياغته. توفر الشبكات العصبية الحديثة إمكانيات كانت بعيدة المنال قبل سنتين:
- مواقع مفصلة بأسلوب بصري موحد
- شخصيات غير لاعب بها طبائع وسيرة ذاتية وحوارات متعددة المستويات
- بلاطات للخرائط، منسقة تلقائيًا مع النطاق البيولوجي وجو الموقع
- فروع سردية تعتمد على قرارات اللاعب
- تعليق صوتي للشخصيات بملفات صوتية مختلفة
- موسيقى أصلية تتطابق مع النبرة العاطفية لكل مشهد
- نظام قتال منسوج عضويًا في السرد
كان القرار المعماري الرئيسي هو التخلي عن العالم المفتوح. يتطلب العالم المفتوح نافذة سياق ضخمة واتساقية مستمرة بين عدد كبير جدًا من المكونات في نفس الوقت. بدلاً من ذلك، اختارت الفريق لعبة RPG سردية 2.5D تعتمد على الأدوار: نوع بهيكل واضح حيث يمكن للذكاء الاصطناعي التركيز على الحبكة وعمق الشخصيات بدلاً من توسع العالم اللانهائي.
لماذا هذا أصعب مما يبدو
"توليد لعبة" يبدو بسيطًا. في الواقع، إنها مهمة هندسية متعددة الطبقات حيث تضيف كل طبقة متطلبات اتساق. يجب أن تتذكر الشخصية الأحداث من قبل ثلاث ساعات. يجب أن تتطابق الموضوعة الموسيقية مع الحالة العاطفية للمشهد — الخوف والانتصار والغموض. لا يجب أن يكسر القتال التوازن، حتى لو اتخذت القصة منعطفًا غير متوقع. يجب أن تبدو بلاطات الخريطة كعالم موحد، وليس مجموعة من الصور العشوائية.
"توليد العالم ليس موجهًا نصيًا واحدًا. إنها نظام حيث يجب على كل مكون
أن يعرف عن وجود الآخرين" كما يكتب المؤلف.
لا يحل أي نموذج واحد هذا تلقائيًا. يتطلب خط أنابيب موسيقي: عدة نماذج متخصصة ونقل السياق بينها وطبقات التحقق والتصحيح في كل خطوة توليد.
كم تكلفة جلسة لعبة واحدة؟
أحد الأسئلة العملية الأكثر هو اقتصاد التوليد. المواقع والشخصيات غير اللاعبة والحبكة والتعليق الصوتي والموسيقى — هذا عشرات استدعاءات API لنماذج مختلفة. يعد المؤلف بتفصيل تكاليف البنية التحتية والـ API الحقيقية. بالنسبة لأولئك الذين يخططون مشاريع مماثلة، هذا حرج: المفهوم جميل يصبح سريعًا غير قابل للحياة إذا كانت تكلفة كل جلسة لعبة مرتفعة جدًا.
بتكلفة بضعة دولارات لكل جلسة، هذا سقف السوق الاستهلاكية. بعشرات الدولارات، فقط في الفئات B2B أو المتميزة الضيقة.
ماذا يعني هذا
قصة هذا المشروع هي مؤشر دقيق لنضج أدوات الذكاء الاصطناعي للألعاب. منذ سنتين كانت فكرة جيدة بتنفيذ سيء. الآن هو نموذج أولي يعمل مع التمويل والعمارة المتسقة. على مدى السنتين القادمتين، سنرى على الأرجح أول مولدات AI-RPG تجارية. يستمر الحاجز التقني في الانخفاض. السؤال الرئيسي هو ما إذا كانت الألعاب التوليدية يمكن أن تصبح رخيصة بما يكفي للسوق الجماهيرية.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.