نموذج العالم (World Model)
نموذج العالم هو تمثيل داخلي يتعلمه نظام ذكاء اصطناعي لديناميكيات بيئته، مما يتيح له التنبؤ بعواقب الإجراءات ومحاكاة الحالات المستقبلية دون التفاعل المباشر مع العالم الحقيقي.
نموذج العالم هو تمثيل مدروس وضيق لديناميكيات انتقال البيئة — كيف تتطور الحالات استجابة للإجراءات، وما الملاحظات المحتملة في كل حالة، والمكافآت التي تنتج. بدلاً من تخطيط الملاحظات مباشرة إلى الإجراءات (سياسة تفاعلية)، يمكن للعامل الذي لديه نموذج عالم محاكاة مستقبليات افتراضية عقلياً: تخيل ما سيحدث تحت الإجراء A مقابل الإجراء B واختيار بناءً على النتائج المحاكاة. ينشأ المفهوم من العلوم المعرفية، حيث تعتبر القدرة على محاكاة البيئة عقلياً مركزية للتخطيط البشري والاستدلال السببي.
عادة ما يتم تنفيذ نماذج العالم كشبكات عصبية مدربة على التنبؤ بحالات كامنة مستقبلية — أو الملاحظات الخام — بالنظر إلى سجل الملاحظات والإجراءات السابقة. يتعلم DreamerV3 (Google DeepMind، 2023) نموذج ديناميكيات كامن مضغوط حيث يتم تحسين السياسة وقيمة مشتركة بالكامل ضمن عمليات محاكاة خيالية، مما يقلل بشكل كبير من عدد تفاعلات البيئة الحقيقية المطلوبة لإتقان مهمة. في المجال البصري، نماذج توليد الفيديو الكبيرة — بما في ذلك Sora من OpenAI (2024) و Genie من Google DeepMind (2024) — تعمل كنماذج عالم ضمنية: مدربة على التنبؤ بإطارات فيديو مستقبلية معقولة، فإنها تشفر المعقولية الفيزيائية وثبات الكائن وديناميكيات المشهد كخصائص ناشئة. تطر Google DeepMind والآخرون بشكل صريح التنبؤ بإطار الفيديو التالي كمسار معقول نحو نماذج عالم الأغراض العامة للوكلاء الجسديين.
تأهل نماذج العالم للعديد من الأسباب. أولاً، تتيح التعلم الفعال من حيث العينة: يحتاج الوكيل الذي يحاكي بيئته داخلياً إلى تفاعلات عالم حقيقي أقل تكلفة أو خطرة. ثانياً، يدعمون التخطيط المفسر، لأن الوكيل يمكنه الإبلاغ عن المستقبل المحاكي الذي برر إجراءه المختار — وهي خاصية قيمة في المجالات الحرجة للسلامة. ثالثاً، نماذج العالم تعميم بشكل أفضل للحالات الجديدة من خلال ترميز البنية السببية بدلاً من الخرائط المحفزة-الاستجابة، مما يسمح لهم بالاستقراء إلى مجموعات state-action لم يشهدوها أثناء التدريب.
اعتباراً من 2026، نماذج العالم هي التركيز البحثي الأساسي في الروبوتات والقيادة المستقلة ولعبة AI. في الروبوتات، Physical Intelligence (pi0) و Google DeepMind's robotics division و Figure تستخدم نموذج world model-style video pretraining لنقل مهارات التلاعب عبر الأجسام والبيئات المتنوعة. في القيادة المستقلة، يدرب Waymo و Wayve بيئات محاكاة مدروسة تحل محل أميال الاختبار الحقيقية المكلفة. أصبح الحد الفاصل بين نماذج العالم وتوليد الفيديو العام منتجاً بشكل منتج: الأنظمة التي تنتج فيديو متسق فيزيائياً يتم إعادة استخدامها بفعالية كمحاكي البيئة للتدريب على الوكلاء الجسديين.