تجمع Google بين Street View والذكاء الاصطناعي لإنشاء عوالم تدريب افتراضية
كشفت Google عن نسخة جديدة من Project Genie — ذكاء اصطناعي ينشئ عوالم ثلاثية الأبعاد وظيفية بالكامل بناءً على إحداثيات Google Street View. يمكن للروبوتات التدريب

قدمت جوجل تحديثاً لمشروع Genie — نموذج توليدي ينشئ عوالم ثلاثية الأبعاد وظيفية بالكامل مرتبطة بالإحداثيات الفعلية من Google Street View. للمرة الأولى، اكتسبت الذكاء الاصطناعي القدرة ليس فقط على توليد الفيديو، بل على إنشاء بيئات افتراضية تفاعلية حيث يمكن للروبوتات أن تتعلم دون تفاعل مع العالم المادي.
ما هي نماذج العالم (World Models)
تختلف نماذج العالم عن توليد الفيديو العادي في أنها لا تقتصر على رسم سلسلة من الإطارات — بل تبني فهماً للفيزياء والسببية والبنية ثلاثية الأبعاد للعالم. يتعلم النموذج من مقاطع الفيديو وأمثلة التفاعل، ثم يمكنه التنبؤ بما سيحدث إذا قام الروبوت بإجراء محدد. يمكن للروبوت المُدرَّب على مثل هذا النموذج أن يخطط المسارات ويتجنب العقبات ويمارس مهارات التنقل المعقدة في بيئة افتراضية، ثم يطبق هذه المعرفة على الواقع. هذا يختلف بشكل كبير عن نماذج الفيديو مثل Sora، التي تولد ببساطة تسلسلات فيديو معقولة دون فهم كامل للفيزياء.
Genie 3 و Google Street View
دمجت جوجل مشروع Genie مع قاعدة بيانات Google Street View الخاصة بها — ملايين الصور الفوتوغرافية للشوارع من جميع أنحاء العالم مع إحداثيات معروفة وهندسة ثلاثية الأبعاد. الآن يمكن اختيار مكان حقيقي (على سبيل المثال، ساحة في لندن أو شارع في نيويورك) والذكاء الاصطناعي سيولد عالماً ثلاثي الأبعاد كاملاً لهذا المكان بنسب صحيحة. يمكن للروبوتات التدرب على مسارات المدن الحقيقية دون مغادرة مركز البيانات. هذا حاسم للأنظمة المستقلة: بدلاً من ملايين الساعات من القيادة الفعلية، تتعلم السيارة في بيئة افتراضية معجلة. تختبر Waymo بالفعل هذا النهج لمركباتها المستقلة.
- الربط بالإحداثيات الفعلية من Google Street View
- توليد هندسة ثلاثية الأبعاد كاملة مع الفيزياء
- بيئة تفاعلية حيث يعمل الروبوت ويرى النتائج
- القابلية للتوسع: يمكن توليد عوالم لأي مكان على الأرض
خط الإنتاج: Unity و Blender
أهم شيء في الإصدار الجديد هو التكامل مع الأدوات التي يستخدمها المطورون بالفعل. أضافت جوجل موصلات MCP لـ Unity و Blender، مما يسمح باستخدام العوالم المولدة مباشرة في محركات الألعاب المفضلة دون تصدير وتحويل. يمكن للمطور أن يختار مكاناً في Google Street View، ويحصل على مشهد ثلاثي الأبعاد جاهز، ويستورده إلى Unity أو Blender ويضيف منطق وشخصيات وتفاعلية. في السابق، كانت هذه العملية تتطلب أسابيع من العمل اليدوي لفنانين ثلاثي الأبعاد. الآن يتم توليد المشهد الأولي تلقائياً في دقائق.
لماذا يغير هذا تطوير الألعاب والروبوتات
بالنسبة للروبوتات، هذا تسريع لأشهر من التطوير. بالنسبة لتطوير الألعاب — تقليل حاجز الدخول للمطورين المستقلين الذين كانوا في السابق إما يستأجرون فنانين مكلفين أو يستخدمون أصول جاهزة. تُولد مدينة بناءً على مكان حقيقي الآن في ثوان. أثبتت Waymo و Boston Dynamics وشركات أخرى أن المحاكاة عالية الجودة حاسمة للذكاء الاصطناعي العملي. يجعل Genie 3 المحاكاة قابلة للتوسع ومرتبطة بالواقع.
ما يعنيه هذا
تنتقل نماذج العالم من مختبرات البحث إلى أداة عمل. المرحلة التالية من الذكاء الاصطناعي في الروبوتات وتطوير الألعاب لن تكون حول توليد الفيديو، بل حول إنشاء عالم تفاعلي يمكن للعامل أن يعمل فيه ويتعلم. أوضحت جوجل بالفعل كيف يعمل هذا في الممارسة العملية.