Google AI Blog→ المصدر

Project Genie من Google DeepMind: كيف تنشئ عوالم كاملة باستخدام مطالبات نصية

نشرت Google DeepMind دليلاً لاستخدام Project Genie — وهو نظام لتوليد عوالم افتراضية تفاعلية انطلاقاً من مطالبات نصية. وتسلط الشركة الضوء على أربعة مبادئ…

معالج بواسطة الذكاء الاصطناعي من Google AI Blog؛ بتحرير Hamidun News
Project Genie من Google DeepMind: كيف تنشئ عوالم كاملة باستخدام مطالبات نصية
المصدر: Google AI Blog. كولاج: Hamidun News.
◐ استمع للمقال

تخيل أنه لإنشاء مستوى لعبة فيديو أو عالم افتراضي، لم تعد بحاجة إلى فريق من المصممين والمبرمجين والفنانين. يكفي أن تكتب بضع جمل—وسيقوم النظام بإنشاء فضاء تفاعلي يمكنك التنقل فيه والتفاعل معه. هذا بالضبط ما يعده مشروع Genie من Google DeepMind، والآن تشارك الشركة توصيات عملية للعمل مع هذه الأداة.

مشروع Genie ليس مشروعاً جديداً تماماً. ظهرت الإشارات الأولى إليه في عام 2024، عندما قدمت Google DeepMind نموذج بحث قادر على إنشاء منصات ثنائية الأبعاد بسيطة من صورة واحدة أو وصف نصي. لكن منذ ذلك الحين، قطع النظام شوطاً طويلاً. في تكراره الحالي، يسمح مشروع Genie بإنشاء فضاءات افتراضية أكثر تعقيداً وتفصيلاً بكثير، وتعتمد جودة النتيجة بشكل مباشر على كيفية صياغة المستخدم لطلبه. لهذا السبب قررت Google نشر نوع من دليل هندسة الطلبات المكيف خصيصاً لتوليد العوالم.

قد تبدو المبادئ الأربعة التي يقترحها Google DeepMind واضحة للوهلة الأولى، لكن كل واحد منها يستند إلى فهم عميق لكيفية تفسير النماذج التوليدية طلبات المستخدمين. الأول والأهم ربما هو تحديد الوصف. يعمل النموذج بشكل أفضل بكثير عندما تصف بدلاً من "غابة جميلة" مجردة "غابة صنوبر كثيفة مع ضباب صباحي بين جذوع الصنوبر وطحالب ناعمة على الصخور".

يتعلق المبدأ الثاني بالهيكل المكاني: يفهم Genie بشكل أفضل الطلبات التي تحدد بشكل صريح العلاقات بين الأشياء—ما هو في المقدمة، ما هو في الخلفية، ما العناصر التي تهيمن على المشهد. المبدأ الثالث هو التكرارية: يدعم النظام تحسين النتائج على التوالي، وأفضل العوالم لا تولد من الطلب الأول، بل من خلال سلسلة من التحسينات. أخيراً، المبدأ الرابع يتعلق بالتفاعلية—ينصح المستخدمون بتحديد صريح لعناصر العالم التي يجب أن تكون ديناميكية وأيها يجب أن تكون ثابتة.

من الناحية التقنية، يمثل مشروع Genie الخطوة التطورية التالية بعد النماذج التوليدية للصور والفيديو. إذا تعلم Imagen و Veo إنشاء محتوى ثابت وديناميكي مقنع بصرياً، فإن Genie يضيف طبقة من التفاعلية—القدرة ليس فقط على النظر إلى عالم تم إنشاؤه، بل والتصرف فيه. هذه مهمة معقدة بشكل أساسي لأن النموذج يجب أن ينشئ ليس فقط فضاء متماسك بصرياً، بل أيضاً يجب أن يراعي فيزياء الأشياء ومنطق التفاعلات واتساق العالم عند تغيير زاوية المنظور. بشكل أساسي، تبني Google DeepMind أساساً لما تسميه الصناعة "الجيل الجديد من التوليد الإجرائي"—فقط بدلاً من القواعد الخوارزمية، يعمل هنا فهم الشبكة العصبية لكيفية عمل الفضاءات.

من الصعب المبالغة في عواقب هذه التكنولوجيا على الصناعة. تصميم الألعاب هو أول وأكثر مجال تطبيق وضوحاً. يحصل المطورون المستقلون الذين لا يملكون موارد لإنشاء عوالم ألعاب شاسعة على أداة قادرة على تسريع النماذج الأولية بشكل جذري. لكن إمكانات مشروع Genie تتجاوز بكثير الألعاب. يمكن للمعماريين استخدام أنظمة مشابهة لتصور سريع للمفاهيم المكانية. يمكن للمنصات التعليمية استخدامها لإنشاء إعادة بناء تاريخية تفاعلية أو محاكاة علمية. الكون الافتراضي الذي تحدث عنه الكثير قبل سنوات قليلة، فجأة يكتسب معنى عملي إذا توقف ملء الفضاءات الافتراضية بالمحتوى عن كونه اختناق.

من المهم أيضاً ملاحظة السياق التنافسي. Google ليست الشركة الوحيدة التي تعمل على توليد بيئات تفاعلية. تجري أبحاث مماثلة في Meta وفي عدد من الشركات الناشئة، مثل World Labs من قبل Fei-Fei Li. ومع ذلك، لدى Google ميزة كبيرة—التكامل في الاقتصادية. يمكن لمشروع Genie أن يرتبط بـ Google Maps لإنشاء فضاءات حضرية واقعية، مع YouTube للتعلم من مليارات الساعات من محتوى الفيديو، مع Android للتوزيع على الهاتف المحمول. هذا حالة حيث يمكن أن تكون التفوق البنى التحتية حاسمة.

ومع ذلك، فإن نشر دليل عملي بدلاً من تقرير تقني كامل يثير الأسئلة. Google يريد بوضوح جذب جمهور واسع من منشئي المحتوى إلى مشروع Genie، لكنها حالياً لا تكشف عن تفاصيل حول إمكانية الوصول إلى الأداة وقيودها وخطط التسويق. حقيقة أن الشركة تعلم المستخدمين كتابة طلبات لتوليد العوالم توحي بأن التكنولوجيا تقترب من مرحلة المنتج العام. السؤال الوحيد هو ما إذا كان مشروع Genie سيصبح خدمة مستقلة أو جزء من Google Cloud أو مكون من منصة أوسع. بأي حال، فإن الخط بين "وصف العالم" و"بناء العالم" يصبح أرق فأرق، وهذا هو أحد أكثر الاتجاهات الغموضية في تطور الذكاء الاصطناعي التوليدي.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…