نماذج العالم: هل ستكون مفتاح القيادة الذاتية؟
تستخدم شركات تصنيع السيارات نماذج العالم بنشاط لتدريب واختبار أنظمة القيادة الذاتية. يسمح هذا بإنشاء محاكاة أكثر واقعية وتحسين الخوارزميات، لكن الاستخدام…
معالج بواسطة الذكاء الاصطناعي من 36Kr (36氪)؛ بتحرير Hamidun News
في السنوات القليلة الماضية، عند الحديث عن القيادة الذاتية، كانت شركات تصنيع السيارات تذكر بالتأكيد مصطلحات تقنية جديدة مختلفة. بعد التعلم الشامل و VLA، أصبحت «نموذج العالم» الكلمة الأكثر رواجاً في مجال القيادة الذاتية. قدمت شركات مختلفة صيغاً جديدة له - قدمت Xiaopeng «نموذج العالم الأساسي»، وأطلقت عليه NIO اسم «نموذج العالم الشامل»، بينما سمته Huawei «نموذج سلوك العالم» (WA). بالإضافة إليهم، تعمل Horizon Robotics و Li Auto و Yuanrong Qixing و Momenta أيضاً على نماذج العالم.
ومع ذلك، بناءً على مؤتمراتهم الصحفية، من الصعب فهم ما إذا كان نموذج العالم الذي يتحدثون عنه هو نفسه؟ ما المشكلة التي يحلها وفي أي جزء من معمارية القيادة الذاتية يتم وضعه؟ إذا نظرنا إلى السياق الأوسع، فإن «نموذج العالم» هو في الأساس إعادة تكوين العالم الحقيقي في عالم افتراضي، وهي تقنية تسمح للذكاء الاصطناعي بفهم العالم الحقيقي، وفهم القوانين الفيزيائية والعلاقات السببية للأشياء وديناميكية البيئة المحيطة، تماماً كما يفعل الإنسان.
يعتبر معظم العلماء وشركات التكنولوجيا نماذج العالم عنصراً رئيسياً في «العالم الفيزيائي للذكاء الاصطناعي». أشارت أستاذة جامعة ستانفورد لي فيفي ذات مرة إلى أن الذكاء المكاني هو عقد الذكاء الاصطناعي القادم، ونموذج العالم هو التكنولوجيا الرئيسية لبناء الذكاء المكاني. يظل العلماء وشركات التكنولوجيا في طليعة الصناعة في مرحلة الاستكشاف، لكن صناعة السيارات الصينية قد احتلت مواقعها بالفعل من خلال مصطلحات مفاهيمية جديدة مختلفة.
في الواقع، «نموذج العالم» الذي تتحدث عنه صناعة القيادة الذاتية اليوم ليس سوى اختلاف في الأسماء، ولا توجد فروقات تكنولوجية كبيرة. إنها مجرد تحديث لنموذج تكنولوجي للأدوات الأصلية للمحاكاة في الصناعة، وحل مشاكل اختبار والتحقق من نماذج التعلم الشامل في عالم افتراضي مع درجة استرجاع أعلى وتفاصيل أكثر وسيناريوهات أغنى ودرجة حرية أعلى. كل هذا لتدريب نموذج تعلم شامل أكثر كفاءة وأكثر شبهاً بالإنسان للقيادة الذاتية.
بعبارة أخرى، لا ينشئ مصنعو القيادة الذاتية وشركات السيارات في الواقع واقعية فيزيائية رقمية كاملة، بل يستخدمون فكرة نموذج العالم لإنشاء محاك. قد يكون لدى كل شركة توقعات مختلفة من نموذج العالم، لكن بقدر ما نعرفه، حالياً يتم تطبيق نموذج العالم في صناعة القيادة الذاتية فقط في السحابة ولا يتم استخدامه في السيارات.
أبرز الانتشار الواسع للتعلم الشامل نقاط ضعف المحاكيات. في السنوات الأخيرة، انتقلت الحلول الرائدة للقيادة الذاتية من كومة القواعد إلى الإدارة المستندة إلى الذكاء الاصطناعي وأكملت التوحيد «الرسمي». تم دمج الإدراك والتنبؤ والتخطيط بشكل كامل في شبكة واحدة، بالإضافة إلى نماذج أكبر وقوة حوسبة أعلى. كما تقول غالباً شركات السيارات في مؤتمراتها الصحفية، «القيادة الذاتية بعد التعلم الشامل تبدو أكثر شبهاً بقيادة الإنسان».
لكن في التطبيق الفعلي، ظهرت ظاهرة غير متوقعة: إصدارات OTA الجديدة بعد التعلم الشامل ليست بالضرورة أفضل وقد تتدهور حتى. المشكلة الرئيسية ليست أن النموذج أصبح أسوأ، بل أن الإدارة المستندة إلى الذكاء الاصطناعي تجعل التقييم والانحدار صعباً. في ذلك الوقت، اعتقد العديد من متخصصي القيادة الذاتية أنه طالما تم تدريب الواجهة الأمامية بشكل جيد، فإن السيارة ستقود نفسها مثل الإنسان.
هذا المسار لم يكن بلا جدوى، والنتائج المبكرة للتعلم الشامل أذهلت الكثيرين من متخصصي القيادة الذاتية، لكن «الصندوق الأسود» للتعلم الشامل له أيضاً آثار جانبية. عندما يخطئ النموذج، يجد المطورون صعوبة في معرفة سبب الخطأ؟ كيف يثبتون أن هذا لن يحدث مرة أخرى؟ ما إذا كان النموذج جيداً أم لا يعتمد ليس فقط على ما إذا كان «كبيراً بما يكفي وبيانات كافية»، بل أيضاً على كيفية اكتشاف المشاكل وتحديد المشاكل والتحقق من المشاكل. أدركت الشركات المصنعة تدريجياً أنها تحتاج إلى محاك أفضل لتقييم أداء النموذج في مرحلة التحقق من النموذج.
ينشئ معظم اللاعبين الرائدين نماذج العالم لاستخدامها كمحاكيات. للسماح لـ VLA المثالية بإجراء التعلم المعزز في بيئة محاكاة، قدمت Li Auto في عام 2025 نموذج قيادة عالمي يتضمن مسارات السيارات الخاصة بها والسيارات الأخرى، ليعمل كمعلم تقييم؛ Xiaopeng، على الرغم من أنها أعلنت فقط عن «نموذج العالم الأساسي»، الذي لا يرتبط بشكل أساسي بنموذج العالم، لكن وفقاً لـ 36Kr Auto، تستخدم Xiaopeng أيضاً نموذج العالم للمحاكاة والاختبار لتقييم قدرات خوارزمية النسخة الجديدة من النموذج.
أبرز الانتشار الواسع للتعلم الشامل نقاط ضعف المحاكيات التقليدية. «عندما لم يكن التعلم الشامل شائعاً، لم تكن تكلفة التحقق للجميع عالية جداً، وكانوا لا يزالون يستطيعون التحقق من النظام على أساس أجزاء. الآن، مع وجود التعلم الشامل، لا توجد إمكانية للتحقق من النظام على أساس أجزاء، وفي هذه المرحلة تصبح مشكلة المحاك واضحة»، قال مطور في الصناعة.
في عصر القواعد، كانت شركات السيارات تقوم بمحاكاة غالباً ما كانت تخدم هدفين: أحدهما إعادة إنتاج مشاكل الاعتراض في منتصف الطريق والعودة وإعادة إنتاج المقاطع التي حدثت أثناء الاختبارات على الطريق؛ والآخر استخدام المحاكيات لزيادة ثراء بيانات الحالات القصوى، وإنشاء عدة تقاطعات نموذجية وحالات مشاة يعبرون الطريق وسيناريوهات إدراج السيارات في المحاك بحيث يمكن للنظام اجتيازها. في ذلك الوقت، كان المحاك يلعب دور «العدسة المكبرة»، لكن بعد التعلم الشامل، يصعب تقسيم النموذج إلى أجزاء، ويصعب توليد حالات قصوى أصغر وأكثر قابلية للتحكم بشكل منهجي، ويصعب حتى الحفاظ على التحقق المرن المقيّد على نطاق واسع اللازم للتعلم الشامل - وهذا هو السبب الدقيق لإدخال نموذج العالم.
في عصر التعلم الشامل، نموذج العالم هو «المدرب» لنموذج القيادة الذاتية. «حالياً، مستوى نماذج العالم للشركات المصنعة المحلية على مسافة معينة من Tesla، لكن الفرق أقل من سنة»، قال شخص مطلع من الصناعة.
لم تستخدم Tesla مفهوم «نموذج العالم»، بل استخدمت مصطلح «محاك العالم» (ذكر نائب رئيس Tesla للقيادة الذاتية أشوك إيلوسوامي هذا لأول مرة في ICCV في السنة الماضية). يعتمد المحاك على مجموعة بيانات ضخمة تم إنشاؤها بواسطة Tesla بشكل مستقل، ويولد الحالة المستقبلية بناءً على الحالة الحالية والإجراءات التالية. وبهذه الطريقة، يتم إغلاقه مع نموذج التعلم الشامل الأساسي على جانب السيارة لتقييم التأثير الفعلي.
لاحظ شخص مطلع من الصناعة أن Tesla تبدو أكثر مثل استخدام الشبكات العصبية «لملاءمة» العالم. يتم توليد عملية العرض من خلال الحسابات لتقليل الكشف الصريح للقوانين الفيزيائية؛ مكتبة المواد ليست محددة مسبقاً من قبل الناس تماماً، بل تحافظ على وزن احتمالي معين ومساحة التوليفات. ميزة هذا الأسلوب هي أن النموذج يمتلك قدرة تعميم أقوى.
تسير الشركات المصنعة المحلية في مسار مختلف وأكثر «تحكماً». وفقاً لموردٍ تحدث مع 36Kr Auto، تستخدم Li Auto إعادة بناء ثلاثي الأبعاد الغاوسية - وهي أيضاً إحدى الطرق التي يستخدمها معظم مصنعي السيارات حالياً.
بغض النظر عن المسار المختار، يشير نموذج العالم في النهاية إلى نفس الموضع من الناحية الهندسية: يتم استخدام نموذج العالم من قبل مصنعي السيارات كـ «نظام التحقق والدحض» في عصر التعلم الشامل، لإعادة إنتاج وإعادة كتابة وتوسيع الحالات التي قد تحدث في القيادة الفعلية في السحابة، والتحقق من ما إذا كان إخراج النموذج الكبير على جانب السيارة مستقراً وقابلاً للتكرار، وتحويل «حيث الخطأ ولماذا الخطأ» إلى سلسلة أدلة قابلة للتتبع.
دور نموذج العالم يشبه دور المدرب، ويمكن للمدرب الممتاز أن يدرب رياضيين ممتازين. «مع أن نموذج العالم السحابي يصبح أقوى وأقوى، من حيث النظرية، يجب أن تصبح قدرة نموذج التعلم الشامل المدرب على الجانب أقوى وأقوى»، قال مطور.
تتضمن القدرات الرئيسية لنموذج العالم بشكل أساسي جانبين: أحدهما هو النمذجة الرقمية والتجريد للعالم الفيزيائي؛ والآخر هو الخيال الحكيم والتنبؤ بالعالم الفيزيائي بناءً على هذه النمذجة، على سبيل المثال، التنبؤ بكيفية تغيير العالم المستقبلي بناءً على الصور المعطاة. ما إذا كان نموذج العالم جيداً أم لا يعتمد على ما إذا كان يستطيع توليد بيانات واقعية ومتنوعة كافية في السحابة. «إذا استخدم مصنع السيارات فقط البيانات الحقيقية المجمعة للمحاكاة، فإنه بوضوح لا ينشئ نموذج عالم بل ينشئ مجموعة من عمليات إعادة الإنتاج للبيانات»، قال مدير منتجات الموردين.
يحتاج نموذج العالم إلى دراسة نمط عمل العالم بناءً على البيانات من العالم الفيزيائي، لذلك سيؤثر جودة بيانات تدريب نموذج العالم بشكل كبير على الجودة التي ينتجها النموذج. ذكر مان جيمين، رئيس خط المنتجات في شركة JIJIA Vision: «بالنسبة لنموذج توليدي مثل نموذج العالم، ستتوافق نتائج التوليد الخاصة به في النهاية مع أنماط توزيع خصائص البيانات المدخلة. في عملية تجاري نموذج عالم حقيقي، وجدنا أنه إذا كانت جودة البيانات 60 درجة فقط، فإن جودة البيانات المولدة بناءً على نموذج العالم هذا قد تكون 55 درجة فقط».
بناءً على نموذج العالم، يمكن لمصنعي السيارات توليد السيناريوهات المطلوبة بلا حدود من أبعاد مختلفة عند المحاكاة في السحابة ويمكنهم توليد الفيديو كبيانات تدريب وفقاً للتعليمات. «الكفاءة ليست أعلى قليلاً من الجمع الفعلي والتدريب بعد ذلك، بل أن سرعة تكرار النموذج ستكون رائدة في العصر»، قال مطور من الموردين.
لكن هذه كلها نتائج مثالية. «نموذج العالم هو تحديث كبير مقارنة بمحاك الذكاء الاصطناعي للقيادة الذاتية، أو بعبارة أخرى، في غياب معلومات المحاكاة الكاملة، ويمكن التحقق منه فقط باستخدام بيانات القيادة الذاتية، لكنه لا يزال بعيداً عن محاك مثالي».
لم تنضج خوارزمية نموذج العالم بعد، وهناك الكثير من «الهلوسات» لا تزال موجودة. حالياً تقع الصناعة ككل في المرحلة «الأولية فقط».
أخبر مطور مصنع السيارات موقع 36Kr Auto أن الشركات المصنعة المحلية يمكنها توليد مقاطع فيديو تستغرق 30-60 ثانية بناءً على نموذج العالم، لكن اتساق الأجسام الديناميكية ليس جيداً جداً، وهناك مشاكل كبيرة في كل من الاتساق الزمني المكاني والاتساق متعدد الآفاق.
يتكون أساس نموذج العالم من نموذج توليدي، والنموذج التوليدي بطبيعته مرتبط بخطر «الهلوسات». «أصعب شيء في نموذج العالم حالياً هو كيفية ضمان أن الأشياء المولدة حقيقية. إذا تم توليد إنسان، كيف يتم ضمان أن سلوكه ومساره يمكن أن يحدثا في العالم الحقيقي»، قال مدير منتجات الموردين. «إذا أنشأ نموذج العالم بلبلة، فسيؤدي ذلك إلى تعلم النموذج أشياء خاطئة، مما يؤدي إلى تأثير سيء جداً للنموذج المنشر على جانب السيارة».
مثال متطرف: إذا كانت السيارات المولدة في السحابة تتحرك بشكل جانبي، فسيعتقد النموذج أن السيارة على اليسار الأمامي ستنتقل فوراً إلى اليمين الأمامي. خلال القيادة الفعلية، قد يتعطل النموذج.
إذا لم يتمكن المحاك من الاقتراب من العلاقات السببية الرئيسية في العالم الحقيقي، مثل تأثير الطريق الزلق على مسافة الكبح، احتمال الكشف الخاطئ للأجسام الثابتة في الإضاءة الخلفية، استراتيجية مساومة السيارة المقابلة عند تغيير المسار، وما إلى ذلك، فقد تكون «الحالة القصوى» التي ينتجها كاذبة؛ التحسين بناءً على المشاكل الكاذبة يعادل إهدار موارد التطوير على الأشباح.
يعتقد كثيرون أن الاختناق في نموذج العالم هو البيانات وقوة الحوسبة، لكن شيا تشونغبو، الرئيس السابق لنموذج التعلم الشامل للقيادة الذاتية في Li Auto، يتفق أكثر مع وجهة نظر ليكون: «لا توجد اختراقات كبيرة في خوارزمية نموذج العالم، والتعلم الذاتي الإشرافي لنماذج الصور لم يجد بعد نموذجاً سلساً نسبياً مثل اللغة».
والسبب في أن نماذج اللغة يمكن أن تتسع بسرعة هو أن اللغة نفسها لها كثافة معلومات عالية، وكل كلمة تحمل قيوداً دلالية واضحة. وكثافة المعلومات في الصورة منخفضة، وبالنسبة «لقرار القيادة»، تشكل المعلومات المفيدة جزءاً صغيراً فقط.
على سبيل المثال، لا تحتاج النماذج إلى التنبؤ بمسار السيارة البعيدة خلفها، وليست بحاجة للتنبؤ بتغييرات المباني البعيدة، كل هذا بيانات ضوضاء؛ لكنها يجب أن تتنبأ بما إذا كانت السيارة الأمامية على هذا المسار ستتوقف فجأة بشكل حاد، أم أن السيارة على المسار المجاور ستتحول، أم أن المشاة سيعبرون الطريق فجأة، يجب أن يعرف النموذج أولاً «ما الذي يجب الانتباه إليه».
«لا تستطيع خوارزمية القيادة الذاتية حالياً استخراج معلومات صورة مفيدة كافية للقيادة»، قال شيا تشونغبو. قد تحتوي الصورة على ملايين البكسلات، لكن فقط 20 بكسل أو أكثر مرتبطة باتخاذ القرار، والباقي ضوضاء. يجب أن يتعلم النموذج أولاً استخراج 1‰ أو حتى 1‱ من الإشارة الفعالة من الضوضاء، ثم الحديث عن كيفية تنظيم الإشارة في بنية يمكن استخدامها للاستدلال والتنبؤ.
وفقاً لرأي شيا تشونغبو، لم تخترق خوارزمية نموذج العالم بعد، ناهيك عن ما إذا كانت البيانات كافية وكم من قوة الحوسبة مطلوبة. لأن التكنولوجيا الأساسية لنموذج العالم لم ترَ اختراقاً واضحاً بعد، فإن استثمارات مصنعي السيارات ذات طبيعة بحثية بشكل أكبر، وحتى بعض مديري مصنعي السيارات مرتبكون من ذلك.
إذا تم عمل نموذج العالم بشكل جيد بما يكفي، وإذا كان يمكن نشره على جانب السيارة، إذا كانت قوة الحوسبة يمكنها دعمه. «حالياً في الصين، يتم استخدام نموذج العالم بشكل أساسي كنظام محاكاة، ودرجة فهم تكنولوجيا صنع القرار للقيادة الذاتية لا تزال ليست عالية بما يكفي»، قال شيا تشونغبو.
وهذا يشرح أيضاً التناقض السطحي: لماذا يتحدث الجميع عن نماذج العالم، لكن الفرق في تجربة المستخدم غير واضح - لأن نموذج العالم الخاص بمعظم الناس لا يزال في المرحلة الأولى «المستخدمة للتدريب والتحقق»، وليس في المرحلة الثانية «يمكن أن تدعم تخطيط القرار».
«نشر نموذج العالم على الجانب هو الأصعب»، قال شيا تشونغبو. حالياً، لا تطبق أي شركة نموذج العالم على الجانب. كما أشار: «استخدام طريقة النماذج الكبيرة لمحاكاة العالم الفيزيائي، والتنبؤ بالتغييرات في تطور العالم من خلال التفاعل مع العالم الفيزيائي وبالتالي التأثير على العالم من خلال اتخاذ القرارات للتطور في اتجاه يفيدك. إذا وصل نموذج العالم إلى هذا المستوى، يمكن حل المشاكل المرتبطة بالقيادة الذاتية والروبوتات».
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.