NVIDIA تشرح الفرق بين VLA و WAM — نهجان للتحكم في الروبوتات

Q: ما هو المصدر؟

نُشر أصلاً على NVIDIA Developer Blog. يعالج Hamidun News المواد ويكيّفها بالذكاء الاصطناعي.

Q: متى نُشر؟

15 يونيو 2026. وقت القراءة: 3 دقيقة.

نشرت NVIDIA نظرة عامة على نهجين متنافسين للتحكم في الروبوتات. تبدأ نماذج VLA بعمود فقري لغوي — يمكنها فهم التعليمات لكنها لا "تشعر" بالفيزياء. يتم بناء WAM…

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · NVIDIA Developer Blog

15 يونيو 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News

NVIDIA تشرح الفرق بين VLA و WAM — نهجان للتحكم في الروبوتات — المصدر: NVIDIA Developer Blog. كولاج: Hamidun News.

◐ استمع للمقال

نشرت NVIDIA استعراضاً شاملاً لمعماريتين متنافستين للذكاء الاصطناعي الروبوتي — VLA و WAM — وتشرح لماذا قد تصبح الطريقة الثانية المعيار التالي للصناعة.

فئتان من نماذج روبوتية

اليوم، هناك طريقتان سائدتان لإنشاء نموذج يتحكم في الروبوت. الأولى هي أخذ نموذج الرؤية واللغة المدرب مسبقاً وتحسينه لتوليد أوامر لمعالج. تُسمى هذه الأنظمة نماذج Vision-Language-Action، أو VLA. أمثلة قيد التشغيل بالفعل: Pi-0 من Physical Intelligence و GR00T N1 من NVIDIA. يبدآن بعمود فقري قوي VLM امتص المعرفة حول العالم من خلال النصوص والصور — ثم يتكيفان مع مهام حركية حقيقية. الميزة الرئيسية: دلالات غنية والقدرة على تعميم التعليمات غير المألوفة.

الطريق الثاني هو World-Action Models، أو WAM. هنا الأساس ليس نموذج لغة، بل نموذج "العالم" — نظام مدرب على التنبؤ بإطارات الفيديو المستقبلية بناءً على الإجراء المنفذ. لم يقرأ مثل هذا العمود الفقري الإنترنت، لكنه رأى كيف تتحرك الأجسام وتتشوه وتستجيب للتأثير الفيزيائي.

لماذا الخيال أهم من اللغة

الفكرة الأساسية للـ WAM هي أن التنبؤ بـ "ماذا سيحدث إذا دفعت هذا الكوب" يكون مفيداً بشكل أساسي للروبوت أكثر من القدرة على تحليل التعليمات المعقدة. نماذج العالم، الناشئة من مهام توليد الفيديو، تتراكم بالضبط هذا النوع من المعرفة. في الممارسة العملية، يتم التعبير عن هذا في الفروقات التالية:

العمود الفقري VLM يوفر دلالات غنية وتعميم أوامر اللغة
العمود الفقري لنموذج العالم يدمج الحدس الفيزيائي بدون برمجة فيزياء صريحة
يتم تحسين VLA بشكل أساسي على مجموعات بيانات التحكم عن بعد البشري
يمكن لـ WAM استخدام الفيديو الاصطناعي كمحاكي داخلي
كلا الطريقتين لا تستبعد بعضهما البعض — الباحثون يجربون بالفعل الهجينة

NVIDIA في كلا المعسكرين

بشكل ملحوظ، NVIDIA موجودة في كلا الاتجاهين في نفس الوقت. GR00T N1 هو نموذج VLA الرائد للروبوتات البشرية الشكل. Cosmos هي منصة نماذج عالمية تخدم احتمالاً كعمود فقري WAM للجيل التالي من الأنظمة.

"نحن في بداية عصر الذكاء الاصطناعي الفيزيائي" — هذا هو بالضبط السرد

الذي تقويه NVIDIA من خلال هذا المنشور القاموسي والاستعراض المفاهيمي. بتوحيد المصطلحات قبل أن ينقسم السوق بشكل كامل إلى معسكرات، تضع الشركة نفسها كمهندسة الخطاب. هذا ليس مجرد مدونة — إنها محاولة لإملاء كيف ستفكر الصناعة في الجيل التالي من الروبوتات.

ماذا يعني هذا

الاختيار بين VLA و WAM هو قرار استراتيجي لكل من يبني الروبوتات اليوم. VLA ينطلق بشكل أسرع مع البيانات المتاحة للتحكم عن بعد؛ WAM قد يتسع بشكل أفضل بدون تعليقات توضيحية يدوية مكلفة. مع تصبح نماذج توليد الفيديو أرخص وتتحسن، ستصبح نماذج العمل العالمية أكثر جاذبية — وتعتزم NVIDIA احتلال مراكز رائدة في كلا المعسكرين في نفس الوقت.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية