NVIDIA تشرح الفرق بين VLA و WAM — نهجان للتحكم في الروبوتات
نشرت NVIDIA نظرة عامة على نهجين متنافسين للتحكم في الروبوتات. تبدأ نماذج VLA بعمود فقري لغوي — يمكنها فهم التعليمات لكنها لا "تشعر" بالفيزياء. يتم بناء WAM…
معالج بواسطة الذكاء الاصطناعي من NVIDIA Developer Blog؛ بتحرير Hamidun News
نشرت NVIDIA استعراضاً شاملاً لمعماريتين متنافستين للذكاء الاصطناعي الروبوتي — VLA و WAM — وتشرح لماذا قد تصبح الطريقة الثانية المعيار التالي للصناعة.
فئتان من نماذج روبوتية
اليوم، هناك طريقتان سائدتان لإنشاء نموذج يتحكم في الروبوت. الأولى هي أخذ نموذج الرؤية واللغة المدرب مسبقاً وتحسينه لتوليد أوامر لمعالج. تُسمى هذه الأنظمة نماذج Vision-Language-Action، أو VLA. أمثلة قيد التشغيل بالفعل: Pi-0 من Physical Intelligence و GR00T N1 من NVIDIA. يبدآن بعمود فقري قوي VLM امتص المعرفة حول العالم من خلال النصوص والصور — ثم يتكيفان مع مهام حركية حقيقية. الميزة الرئيسية: دلالات غنية والقدرة على تعميم التعليمات غير المألوفة.
الطريق الثاني هو World-Action Models، أو WAM. هنا الأساس ليس نموذج لغة، بل نموذج "العالم" — نظام مدرب على التنبؤ بإطارات الفيديو المستقبلية بناءً على الإجراء المنفذ. لم يقرأ مثل هذا العمود الفقري الإنترنت، لكنه رأى كيف تتحرك الأجسام وتتشوه وتستجيب للتأثير الفيزيائي.
لماذا الخيال أهم من اللغة
الفكرة الأساسية للـ WAM هي أن التنبؤ بـ "ماذا سيحدث إذا دفعت هذا الكوب" يكون مفيداً بشكل أساسي للروبوت أكثر من القدرة على تحليل التعليمات المعقدة. نماذج العالم، الناشئة من مهام توليد الفيديو، تتراكم بالضبط هذا النوع من المعرفة. في الممارسة العملية، يتم التعبير عن هذا في الفروقات التالية:
- العمود الفقري VLM يوفر دلالات غنية وتعميم أوامر اللغة
- العمود الفقري لنموذج العالم يدمج الحدس الفيزيائي بدون برمجة فيزياء صريحة
- يتم تحسين VLA بشكل أساسي على مجموعات بيانات التحكم عن بعد البشري
- يمكن لـ WAM استخدام الفيديو الاصطناعي كمحاكي داخلي
- كلا الطريقتين لا تستبعد بعضهما البعض — الباحثون يجربون بالفعل الهجينة
NVIDIA في كلا المعسكرين
بشكل ملحوظ، NVIDIA موجودة في كلا الاتجاهين في نفس الوقت. GR00T N1 هو نموذج VLA الرائد للروبوتات البشرية الشكل. Cosmos هي منصة نماذج عالمية تخدم احتمالاً كعمود فقري WAM للجيل التالي من الأنظمة.
"نحن في بداية عصر الذكاء الاصطناعي الفيزيائي" — هذا هو بالضبط السرد
الذي تقويه NVIDIA من خلال هذا المنشور القاموسي والاستعراض المفاهيمي. بتوحيد المصطلحات قبل أن ينقسم السوق بشكل كامل إلى معسكرات، تضع الشركة نفسها كمهندسة الخطاب. هذا ليس مجرد مدونة — إنها محاولة لإملاء كيف ستفكر الصناعة في الجيل التالي من الروبوتات.
ماذا يعني هذا
الاختيار بين VLA و WAM هو قرار استراتيجي لكل من يبني الروبوتات اليوم. VLA ينطلق بشكل أسرع مع البيانات المتاحة للتحكم عن بعد؛ WAM قد يتسع بشكل أفضل بدون تعليقات توضيحية يدوية مكلفة. مع تصبح نماذج توليد الفيديو أرخص وتتحسن، ستصبح نماذج العمل العالمية أكثر جاذبية — وتعتزم NVIDIA احتلال مراكز رائدة في كلا المعسكرين في نفس الوقت.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.