Xiaomi تفتح الشيفرة المصدرية لأول نموذج VLA خاص بها للروبوتات
خطت Xiaomi خطوة مهمة في تطوير الروبوتات بإتاحة الشيفرة المصدرية لأول نموذج Vision-Language-Action (VLA) خاص بها، Xiaomi-Robotics-0. ويجمع النموذج، الذي يضم…
معالج بواسطة الذكاء الاصطناعي من 36Kr (36氪)؛ بتحرير Hamidun News
Xiaomi تفتح الكود المصدري لنموذج VLA الأول لديها للروبوتات
Xiaomi تفتح الكود المصدري لنموذج VLA الأول لديها وتغير قواعد اللعبة في الروبوتات
اتخذت Xiaomi خطوة حاسمة في تطوير الأنظمة المستقلة من خلال فتح الكود المصدري لـ Xiaomi-Robotics-0 — نموذج Vision-Language-Action الأول لديها للروبوتات. يعني الإعلان الذي تم الإدلاء به في 12 فبراير أن المطورين في جميع أنحاء العالم سيحصلون على إمكانية الوصول إلى نماذج تضم 4.7 مليار معامل تجمع بين الإدراك البصري وفهم اللغة الطبيعية والتحكم بالروبوت في الوقت الفعلي. هذا ليس مجرد مشروع مفتوح المصدر آخر — بل هو إشارة إلى أن عملاق التكنولوجيا الصيني يراهن بجدية على تطوير الذكاء الاصطناعي متعدد الأنماط للأتمتة المادية وأنه مستعد لمشاركة إنجازاته مع المجتمع العالمي للمطورين.
حتى الآن، ظل مجال نماذج VLA حقلاً محصوراً بفئة قليلة من الشركات. تم إنشاء أقوى الحلول في هذا المجال من قبل شركات مثل Tesla مع جهازها لمعالجة الأشياء و Google DeepMind مع تجاربها الروبوتية. تتعلم هذه النماذج ربط ما يراه الروبوتات مع الأوامر اللغوية الطبيعية والإجراءات المحددة في الوقت الفعلي. المشكلة هي أن تدريب مثل هذه الأنظمة يتطلب حجماً ضخماً من بيانات الفيديو وموارد حوسبية قوية وفهماً عميقاً لميكانيكا الروبوت. يغير قرار Xiaomi هذه الديناميكية. من خلال إطلاق الكود المصدري وأوزان نموذجها، تقوم الشركة بتحقيق ديمقراطية الوصول إلى تكنولوجيا كانت في السابق من اختصاص الشركات الكبرى ذات الميزانيات الضخمة.
تم تصميم Xiaomi-Robotics-0 للعمل بكفاءة وبطريقة عملية. النموذج الذي يضم 4.7 مليار معامل يمثل التوازن الذهبي بين السرعة والأداء. وهو مدمج بما يكفي للعمل على منصات الروبوتات التي تتمتع بقدرات حوسبية محدودة، لكنه يتمتع بقوة كافية لحل مهام التلاعب المعقدة. تجمع المعمارية بين ثلاثة مكونات رئيسية: محول بصري يحلل الصور من كاميرات الروبوت؛ ومكون لغوي يعالج تعليمات المستخدم باللغة الطبيعية؛ ووحدة إجراء تنشئ أوامر التحكم في الوقت الفعلي. هذا التكامل حرج لأن الروبوت يجب أن لا يفهم المهمة فقط (على سبيل المثال، "خذ المكعب الأحمر")، بل أيضاً يترجمها على الفور إلى إحداثيات الحركة وقوة القبضة.
لاستراتيجية Xiaomi في فتح الكود منطق واضح. في نظام الروبوتات البيئي، تتطور المنافسة ليس كثيراً على مستوى النماذج، بل على مستوى الأجهزة والبرامج ونظام التطبيقات البيئي. بفتح نموذج VLA، تسمح الشركة لآلاف المطورين بتجربة حالات استخدام جديدة وتكييف التكنولوجيا مع روبوتاتهم الخاصة. هذا ينشئ تأثير قيمة الشبكة: كلما زاد عدد الأشخاص الذين يحسنون النموذج ويجدون تطبيقات جديدة، كلما زادت احتمالية أن تعمل الحلول الناشئة من هذا المجتمع مع تطورات Xiaomi الداخلية.
بالنسبة للصناعة، هذا يعني تسريع التطوير. ستتمكن الشركات الناشئة والجامعات والشركات من تجربة التحكم متعدد الأنماط بالروبوتات دون البدء من الصفر. تم بالفعل تدريب النموذج على بيانات حقيقية وله معمارية معقولة يمكن تكييفها لمنصات مختلفة. هذا مهم بشكل خاص في لحظة تقف فيها الروبوتات على عتبة الانتقال من المختبرات إلى الإنتاج والحياة اليومية.
تُظهر خطوة Xiaomi اتجاهاً أوسع: يفهم قادة الذكاء الاصطناعي بشكل متزايد أن فتح بعض تطوراتهم ينشئ نظاماً بيئياً أقوى من السيطرة الصارمة. هذا لا يعني أن الشركة تتخلى عن روبوتاتها — على العكس، ستبقى مغلقة وملكية. لكن نموذج VLA يصبح الأساس الذي ستنمو عليه صناعة بأكملها، و Xiaomi بالفعل تضع الأساسات لهذا الأساس اليوم.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.