اليد بدلاً من الشاشة: كيف أعادت Wetour Robotics اكتشاف الواجهات
تخلت شركة Wetour Robotics عن الواجهات التقليدية والاعتماد على الشاشات والأوامر الصوتية. نظامها Orchestra يعالج ثلاثة تدفقات معلومات في الوقت ذاته: موقع الجسم…
معالج بواسطة الذكاء الاصطناعي من IEEE Spectrum AI؛ بتحرير Hamidun News
في مجال الذكاء الاصطناعي المادي حدث عدم توازن. الروبوتات تقفز وترقص وتجمع الأشياء الرقيقة بمهارة، لكن التحكم بها لا يزال يتطلب استخدام شاشة أو أزرار أو أوامر صوتية — طرق لم تتغير منذ أربعين سنة. حلت شركة Wetour Robotics هذه المشكلة من منظور مختلف. بدلاً من جعل الروبوتات أكثر ذكاءً، أعادت الشركة تصميم الواجهة بين الإنسان والآلة.
لماذا الشاشة والصوت لا يعملان
حقق مجال الذكاء الاصطناعي المادي تقدماً ملحوظاً من جانب الروبوتات خلال ثلاث سنوات. طورت شركات Boston Dynamics و Figure و Unitree المحركات والمهارات الحركية للذراعات الآلية على مستوى بدا مستحيلاً قبل عشر سنوات. وأظهرت Google DeepMind أن نماذج الرؤية واللغة والإجراء تعمل بفعالية في البيئات غير المنظمة. لكن التطور توقف عند مستوى الواجهات. فمنذ أربعين سنة، تنتظر أجهزة الكمبيوتر حتى يتوقف الإنسان ويركز انتباهه وينقل نيته إلى أمر قابل للتنفيذ. لكن على توربينات الرياح، أو في الموانئ المليئة بالحمولات، أو في الشوارع المكتظة بالسكان، يفشل هذا النهج بصمت. لا يمكن للفني أن يترك المفتاح. ولا يمكن للعامل أن ينظر إلى الشاشة. ولا يمكن للمارة أن يصرخوا بأوامر عالية. لقد تحول الاختناق من جانب الآلة إلى جانب الإنسان.
دمج النية المكانية: ثلاثة تدفقات بدلاً من واحد
أطلقت Wetour Robotics على نهجها اسم «دمج النية المكانية» (Spatial Intent Fusion) — وهي معالجة متزامنة لثلاثة تدفقات من المعلومات حول الإنسان:
- موضع الجسم في الفضاء
- اتجاه النظر والسياق البصري
- الإشارات الكهربائية من العضلات عبر مستشعرات الكهرومسح العضلي
- سرعة المعالجة أقل من 100 ميلي ثانية
- التنبؤ بالنية قبل 50-80 ميلي ثانية من الحركة المرئية
كل قناة من هذه القنوات، عند عزلها عن الباقي، تكون غامضة وقابلة لتفسيرات متعددة. لكن عندما تُعالج معاً على مستوى نظام التشغيل برسالة جداً منخفضة، فإنها ترسم صورة واضحة لا لبس فيها عما تنوي فعله.
كيف يعمل: الطبقات والمحركات في Orchestra
Orchestra هو مركز حوسبة محمول يتضمن ثلاث طبقات استقبال. يعالج VisionLink تدفق الفيديو: تتبع الكاميرات الأشياء والمسافات والسياق البصري. ويقرأ Conductor الإشارات الحيوية من سوار قابل للارتداء مزود بمستشعرات الكهرومسح العضلي السطحي (sEMG). ويدمج Orchestra OS هذه التدفقات في أربعة محركات متكاملة: إدراك المستشعرات، واستدلال النية، وتنسيق الأوامر، والتحقق من السلامة. والخدعة الرئيسية هنا هي أن جهود فعل وحدات المحرك تظهر على الجلد قبل 50-80 ميلي ثانية من اكتمال الإصبع للإيماءة. بعبارة أخرى، يتنبأ النظام بما ستفعله قبل أن تفعله فعلاً. وكل شيء يعمل محلياً — على الجهاز نفسه، بدون الاتصال بالسحابة. وتوفر NVIDIA Jetson Orin Nano Super قوة حوسبة كافية لإكمال حلقة التحكم في 100 ميلي ثانية.
«جسدك هو الواجهة»، هذا هو شعار
Wetour Robotics الذي يخفي خلفه معمارية معقدة تجمع بين رؤية الآلة ومعالجة الإشارات الحيوية واستدلال النية في الوقت الفعلي.
ماذا يعني هذا
تاريخ أجهزة الكمبيوتر هو في جوهره تاريخ ثورات الواجهات. حلت سطر الأوامر محل الشريط المثقوب، وحلت الواجهة الرسومية محل سطر الأوامر، وحل اللمس محل الفأرة، وحل الصوت محل اللمس. كل انتقال من هذه الانتقالات وسّع نطاق من يمكنه المشاركة في النظام وما يمكنه فعله معه.
أما الانتقال التالي فلن يكون شاشة جديدة ولا ميكروفون جديد. بل هو جسم الإنسان نفسه، يعمل كعقدة من الدرجة الأولى في شبكة حوسبة، بنفس السرعة والدقة لأي جهاز آخر متصل. وهذا لا يتنافس مع تطور الروبوتات الإنسانية ونماذج الأساس — بل هو مكمل لها.
فالروبوتات الإنسانية تحتاج إلى بيانات للتدريب. وعندما يصبح الإنسان عقدة من الدرجة الأولى في الحلقة، يتحول كل تفاعل له مع العالم إلى إشارة محتملة لتدريب الجيل القادم من الذكاء الاصطناعي المادي.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.