Habr AI→ المصدر

OpenGrall قدم معمارية لروبوتات الذكاء الاصطناعي حيث نموذج اللغة يدير الاستراتيجية

يقترح OpenGrall عدم إعطاء التحكم الحركي مباشرة لنموذج اللغة: يتخذ قرارات عالية المستوى فقط، بينما التنفيذ والاستجابات الطارئة يتولاها حلقة TinyML. يتم جمع…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
OpenGrall قدم معمارية لروبوتات الذكاء الاصطناعي حيث نموذج اللغة يدير الاستراتيجية
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

تقدم OpenGrall تحولاً بسيطاً لكن مهماً في مجال الروبوتات: نموذج اللغة الكبير لا يجب أن يتحكم بالروبوت على مستوى المحركات والردود الفوري. هنا، نموذج اللغة مسؤول فقط عن المعنى والتخطيط واختيار الخطوة التالية، بينما يتم فصل الأمان والحركة والانعكاسات منخفضة المستوى في حلقة تغذية راجعة منفصلة. من خلال هذا النهج، يسعى المشروع إلى القضاء على المشكلة الرئيسية لمعظم عروض "روبوتات GPT"، حيث تتحدث الآلة بشكل جميل ولكنها تتجمد لعدة ثوان قبل كل إجراء.

يبدأ المؤلفون بالمشكلة الأكثر إيلاماً — الأمان. نموذج اللغة الكبير غير حتمي: يمكن أن ينتج الطلب نفسه إجابات مختلفة، مما يعني أن الثقة به بالتحكم المباشر في المحركات أمر خطير. تقدم OpenGrall مخطط هجين لهذا، حيث تؤدي دور "الحبل الشوكي" نموذج TinyML أو حلقة تنفيذ صارمة أخرى على جهاز التحكم الدقيق.

هذا بالضبط ما يفهم فيزياء المنصة المحددة، ويدير التعليق، والتغلب على العقبات، وله حق النقض على أي أمر. إذا قال مشغل أو نموذج لغة أن يتحرك للأمام، لكن جهاز قياس المسافة يكتشف جسماً أقرب من 10 سنتيمترات، فلن يتم تنفيذ الأمر ببساطة. زمن رد الفعل في إيقاف الطوارئ المعلن عنه أقل من 10 ميلي ثانية.

المنطق هنا براغماتي: نموذج اللغة يفكر، بينما وحدة التنفيذ تتصرف ويمكنها إيقاف الإجراء الخطير في أي لحظة. نقطة القوة الثانية الكبرى لـ OpenGrall هي المعيارية. ينفصل المشروع بين "التفكير" و "القيام" بحيث يمكن تغيير كلا الجزأين بشكل مستقل.

يمكن أن يؤدي دور الدماغ نموذج لغة محلي أو نموذج رؤية أو نموذج سحابي إذا كانت هناك حاجة إلى مهمة أكثر تعقيداً مثل التخطيط متعدد الخطوات أو البحث على الويب. دور المنفذ — نموذج TinyML أو VLA أو حتى خوارزمية عادية مرمزة بقوة إذا كانت المنصة بسيطة. يتم توصيل النظام بأكمله عبر خادم WebSocket، وتتصل الأجهزة كعملاء عاديين برول مثل agent أو operator أو lidar أو esp.

يتيح هذا إضافة مستشعرات جديدة دون إعادة كتابة النواة وحتى بناء مخطط حيث يعمل وكيل واحد مع أجسام متعددة في نفس الوقت: على سبيل المثال، منصة بعجلات وطائرة بدون طيار. بالنسبة لمشروع مفتوح المصدر على أجهزة ضعيفة، هذا التركيز مهم بشكل خاص: العمارة غير مرتبطة بنوع واحد من الروبوتات أو نموذج واحد محدد. الكتلة الهندسية الرئيسية هي ربط SensorMemory و WeightCalculator.

بدلاً من إرسال جميع التيارات الخام بلا تمييز إلى نموذج اللغة، يجمع النظام البيانات بشكل غير متزامن، ويقيم حداثتها وموثوقيتها، ثم يحولها إلى موجه قصير. إذا تسخ جهاز lidar أو عمي نموذج رؤية تحت الشمس، ينخفض وزنهما قبل لحظة اتخاذ القرار. إذا كان المستشعر بطيئاً، فإنه لا يحجب الآخرين.

توفر المقالة مثالاً توضيحياً: يتم طي سحابة نقاط lidar إلى ثمانية قطاعات، ويتم وصف الأجسام القريبة من خلال الزاوية والمسافة والحجم والسرعة. بالنسبة لنموذج اللغة، هذا لم يعد ضجيجاً بل موقف منظم. من المهم أن نلاحظ أن OpenGrall لا تحاول كتابة قواعد دمج بيانات معقدة يدويًا.

نموذج اللغة نفسه يعمل كحكم، يرى مصدر وعمر ووزن كل إشارة ويختار إجراءً بصيغة JSON على هذا الأساس. في نفس الوقت، يتم تضمين موجه النظام في النموذج مقدماً، على سبيل المثال عبر Ollama، لذا في دورة العمل يدخل الجزء التشغيلي "الخالص" فقط في الطلب. وفقاً لتقدير المؤلف، يقلل هذا الموجه من حوالي 450 إلى 150 رموز.

يركز منفصل من المقالة على محاربة "البطء". في العديد من الأطر الكلاسيكية، ينتظر الروبوت أبطأ مستشعر، وبسبب ذلك، تبقى المراقبة السريعة معطلة فعليًا. ترفض OpenGrall هذا التزامن: يكتب lidar و VLM والقياس الحركي البيانات إلى الذاكرة بشكل مستقل، والوكيل يأخذ القيم الأطازج والأكثر موثوقية في اللحظة الحالية.

لكن حتى بعد ذلك، لا يزال نموذج اللغة يفكر لمئات الميلي ثانية، لذا تمت إضافة حركة بالقصور الذاتي على جانب ESP32: إذا لم تكن هناك أوامر جديدة حتى الآن، لا يتجمد الروبوت ساكناً بل يستمر بسلاسة في آخر إجراء آمن مع إخماد السرعة. طبقة تحسين أخرى هي تخزين مؤقت للقرارات حسب تجزئة السياق. إذا واجه الروبوت مرة أخرى ممر فارغ نفسه، لا يدعو النظام النموذج مرة أخرى بل يأخذ الحل المتحقق منه بالفعل من الذاكرة المؤقتة.

بعد ذلك، تتطور هذه الفكرة نحو العادات والانعكاسات على مستوى عالٍ المألوفة: يمكن تنفيذ الاستراتيجيات الناجحة بالفعل بدون نموذج اللغة، والتغذية الراجعة البشرية تقوي وزنها. بالإضافة إلى ذلك، يخزن المشروع ذاكرة الحلقات من تعليمات الإنسان ويسمح حتى بتحديد الهدف المستقل، عندما يختار الروبوت بشكل مستقل ما يستكشفه، ما يتذكره، أو مع من يبدأ حواراً أثناء وقت الخمول. بنظرة أوسع، OpenGrall مثيرة للاهتمام ليس كمحاولة أخرى "لربط GPT بروبوت"، بل كمحاولة لنقل روبوتات نموذج اللغة إلى عمارة أكثر نضجاً.

لا يوجد وعد بدماغ عالمي سحري، لكن يوجد تقسيم واضح للمسؤوليات، والعمل مع الأجهزة المحدودة، والحماية من الإجراءات الخطرة، والمسار نحو التعلم التدريجي دون إعادة تدريب كاملة للنظام بأكمله. بالنسبة للمطورين، هذا يعني طريقة أكثر واقعية لبناء الروبوتات بناءً على النماذج الحديثة: استخدام نموذج اللغة حيث يكون قوياً ولا تجبره على فعل ما يناسب بشكل أفضل حلقة تنفيذ صغيرة وسريعة وقابلة للتنبؤ.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…