كيف تساعد النماذج اللغوية في تدريب روبوتات البناء من دون وسم يدوي للبيانات
طورت شركة Bedrock Robotics الناشئة، في إطار برنامج AWS Physical AI Fellowship، نهجًا للوسم التلقائي للبيانات لتدريب المعدات الإنشائية المستقلة. وبدلاً من وسم…
معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
تبقى صناعة البناء واحدة من أقل القطاعات أتمتة في العالم. الحفارات والجرافات والرافعات لا تزال يديرها البشر، والإنتاجية في صناعة البناء لم تشهد نمواً يذكر على مدى العقود الماضية—على عكس التصنيع الصناعي، حيث أصبحت الأتمتة معياراً منذ وقت طويل. أحد الأسباب الرئيسية لهذه الفجوة هو النقص الحاد في البيانات ذات الجودة العالية لتدريب الأنظمة ذاتية الحكم. وهذه هي المشكلة بالذات التي تعهدت بحلها شركة Bedrock Robotics الناشئة، في تعاون مع Amazon Web Services.
انضمت الشركة إلى برنامج AWS Physical AI Fellowship وحصلت على إمكانية الوصول إلى موارد مركز AWS Generative AI Innovation Center—وهي قسم في أمازون يساعد الشركاء على تطبيق الذكاء الاصطناعي التوليدي في المنتجات الحقيقية. المهمة التي حددتها Bedrock Robotics لنفسها تبدو بسيطة خادعة: تعليم معدات البناء العمل بشكل مستقل. لكن وراء هذه الصيغة تكمن مشكلة أساسية في توسيع نطاق البيانات.
لكي تتمكن الحفارة ذاتية الحكم من حفر خندق بأمان أو نقل التربة، يجب أن تُدرب نماذج الشبكات العصبية الخاصة بها على أحجام ضخمة من البيانات المُعَلَّقة. يجب تعليق كل إطار من مقطع فيديو على موقع البناء—بتحديد موضع المعدات والأشخاص والعوائق، وتحديد نوع العملية التي يتم تنفيذها، وتسجيل سياق البيئة المحيطة. تقليدياً، يقوم بهذا فريق من الممارسين، والعملية مكلفة وبطيئة ولا تتسع بشكل جيد. بالنسبة لصناعة البناء، حيث يكون كل موقع فريداً وتتغير الظروف كل ساعة، هذه المشكلة حادة بشكل خاص.
يعتمد حل Bedrock Robotics على نماذج الرؤية واللغة—وهي فئة من الأنظمة المتعددة الاستشعار القادرة على "رؤية" صورة و"فهم" الأوصاف النصية في نفس الوقت. تحلل هذه النماذج مقاطع الفيديو للأعمال الإنشائية، وتستخرج تلقائياً التفاصيل التشغيلية منها، وتنشئ مجموعات بيانات التدريب المُعَلَّقة بدون تدخل بشري. في الواقع، بدلاً من توظيف مئات الممارسين، توكل الشركة الناشئة التعليق إلى شبكة عصبية أخرى—وتفعل ذلك على مقاييس لا يمكن الوصول إليها للعمل اليدوي.
من الناحية التقنية، يعمل النهج كما يلي. يتم تغذية تيار الفيديو من موقع البناء إلى نموذج الرؤية واللغة المنتشر على بنية Amazon Bedrock. يحلل النموذج ما يحدث إطاراً تلو الآخر، ويتعرف على أنواع المعدات والعمليات التي يتم تنفيذها، ويحدد العلاقات المكانية بين الأشياء، وينشئ تعليقات مهيكلة. ثم تُستخدم هذه التعليقات كبيانات تدريب لنماذج متخصصة تتحكم مباشرة في المعدات ذاتية الحكم. إنه يشكل نوعاً من خطوط الإنتاج: نموذج عام كبير يعد البيانات لنماذج متخصصة صغيرة.
من المهم فهم السياق الذي ظهر فيه هذا الحل. الذكاء الاصطناعي المادي—الروبوتات والمركبات ذاتية الحكم والمعالجات الصناعية—يعيش لحظة مشابهة لما مرت به نماذج اللغة قبل عدة سنوات. الخوارزميات قوية بما فيه الكفاية، وموارد الحوسبة متاحة، لكن البيانات تبقى القيد الرئيسي. على عكس البيانات النصية، التي يمكن جمعها من الإنترنت، أو حتى الصور، التي يوجد منها مليارات على الإنترنت، فإن البيانات عن العمليات المادية هي مورد نادر ومكلف. كل ساعة من الفيديو من موقع بناء يجب أن لا تُسجل فقط، بل تُعَلَّق بشكل ذي معنى مع الأخذ في الاعتبار خصوصيات المجال.
يحول نهج Bedrock Robotics احتمالاً اقتصاديات صناعة المعدات ذاتية الحكم بأكملها. إذا توقف تعليق البيانات عن كونه اختناقاً، يمكن للشركات أن تكرر نماذجها بسرعة أكبر بكثير، وتدربها على سيناريوهات أكثر تنوعاً، وتطلق المنتجات إلى السوق بسرعة أكبر. ينطبق هذا ليس فقط على البناء—منطق مماثل ينطبق على التعدين والزراعة وخدمات الخزائن والمستودعات وأي مجال آخر يجب أن تعمل فيه الأنظمة المادية بشكل مستقل في بيئات غير منظمة.
هناك، مع ذلك، أسئلة يجب طرحها. تقل جودة التعليق التلقائي حتماً عن التعليق اليدوي للخبراء، والأخطاء في بيانات التدريب يمكن أن تنتشر على نطاق واسع إلى النماذج النهائية للتحكم. بالنسبة للأنظمة التي تعمل جنباً إلى جنب مع الأشخاص على مواقع البناء، يُقاس سعر الخطأ ليس بالبكسل بل بالأرواح البشرية. مدى موثوقية التعليق التلقائي في السيناريوهات الحرجة من حيث السلامة—هذا سؤال لا يملك حتى الآن إجابة عامة.
مع ذلك، فإن الاتجاه محدد. استخدام الذكاء الاصطناعي التوليدي لتحضير البيانات التي تدرب ذكاء اصطناعي آخر ليس مجرد خدعة هندسية، بل نمط يتشكل في كل الصناعة. أمازون بوضوح تراهن على الذكاء الاصطناعي المادي باعتباره السوق الرئيسية التالية بعد نماذج اللغة، وبرنامج Physical AI Fellowship هو جزء من هذه الرهان. معدات البناء التي تفكر بنفسها تبقى مسألة المستقبل. لكن البيانات لهذا المستقبل بدأت بالفعل في التحضير من قبل الآلات.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.