تختار AMI Labs الرهان على نماذج العالم ما بعد LLM وترى مسارًا للمنتجات عبر VLA
AMI Labs، وهو مشروع يان لوكون، يتقدم بنماذج العالم كخطوة تالية بعد LLM: بدلاً من التنبؤ بالرموز—فهم البيئة وعواقب الإجراءات. JEPA والتمثيلات الكامنة في قلب…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
بعد الازدهار الكبير للنماذج اللغوية الكبيرة، تقترح شركة AMI Labs تحويل مركز ثقل الذكاء الاصطناعي من اللغة إلى فهم البيئة المادية: فالآلة لا يمكنها مجرد مواصلة النص إذا كان عليها أن تعمل بأمان في العالم الحقيقي، وتخطط الخطوات، وتقيّم عواقب قراراتها مسبقاً. AMI Labs هي شركة بحثية أسسها يان لوكون، أحد الرواد الرئيسيين في التعلم العميق. جذب المشروع مليار و30 مليون دولار بتقييم قبل الاستثمار بقيمة 3.
5 مليارات دولار، مما يدل على أن الاهتمام بنماذج العالم تجاوز النقاش الأكاديمي. تعمل الشركة من فرضية بسيطة: البيانات من الكاميرات والمستشعرات والأجهزة منظمة بشكل مختلف عن النص. فهي مستمرة وضوضائية ومتعددة الأبعاد وسيئة التكيف مع منطق "توقع الرمز التالي".
بدلاً من تكييف النماذج اللغوية الكبيرة مع أي سيناريو، تعتمد AMI على طبقة أساسية مختلفة: نموذج العالم. هنا، نموذج العالم ليس مولد فيديو وليس مجرد نظام متعدد الأشكال يحتوي على صور ونصوص وإجراءات كمدخلات. يقصد به نموذج يبني تمثيلاً داخلياً مخفياً للبيئة، ويحدد العلاقات المستقرة، ويتجاهل التفاصيل العشوائية.
ما يهم ليس كل بكسل من الإطار المستقبلي، بل هيكل ما يحدث: أين تقع الأشياء، وكيف تتحرك، وما هي القيود التي تملكها البيئة، وما الذي سيتغير بعد تصرف الوكيل. يجب أن تجيب هذه العمارة ليس فقط على "ماذا أرى" بل أيضاً على "ماذا سيحدث إذا فعلت هذا". هذا بالضبط السبب في أن JEPA—معمارية التضمين المشترك التنبؤية—تصبح محورية في النهج.
في هذا المنطق، يتنبأ النموذج ليس بالبيانات الخام أو سلسلة من الرموز، بل بالحالة في فضاء التمثيل. يسمح هذا للنظام بتجنب صرف الحسابات على الضوضاء والتغييرات العشوائية، والتعلم بدلاً من ذلك من الميزات الحقيقية ذات المعنى للمشهد. ظهر دليل عملي لهذا النهج بالفعل في بحث V-JEPA 2: تم تدريب النظام أولاً على أكثر من مليون ساعة من فيديو الإنترنت، ثم تم ضبطه الدقيق باستخدام نسخة مشروطة بالإجراءات على أقل من 62 ساعة من فيديو الروبوتات غير المسمى.
بعد ذلك، تمكن النموذج في وضع الصفر-شوت من العمل مع معالجات Franka في المختبرات الجديدة، وإجراء الإمساك وإزاحة الأشياء دون جمع البيانات خصيصاً لهذه البيئة وبدون دالة المكافأة. لكن نموذج العالم نفسه ليس وكيلاً كاملاً بعد. يمكنه التنبؤ بكيفية تطور الحالات، لكن يجب على شخص ما ترجمة هذا الفهم إلى إجراء محدد.
هنا يظهر VLA، طبقة الرؤية-اللغة-الإجراء، التي تربط الإدراك ونية المستخدم والأمر اللغوي والإجراءات المسموحة للنظام. أطروحة مهمة من AMI والأعمال المرتبطة بها هي أن VLA ونماذج العالم لا تتنافس. بل على العكس، بدون التنبؤ الداخلي، يبقى VLA تفاعلياً جداً: يمكنه إصدار الإجراء الصحيح "في الوقت الحالي"، لكنه يواجه صعوبات في السيناريوهات الطويلة والهشة والحساسة جسدياً حيث تحتاج إلى محاكاة عقلية لعواقب اللمس والحركة والتصادم أو الخطأ.
هذا هو السبب في أن الأسواق الأكثر وضوحاً لهذا النهج ليست واجهات الدردشة، بل الصناعات ذات تكلفة الفشل العالية: الأتمتة الصناعية والروبوتات والأجهزة القابلة للارتداء والرعاية الصحية. إذا ارتكب نموذج نصي خطأ في تلخيص مقالة، يكون الضرر محدوداً. إذا أساء نظام ذكي تفسير حالة المعدات، أو قيّم المخاطر بشكل غير صحيح في الطب، أو أساء حساب مسار الروبوت، فإن العواقب ستكون مادية بالفعل.
وبشكل ملحوظ، يُسمى أول شريك لـ AMI باسم Nabla من الطب الرقمي. هذا لا يعني أن الشركة قد حلت بالفعل مشكلة الذكاء الاصطناعي الموثوق للبيئات السريرية، لكنه يظهر الاتجاه: تركيز أقل على العروض البراقة والمزيد من التركيز على القابلية للتحكم والقابلية للتنبؤ والمحاكاة الداخلية للبيئة قبل الإجراء. الخلاصة الرئيسية هي أنه بعد عصر النماذج اللغوية الكبيرة، يتحول الحوار حول الذكاء الاصطناعي تدريجياً من الوصف اللغوي للعالم إلى نمذجته الداخلية.
لا يزال نهج AMI برنامجاً بحثياً وليس بديلاً جاهزاً للنماذج اللغوية الكبيرة: أصبح مصطلح "نموذج العالم" غامضاً بالفعل، والنقل إلى بيئات جديدة لا يزال بحاجة إلى إثبات. لكن إذا نجحت هذه الخطة، قد لا يأتي الاختراق العملي التالي في الذكاء الاصطناعي من روبوت محادثة آخر، بل من الأنظمة التي تفهم أولاً الواقع المادي وتتصرف بعد ذلك فيه.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.