DeepMind Blog→ المصدر

Google DeepMind تقدّم Gemini Robotics-ER 1.6 للمهام المستقلة في العالم الحقيقي

قامت Google DeepMind بتحديث Gemini Robotics-ER إلى الإصدار 1.6 وركّزت على سيناريوهات العالم الحقيقي: من التعرف على الكائنات والتحقق من تنفيذ المهام إلى قراءة…

معالج بواسطة الذكاء الاصطناعي من DeepMind Blog؛ بتحرير Hamidun News
Google DeepMind تقدّم Gemini Robotics-ER 1.6 للمهام المستقلة في العالم الحقيقي
المصدر: DeepMind Blog. كولاج: Hamidun News.
◐ استمع للمقال

قدمت Google DeepMind نموذج Gemini Robotics-ER 1.6 في 14 أبريل 2026 — وهو نموذج استدلالي محدّث للروبوتات، مصمم ليس فقط لتنفيذ الأوامر، بل لفهم البيئة الفيزيائية. تراهن الشركة على التفكير المجسّد، أي قدرة النظام على ربط الإدراك البصري وسياق المهمة والإجراء في العالم الحقيقي.

تركز النسخة الجديدة على التفكير المكاني الأكثر دقة وفهم المشهد من عدة كاميرات وتحديد إكمال المهمة وقراءة الأجهزة الصناعية. في الواقع، يتعلق الأمر بـ "دماغ" عالي المستوى للروبوت يمكنه استدعاء الأدوات الخارجية ونماذج VLA والدوال المخصصة لتنفيذ سيناريوهات معقدة في العالم الحقيقي. كان أحد التحسينات الرئيسية العمل مع المهام المكانية.

تشرح DeepMind أن العملية الأساسية للروبوت، مثل الإشارة إلى شيء، ليست تافهة بل هي أساس السلوك الأكثر تعقيداً. من خلال النقاط، لا يمكن للنموذج فقط العثور على الأشياء، بل أيضاً عدّها ومقارنة أحجامها وبناء العلاقات بين الأشياء واختيار نقاط الإمساك المثلى والتحقق من القيود من التعليمات. على سبيل المثال، إذا كان على النظام أن يعرض جميع الأشياء التي تتسع في فنجان أزرق، فيجب عليه التعرف في نفس الوقت على شكل وحجم وموقع العناصر النسبي.

في العروض التوضيحية، حدّد Gemini Robotics-ER 1.6 بدقة أكبر عدد الأدوات في الإطار، لم يشر إلى الأشياء المفقودة وكان أداؤه بشكل عام أفضل بكثير في مثل هذه المهام من Gemini Robotics-ER 1.5 و Gemini 3.

0 Flash. الكتلة الثانية المهمة هي فهم المشهد من عدة وجهات نظر وما يسمى success detection، أي القدرة على تحديد ما إذا تم فعلاً إكمال المهمة. بالنسبة لعلوم الروبوتات المستقلة، هذا حرج: لا يكفي للروبوت أن يبدأ إجراء؛ يجب عليه أن يفهم ما إذا كان عليه إعادة المحاولة أو يمكنه الانتقال إلى الخطوة التالية من الخطة.

في الإعدادات الحقيقية، هذا صعب بشكل خاص لأن الكاميرات غالباً ما تنظر إلى المشهد من الأعلى ومن المحرك في نفس الوقت، وقد يتم إخفاء بعض الأشياء، والإضاءة والخلفية تتغير. يوازن Gemini Robotics-ER 1.6 بشكل أفضل بين عدة تدفقات فيديو ويجمع منها صورة متماسكة.

كمثال، تعرض DeepMind سيناريو حيث يحدد النظام، بناءً على عدة عروض، ما إذا تم إكمال المهمة "وضع القلم الأزرق في حامل الأقلام الأسود". الابتكار الأكثر عملية هو قراءة الأجهزة. طورت DeepMind هذه القدرة مع Boston Dynamics بناءً على مهام فحص المنشآت الصناعية.

في المصانع والغرف التقنية، يحتاج الروبوتات إلى فحص ميزان الحرارة والمقاييس والمستويات الكيميائية والنوافذ البصرية والشاشات الرقمية بانتظام. لهذا، لا يكفي التعرف على الصورة: يجب على النظام فهم موضع المؤشر ومستوى السائل وحدود المقياس والتقسيمات وتسميات وحدات القياس وأحياناً حتى مواءمة قراءات عدة مؤشرات تتوافق مع رتب مختلفة. إذا كان الحديث عن نافذة بصرية، يجب أيضاً مراعاة التشوهات بسبب زاوية الكاميرا.

وفقاً لـ DeepMind، ارتفعت دقة قراءة الأجهزة من 23% في Gemini Robotics-ER 1.5 و67% في Gemini 3.0 Flash إلى 86% في Gemini Robotics-ER 1.

6. مع تفعيل وضع agentic vision، يصل الرقم إلى 93%: يقوم النموذج أولاً بتكبير المنطقة المطلوبة، ثم يستخدم الإشارة إلى النقاط الرئيسية وتنفيذ الكود لتقييم النسب والفترات، وبعدها يفسر القيمة النهائية. تؤكد DeepMind بشكل منفصل على الأمان.

تسمي الشركة Gemini Robotics-ER 1.6 بأنها أكثر نموذج أماناً للروبوتات في الوقت الحالي. فهو يتوافق بشكل أفضل مع سياسات Gemini في المهام المكانية المعارضة ويحترم بشكل أكثر دقة القيود الفيزيائية — على سبيل المثال، عندما لا يستطيع النظام العمل مع السوائل أو رفع الأشياء التي تزيد عن 20 كيلوغراماً.

علاوة على ذلك، في السيناريوهات القائمة على تقارير الإصابات الحقيقية، يظهر Robotics-ER ميزة على Gemini 3.0 Flash: زائد 6 نقاط مئوية في المهام النصية وزائد 10 نقاط في مهام الفيديو المتعلقة بتحديد المخاطر. بالنسبة للمطورين، النموذج متاح بالفعل من خلال Gemini API و Google AI Studio، وإلى جانب الإصدار، نشرت DeepMind مثال Colab ودعت الشركاء إلى إرسال صور مشروحة بأخطاء نموذجية لتحسين الإصدارات المستقبلية.

يوضح هذا التحديث إلى أين تتحول المنافسة في علوم الروبوتات: الميكانيكا وحدها تقرر أقل فأقل والطبقة الاستدلالية فوقها تقرر أكثر فأكثر. إذا كان النموذج قادراً على رؤية المشهد من عدة وجهات نظر واستخدام الأدوات وقراءة الأجهزة والتحقق من النتائج وفي نفس الوقت مراعاة قيود الأمان، يصبح الروبوت ليس فقط جهاز تنفيذ بل نظام قادر على العمل بشكل سياقي. بالنسبة للفحوصات الصناعية والمستودعات والسيناريوهات الخدمية، هذا أحد أكثر الإشارات العملية على أن نماذج الذكاء الاصطناعي الكبيرة تقترب من الاستقلالية الحقيقية خارج المختبر.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…