MarkTechPost→ المصدر

أنشأت DeepMind فأرة AI تعمل بـ Gemini حتى لا ينتقل المستخدمون إلى الدردشات

أنشأت Google DeepMind نموذجًا أوليًا تجريبيًا لفأرة ذكية تعمل بـ Gemini. وهي تحلل السياق البصري والدلالي المحيط بالمؤشر، ما يتيح للمستخدم تنفيذ المهام عبر أوامر

أنشأت DeepMind فأرة AI تعمل بـ Gemini حتى لا ينتقل المستخدمون إلى الدردشات
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

قدمت Google DeepMind نموذجاً تجريبياً لفأرة ذكية مدعومة بـ Gemini تلتقط السياق البصري والدلالي حول المؤشر. هذا يسمح للمستخدمين بإكمال المهام من خلال اللغة الطبيعية والنقرات الموجهة، دون الانحراف بواسطة نوافذ ذكية منفصلة.

كيف ترى الفأرة الذكية

تستخدم الفأرة رؤية الحاسوب من Gemini لتحليل ما يوجد تحت المؤشر: النصوص والصور والأزرار وعناصر الواجهة. لكن الأمر لا يقتصر على التعرف على الصور. يفهم النظام ليس فقط المحتوى البصري (ما تراه) بل أيضاً السياق الدلالي (ما يعنيه في سياق ما يحدث). نشرت DeepMind عروضاً تجريبية لهذا النهج ووصفت أربعة مبادئ تفاعل رئيسية تشكل أساس تصميم مثل هذه الأداة. تسمح هذه المبادئ للفأرة الذكية بأن تكون مفيدة حقاً، وليست مجرد لعبة تجريبية.

لماذا هذا الحل أفضل

سير العمل النموذجي مع الذكاء الاصطناعي يتطلب تغييراً في السياق. تحتاج إلى مساعدة — تفتح نافذة محادثة منفصلة، تصف المهمة، تنسخ النتيجة، تلصقها مرة أخرى. هذا يقطع عملك ويتطلب شرحاً إضافياً. تحل الفأرة الذكية هذه المشكلة بشكل جذري: يتحدث المستخدم ببساطة، يشير الفأرة إلى المكان الصحيح، أو ينقر بشكل موجه، والنظام يفهم السياق ويساعد مباشرة داخل التطبيق الحالي. إنه كما لو كان مساعد ذكي متمرس يجلس بجانبك، يرى الشاشة كاملة، ويمكنه التصرف دون جذب الانتباه.

ميزة أخرى هي منحنى التعلم الأدنى. لا تحتاج إلى تعلم واجهة جديدة أو حفظ الأوامر. سلوك الفأرة بديهي: أشر وتحدث — احصل على النتيجة.

ما الذي يمكن للفأرة أن تفعله

أوضح الباحثون تطبيق الفأرة الذكية على مهام متنوعة:

  • ملء نماذج الويب باستخدام أوامر صوتية
  • البحث واستخراج المعلومات من محتوى الشاشة المرئي
  • أتمتة التنقل عبر المواقع والتطبيقات
  • العمل مع الجداول وتنظيم البيانات وتحليلها
  • إعادة صياغة النص والنسخ مع إعادة التنسيق
  • التحقق من المعلومات والمنطق في المستندات

تم اختبار كل من هذه السيناريوهات في مقاطع فيديو توضيحية. لا تتطلب الفأرة تبديل النافذة، مما يعني أن المستخدم يبقى مركزاً على المهمة.

ماذا يعني هذا

يتلاشى الحد الفاصل بين وكلاء الذكاء الاصطناعي في المتصفحات (التي تكمل المهام بشكل مستقل تماماً) والمساعدين الذكيين (التي تساعد البشر). تظهر Google DeepMind أنه في المستقبل، قد يكون الذكاء الاصطناعي مدمجاً بعمق أكبر — ليس في تطبيق منفصل، بل مباشرة في الأدوات التي يستخدمها الناس يومياً. هذا بحث في مرحلة مبكرة والنموذج الأولي له قيود. لكن إذا نضجت التكنولوجيا وتكاملت مع أنظمة التشغيل أو المتصفحات، فقد تغير بشكل كبير كيف يتفاعل الناس مع الحواسيب والذكاء الاصطناعي في نفس الوقت.

"بدون تغيير السياق، يصبح الذكاء الاصطناعي ليس مفيداً فحسب، بل طبيعياً

أكثر." قد يكون هذا النهج الخطوة التالية في تطور واجهات المستخدم، حيث لا يتنافس الذكاء الاصطناعي على الانتباه بل يساعد مع البقاء غير مرئي.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…