مطور n0x علّم وكيله المتصفح فتح المواقع والتقاط لقطات الشاشة
حصل مشروع n0x على دعم بروتوكول MCP واتخذ خطوة من برنامج دردشة عادي إلى وكيل ذكاء اصطناعي قائم على المتصفح. بعد التحديث، يستطيع المساعد ليس فقط الرد بالنصوص…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
تلقى مشروع n0x دعم MCP واتخذ خطوة من واجهة محادثة عادية إلى وكيل ذكاء اصطناعي كامل القدرات يعمل في المتصفح. بعد التحديث، يمكن للمساعد ليس فقط تقديم ردود نصية، بل أيضاً فتح المواقع، وأخذ لقطات شاشة، وتنفيذ أوامر في المتصفح عند طلب المستخدم المباشر.
من الرابط إلى الفعل
تبني فكرة المقالة على مشكلة معروفة لدى معظم تطبيقات LLM: فهي تصيغ الإجابات جيداً، لكنها تتصرف بشكل سيء. إذا طلبت من هذا النظام أن "يفتح Yandex"، غالباً ما يعود برابط بدلاً من اتخاذ إجراء فعلي. بالنسبة للمستخدم، يبدو هذا مثل محاكاة للمساعدة: النموذج يعرف ما يدور الحديث عنه، لكنه لا يستطيع الخروج عن نافذة النص.
وهنا بالذات حيث تصطدم العديد من الوعود حول مساعدات الذكاء الاصطناعي بسقف: المعرفة موجودة، لكن التنفيذ لا. في n0x، قررت التخلص من هذا الحد الفاصل. يصف المؤلف كيف أضاف في ليلة واحدة دعم التحكم في المتصفح إلى المشروع وحول المساعد من "برنامج محادثة" إلى وكيل قادر على التفاعل مع صفحات الويب.
السيناريو الرئيسي هنا واضح تماماً: عند الأمر "افتح..." يجب على النظام الآن فعلاً فتح الموقع، وليس مجرد اقتراح عنوان. الفرق قد يبدو طفيفاً، لكنه بالضبط ما يفصل عرض نموذج عن أداة مستخدم حقيقية.
«شكراً، أيها القائد الواضح، كنت أعرف هذا بنفسي.»
ما أضافه MCP
أصبح الأساس التقني هو MCP — Model Context Protocol. يسمح هذا النهج بربط الأدوات الخارجية بنموذج لغة واستمكينه من الوصول المضبوط إلى الإجراءات التي ظلت تاريخياً خارج قدراته. في حالة n0x، لا نتحدث عن نموذج جديد، بل عن مستوى جديد من التكامل بين النموذج والمتصفح.
هذا مهم للمشاريع التي تريد إضافة قدرات جديدة دون إعادة كتابة الهندسة المعمارية بأكملها. بعد تطبيق MCP، تلقى الوكيل ليس فقط تكاملاً مجرداً، بل مجموعة وظائف قابلة للتطبيق بالكامل. تغطي الدورة الأساسية لتشغيل وكيل المتصفح: استقبال الأمر، تنفيذ إجراء على الصفحة، تسجيل النتيجة، ومتابعة الخطوات في نفس الجلسة إذا لزم الأمر.
هذه المجموعة بالضبط هي ما يحول المحادثة إلى واجهة عمل، بدلاً من عرض جميل لقدرات النموذج. بدون هذه الخطوة، يبقى المستخدم وحده مع المتصفح.
- فتح المواقع بأمر نصي من المستخدم؛
- إنشاء لقطات شاشة للصفحات للتحقق المرئي من النتائج؛
- تنفيذ الأوامر ضمن جلسة المتصفح؛
- العمل مع واجهة الويب كأداة، وليس كوصف نصي؛
- أساس لسيناريوهات أتمتة أكثر تعقيداً.
في الواقع، يعمل MCP هنا كجسر عالمي بين النموذج ومجموعة من الإجراءات. بدلاً من المنطق المضمن، يقوم المطور بربط أداة، وصف ما يمكنها فعله، والنموذج يقرر متى يستدعيها بناءً على معنى الطلب. هذا النهج مريح لأن المتصفح لا يصبح وحدة منفصلة مع سيناريو يدوي، بل جزء من نظام عام للوكلاء. هذا يبدو بالفعل وكأنه أساس لسيناريوهات الاختبار والبحث والأتمتة الصغيرة. المعنى العملي هو أن LLM يتوقف عن كونه مجرد مولد عبارات. يحصل على القدرة على رؤية نتيجة إجراءاته ومتابعة العمل في نفس السياق. هذا مهم بشكل خاص للمهام حيث تكون الإجابة النصية عديمة الفائدة في حد ذاتها: فتح صفحة، التحقق من مظهرها، تشغيل أمر، جمع البيانات من الواجهة. كلما كانت الفجوة بين الإجابة والإجراء أصغر، زادت قيمة هذا المساعد.
لماذا يهم هذا
تُظهر قصة n0x جيداً إلى أين يتجه سوق أدوات الذكاء الاصطناعي. يحتاج المستخدمون إلى عدد أقل وأقل من المساعدين الذين ببساطة يعيدون كتابة الطلبات بشكل جميل. قيمة أعلى بكثير توضع على البرامج التي تقوم بعملية محددة: تفتح خدمة، تمر عبر خطوات في الواجهة، تأخذ لقطة شاشة، تعيد نتيجة جاهزة أو على الأقل قطعة وسيطة.
وكلاء المتصفح يتركون بالتالي حالة لعبة تجريبية ليصبحوا فئة منتجات عملية مفهومة. بالنسبة للمطورين، هذا أيضاً إشارة مهمة. حتى مشروع شخصي صغير يمكن الآن تحويله بسرعة نسبية إلى نموذج وكيل عامل إذا كان لديه وصول إلى متصفح ومجموعة واضحة من الأدوات.
في السابق، كان ينظر إلى هذه المجموعة غالباً على أنها أتمتة RPA ثقيلة، لكنها الآن تتجمع حول LLM وبروتوكول تكامل معياري. بالنسبة للفرق الصغيرة، هذا يعني دخولاً أرخص إلى مجال كانت تهيمن عليه سابقاً المنصات الكبيرة. دعم MCP مهم هنا ليس فقط كتفصيل تقني.
إنها علامة على انتقال من النماذج المعزولة إلى أنظمة الوكلاء، حيث يمكن لـ LLM العمل مع المتصفحات والواجهات البرمجية والأدوات المحلية في سلسلة واحدة. حتى الحد الأدنى من التكامل يغير بالفعل تجربة المستخدم: يبدأ الوكيل بالنظر إليه ليس كشريك محادثة، بل كمنفذ. وإذا كان يمكن تجميع هذه المجموعة "في ليلة واحدة"، ينخفض عتبة الدخول للمنتجات الصغيرة والمشاريع الشخصية بشكل ملحوظ.
ماذا يعني هذا
حالة n0x مثال صغير لكن توضيحي لكيف تتغير فئة تطبيقات الذكاء الاصطناعي بسرعة. ستكون الواجهات التي يمكنها إكمال المهمة هي التي تنتصر، وليس تلك التي تتحدث بشكل أفضل. يصبح MCP بهذا المعنى ليس ملحقاً عصرياً، بل طبقة أساسية للجيل التالي من وكلاء المتصفح. بالنسبة لفرق المنتج، هذه إشارة مباشرة: يتوقع المستخدمون بشكل متزايد ليس إجابة، بل مهمة مكتملة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.