الوكلاء

وكيل المتصفح (Browser Agent)

وكيل المتصفح هو نظام ذكاء اصطناعي يتحكم بشكل مستقل في متصفح الويب—ملاحة الصفحات، والنقر على الروابط، وملء النماذج، واستخراج المعلومات—لإكمال المهام القائمة على الويب نيابة عن المستخدم دون توجيه خطوة بخطوة من الإنسان.

وكيل المتصفح هو نظام برمجي يجمع نموذج اللغة مع طبقة تحكم المتصفح، مما يمكّنه من التفاعل مع أي موقع ويب كما يفعل المستخدم. يدرك الوكيل محتوى الويب إما من خلال لقطات الشاشة المعروضة (النهج البصري)، أو شجرة DOM وشجرة إمكانية الوصول (النهج المنظم)، أو مزيج من الاثنين. يخطط لسلاسل متعددة الخطوات من الإجراءات—ملاحة URL، ونقرات العناصر، وإدخال النموذج، وتحميل الملفات—وينفذها عبر واجهات برمجة التطبيقات لأتمتة المتصفح مثل Playwright و Puppeteer و Chrome DevTools Protocol، أو من خلال واجهة Computer Use على مستوى نظام التشغيل.

تتضمن البنية عادة حلقة تخطيط: يتلقى النموذج حالة الصفحة الحالية، ووصف المهمة، وسجل الإجراءات السابقة، ثم يختار الإجراء التالي من مساحة إجراء محددة تغطي النقرات والإدخال المكتوب والتمرير والملاحة واستخراج النص. تضيف بعض التطبيقات وحدة ذاكرة لتتبع المعلومات المجمعة عبر صفحات عديدة، وخطوة تحقق للتأكد من أن الإجراء أسفر عن النتيجة المتوقعة قبل المتابعة. التأسيس—تعيين حد أعلى من التعليمات مثل 'انقر على زر الإرسال' بشكل دقيق على إحداثيات البكسل الصحيحة أو عنصر DOM—هو التحدي التقني الأساسي، خاصة على الصفحات ذات التخطيطات الديناميكية أو عرض JavaScript الثقيل.

تعتبر وكلاء المتصفح مهمة لأن جزءًا كبيرًا من العمل القائم على المعرفة ينطوي على الملاحة عبر الويب: البحث عن المنافسين، وتقديم نماذج المشتريات، ومراقبة الأسعار، والجدولة من خلال التقاويس المستندة إلى الويب. كانت أتمتة هذه التدفقات تتطلب سابقًا روبوتات RPA مخصصة بمحددات CSS هشة تنكسر كلما أعادت تصميم الموقع؛ يمكن لوكيل المتصفح المدعوم بنموذج اللغة أن يعمم عبر المواقع ويتعامل مع حالات الصفحة غير المتوقعة من خلال التفكير بدلاً من مطابقة الأنماط.

تجاريًا، أطلقت OpenAI Operator في يناير 2025، وـ Computer Use من Anthropic يمكن تطبيقه على مهام المتصفح. تسمح الأطر مفتوحة المصدر مثل Browser-Use و Stagehand (التي أطلقتها Browserbase في 2024) للمطورين بإنشاء وكلاء متصفح مخصصين. يعمل WebArena و WebVoyager كمعايير قياسية؛ تصل النماذج الرائدة في أوائل 2026 إلى 50–70% من النجاح على مجموعات المهام ذات الموقع الواحد، لكن الأداء تنخفض بشكل كبير على أسطح العمل متعددة المواقع التي تتطلب التفكير عبر المجالات وآفاق المهام الطويلة.

مثال

يقوم مدير المشتريات بنشر وكيل متصفح بالتعليمات 'الحصول على عروض أسعار لـ 500 وحدة من الجزء #A-4421 من ثلاثة مواقع ويب للموردين المعتمدين وتسجيل الأسعار في جدول تتبعنا'؛ يزور الوكيل كل مورد، ويبحث في الكتالوج، ويدخل النتائج دون تدخل الإنسان.

مصطلحات مرتبطة

← المسرد