أطلقت Microsoft Research برنامج Webwright — وكيل متصفح يحل مهام الويب بنسبة 60%
أطلقت Microsoft Research برنامج Webwright — وكيل طرفي للمتصفح. بدلاً من استخدام click-trace القياسي، يستخدم نصوص Playwright. على معيار Odysseys المعقد، حقق الإط

قدمت مايكروسوفت للأبحاث Webwright — إطار عمل لوكلاء المتصفح الذي ينفذ المهام الويب المعقدة بنجاح أكبر بمعدل تقريباً مرتين من نماذج اللغة الأساسية.
كيف يعمل Webwright
هذا وكيل يستند إلى محطة طرفية يؤتمت التفاعل مع المتصفح. الميزة الرئيسية: بدلاً من نهج click-trace التقليدي (حيث يسجل النظام سلسلة من النقرات والإحداثيات)، يقوم Webwright بإنشاء وتنفيذ نصوص Playwright — إطار عمل قوي لأتمتة المتصفح البرمجية.
يتم بناء الإطار بطريقة بسيطة: حوالي 1000 سطر من الكود، ثلاث وحدات تعمل في دورة وكيل موحدة. يبدو هذا التصميم البسيط ساذجاً في البداية، لكن النتائج أثبتت أنها مثيرة للإعجاب. بدلاً من محاولة إنشاء نقرات نقطة بنقطة، يفهم الوكيل بنية DOM ويكتب النصوص الضرورية.
نتائج المعايير القياسية
في معيار Odysseys (الذي يختبر تنفيذ مهام ويب طويلة في متصفح حقيقي)، حقق Webwright مع GPT-5.4 نسبة 60.1%. هذا ضعف الأساس 33.5% من النموذج وحده. في معيار Online-Mind2Web الأبسط، الدرجة أعلى — 86.7%. المهم: هذه أفضل نتيجة بين جميع وصفات harness مفتوحة المصدر.
لم يتم تحقيق التحسن بمعدل مرتين من خلال حيل خاصة أو حلول مشفرة بشكل صارم. إنها نتيجة مباشرة لتصميم دورة الوكيل المناسب والاستخدام الفعال لقدرات GPT-5.4.
- معيار Odysseys: 60.1% (كان 33.5% للنموذج الأساسي)
- Online-Mind2Web: 86.7% (رقم قياسي بين مشاريع المصدر المفتوح)
- حجم الإطار: ~1000 سطر من الكود
- الهندسة المعمارية: ثلاث وحدات في دورة موحدة
- النموذج: GPT-5.4 (معياري، بدون ضبط دقيق)
لماذا يعمل هذا
اعتمد وكلاء المتصفح لفترة طويلة على سلاسل click-trace أو يتطلبان نماذج لغة ضخمة. يوضح Webwright طريقة ثالثة: الهندسة المعمارية المناسبة ونصوص Playwright كلغة وسيطة توفر مكاسب كبيرة في الجودة. بالإضافة إلى ذلك، يسمح Playwright للوكيل بالعمل مع DOM مباشرة، وهو أكثر موثوقية من الاعتماد على رؤية الحاسوب. عندما يتغير موقع الويب، يمكن للنص أن يتكيف لأنه يرى بنية الصفحة، وليس فقط البكسلات.
ماذا يعني هذا للسوق
وكلاء المتصفح ينضجون. أظهرت مايكروسوفت للأبحاث نهجها، بينما يعمل OpenAI (Operator) وAnthropric (Computer Use) وآخرون بالتوازي. سوق أتمتة الويب بدأ للتو يتشكل: ملء النماذج، مقارنة الأسعار، طلب الخدمات، إدارة الاشتراكات. يثبت Webwright أنه لتحقيق نتائج جيدة ليس من الضروري انتظار نماذج فائقة — الهندسة المعمارية المناسبة والوحدات البسيطة يمكن أن توفر تحسينات في الجودة متعددة الأضعاف.