استخدام الحاسوب (Computer Use)
استخدام الحاسوب هي قدرة ذكية اصطناعية، أطلقت أولاً علناً بواسطة Anthropic في أكتوبر 2024، التي تسمح لنموذج لغة بالتحكم في واجهة رسومية للحاسوب—تحريك المؤشر والنقر على الأزرار وكتابة النصوص وقراءة لقطات الشاشة—لإكمال المهام مثل مشغل بشري.
يشير استخدام الحاسوب إلى قدرة نظام ذكي اصطناعي على إدراك والتعامل مع سطح المكتب أو آلة افتراضية من خلال نفس الواجهة الرسومية التي يستخدمها الإنسان: مراقبة الشاشة عبر لقطات الشاشة وإصدار نقرات الفأرة وأحداث لوحة المفاتيح والتكرار حتى يتحقق الهدف. قدمت Anthropic القدرة كميزة بيتا من Claude 3.5 Sonnet في أكتوبر 2024، مما يشير إلى المرة الأولى التي تم فيها تدريب وتقييم نموذج لغة تجاري للاستخدام العام بشكل صريح للتفاعل مع واجهة المستخدم الرسومية على نطاق الإنتاج.
تعمل الحلقة التقنية كما يلي: يتلقى النموذج لقطة شاشة من حالة الشاشة الحالية؛ يستدل على الإجراء التالي المطلوب؛ يُخرج أمر إجراء منظم مثل نقرة في إحداثيات بكسل محددة أو سلسلة مكتوبة أو مجموعة مفاتيح؛ طبقة تنفيذ رقيقة تطبق هذا الإجراء على نظام التشغيل أو آلة افتراضية معزولة؛ لقطة الشاشة المحدثة تعود إلى النموذج. تستمر دورة الإدراك-الخطة-التصرف هذه حتى تكتمل المهمة أو يتم كشف حالة خطأ. يعمل النموذج على بيانات البكسل البصرية بدلاً من بيانات DOM أو شجرة إمكانية الوصول بشكل افتراضي، مما يجعله قابلاً للتطبيق على أي واجهة رسومية—بما فيها التطبيقات الموروثة—دون الحاجة إلى عمل التكامل.
أهمية استخدام الحاسوب تكمن في أنها تسمح للذكاء الاصطناعي بتشغيل برامج لا توجد لها واجهة برمجية وإجراء سير عمل متعدد الخطوات يمتد عبر عدة تطبيقات. كانت أساليب الأتمتة السابقة مثل RPA القائمة على Selenium تتطلب محددات عناصر مسبقة الصياغة التي تنكسر عندما تتغير واجهات المستخدم؛ يمكن للوكيل القائم على الرؤية أن يتكيف مع تغييرات التخطيط بالطريقة التي يفعلها مشغل الحاسوب البشري. تُظهر تقييمات المعايير على OSWorld و WebArena أداء ذا مغزى لكنه غير كامل—حققت نماذج 2025 معدلات نجاح حول 20-40% في المهام المعقدة متعددة الخطوات، مع تحسن الدرجات مع كل جيل نموذج متتالي.
بحلول 2026، يتم تقديم قدرات على غرار استخدام الحاسوب بواسطة موفرين متعددين: Anthropic (Claude) و OpenAI (Operator، تم الإطلاق في يناير 2025) و Google (Project Mariner). تتضمن التطبيقات في المؤسسة اختبار QA المؤتمت وإدخال البيانات في أنظمة ERP الموروثة واستبدال بوتات RPA الهشة. تحديات السلامة—خاصة منع محتوى الويب الضار من الاستيلاء على الوكيل من خلال حقن الموجهات المدمجة في النصوص المرئية على الصفحة—تظل منطقة بحث نشطة.