MarkTechPost→ المصدر

MolmoWeb-4B من Ai2: وكيل ويب يرى المواقع كما يراها البشر، بدون معالجة HTML

أطلقت Ai2 (معهد ألين للذكاء الاصطناعي) MolmoWeb-4B — وكيل ويب مفتوح المصدر يتحكم في المتصفح بنفس طريقة الإنسان: بمراقبة لقطة شاشة واتخاذ قرار بشأن موضع النقر…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
MolmoWeb-4B من Ai2: وكيل ويب يرى المواقع كما يراها البشر، بدون معالجة HTML
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

قدمت Ai2 (معهد ألين للذكاء الاصطناعي) نموذج MolmoWeb-4B، وهو وكيل ويب متعدد الوسائط مفتوح المصدر يتحكم في المتصفح حصراً باستخدام لقطات الشاشة، دون تحليل HTML.

الرؤية بدلاً من التحليل

معظم وكلاء الويب يعملون مع شجرة DOM: يقرؤون كود HTML للصفحة، يجدون العناصر المطلوبة ويتفاعلون معها برمجياً. هذا النهج يفشل في المواقع الديناميكية وواجهات Canvas والصفحات التي تحتوي على جافا سكريبت ثقيل.

يسير MolmoWeb في طريق مختلف. يتلقى النموذج لقطة شاشة من الحالة الحالية للمتصفح ويرى الصفحة كصورة—تماماً كما يراها الإنسان. مهمة الوكيل: فهم ما يحدث على الشاشة وتحديد ما يجب فعله بعد ذلك. لا HTML، لا محددات DOM—فقط البكسلات والتفكير متعدد الوسائط.

كيفية عمل خط الأنابيب

تحت الغطاء، MolmoWeb-4B هو نموذج لغة متعدد الوسائط يحتوي على 4 مليارات معامل وتقدير 4 بت. هذا يسمح بتشغيله على Google Colab المجاني باستخدام GPU T4—وهو أمر مهم بشكل خاص للمطورين الذين لا يملكون أجهزة باهظة الثمن.

تتكون دورة عمل الوكيل من خمس خطوات:

  • التقاط لقطة شاشة من الحالة الحالية للمتصفح
  • تمرير الصورة إلى MolmoWeb-4B
  • تفكير النموذج حول حالة الصفحة (chain-of-thought)
  • التنبؤ بالإجراء التالي: نقرة أو إدخال نص أو التمرير
  • تنفيذ الإجراء والتقاط لقطة شاشة جديدة

الفكرة الأساسية لسير العمل المطلوب هي إجبار النموذج على التفكير بشكل صريح قبل التصرف. الوكيل لا يرى الزر ويضغط عليه فقط—بل يصيغ بالضبط ما يلاحظه على الشاشة، ويشرح لماذا يجب النقر هناك، وفقط بعد ذلك يولد الإحداثيات أو الأمر. هذا تكيف مع ما يسمى chain-of-thought prompting لتصور الواجهات البصرية.

الوصول المفتوح والممارسة

يتم نشر MolmoWeb تحت ترخيص مفتوحة من Ai2، مما يعني أن أي مطور يمكنه نشر وكيل ويب خاص به دون الاعتماد على واجهات برمجية مدفوعة من OpenAI أو Google أو Anthropic. ينشر المؤلفون برنامج تعليمي كامل: من إعداد البيئة في Colab وتحميل النموذج عبر Transformers إلى التكامل مع Playwright للتحكم في المتصفح. تُبنى دورة الوكيل من الصفر—التقاط لقطة شاشة، وتمريرها إلى النموذج، وتحليل الاستجابة، وتنفيذ الإجراء.

المزايا العملية:

  • التشغيل بدون مفاتيح API من الخدمات الخارجية
  • لا يتطلب ترميز خاص للموقع أو مكونات إضافية للمتصفح
  • متوافق مع أي موقع ونظام تشغيل
  • تعمل النسخة المقدرة (4 بت) على Colab T4
  • خط أنابيب قابل للتكرار بالكامل في الوصول المفتوح

تحفظ: في الوقت الحالي، هذه أداة بحثية. السرعة (تستغرق خطوة واحدة عدة ثوان) ودقة التنبؤ بالإجراء أقل من الوكلاء المتخصصين الذين لديهم وصول مباشر إلى DOM.

السياق: سباق وكلاء المتصفح

وكلاء المتصفح هي واحدة من أكثر الاتجاهات نشاطاً في تطوير الذكاء الاصطناعي في 2025-2026. تقوم Anthropic بـ Computer Use وGoogle بـ Project Mariner وOpenAI بـ Operator—اللاعبون الكبار يعملون بنشاط لتمكين نماذج الذكاء الاصطناعي من التحكم في أجهزة الكمبيوتر بدلاً من البشر. يحتل MolmoWeb من Ai2 مكانته الخاصة: مفتوح تماماً، قابل للتكرار، ويعمل على أجهزة الاستهلاك. إنه ليس منافساً مباشراً للحلول الموجودة في الشركات—بل هو أداة للباحثين والمطورين الذين يريدون بناء الوكلاء بشكل مستقل.

ماذا يعني هذا

وكيل متصفح مفتوح بـ 4 مليارات معامل يعمل على Colab هو خفض لحاجز الدخول لمهام أتمتة الويب. تحصل الفرق التي لا تملك ميزانيات الشركات على أداة عملية للتجريب مع الوكلاء الذين يقودهم الرؤية بدلاً من ترميز التعليم البرمجي.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…