تبيّن أن وكلاء AI المزودين بالرؤية أغلى بعدة مرات من API عادي
تبيّن أن وكلاء المتصفح المزودين بالرؤية أغلى بعدة مرات من واجهات API العادية. كل لقطة شاشة يراها الوكيل تتطلب معالجة عبر نموذج رؤية مكلف. وعند التوسع إلى آلاف ا

وكلاء الذكاء الاصطناعي المستندة إلى المتصفح، التي ترى الشاشة وتقلد السلوك البشري، تكلف الشركات بأسعار أعلى بأوامر حجم من نماذج الذكاء الاصطناعي القائمة على النصوص العادية. أجرت شركة Reflex تحليل التكاليف واكتشفت أن سعر وكلاء الرؤية يتجاوز بكثير تكاليف طلبات API القياسية.
لماذا الرؤية أغلى من النص
عندما يقوم الوكيل بمعالجة النصوص فقط، تكون المهمة بسيطة نسبياً وغير مكلفة. تأخذ واجهة برمجة التطبيقات حصتها، والنموذج يعالج الطلب — وانتهى الأمر. لكن عندما يرى نفس الوكيل لقطة شاشة من الشاشة أو المتصفح أو نموذج ويب، يتم تفعيل نموذج رؤية يتطلب موارد حسابية أكثر بكثير ويكلف أكثر.
قد يكون سعر لقطة شاشة واحدة أعلى من تكلفة معالجة جلسة نصية كاملة من عشرات الجمل. قد تكلف النقرة الواحدة من وكيل المتصفح الشركة أكثر من حوار كامل مع روبوت دردشة نصي. هذا ليس افتراضاً — إنها ملاحظة من المطورين الذين قاموا بتوسيع نطاق وكلاء المتصفح للاستخدام الصناعي.
تتفاقم المشكلة بحقيقة أن الوكيل لا يستطيع "إعادة استخدام" لقطة شاشة واحدة. في كل مرة يتغير شيء على الشاشة (وهذا يحدث بعد كل إجراء للوكيل)، تكون هناك حاجة إلى صورة جديدة، واستدعاء vision-API جديد، تكاليف جديدة. يؤدي هذا إلى حالة تنمو فيها الأسعار بشكل أسي مع زيادة عدد الإجراءات.
كيفية حساب هذا عملياً
عندما يملأ الوكيل نموذجاً على موقع ويب، يبدو سير العمل كما يلي:
- التقط لقطة شاشة للشاشة (يتم تفعيل نموذج الرؤية)
- افهم ما يراه الوكيل: أزرار وحقول وأخطاء وتلميحات
- قرر الإجراء الذي يجب اتخاذه (هذا أرخص، منطق)
- نفذ نقرة وملأ الحقل واضغط الزر
- التقط لقطة شاشة أخرى — واستدعاء vision-API آخر
كل دورة مع الرؤية — عملية دفع منفصلة. عند طلب الطعام من خلال DoorDash، قد يلتقط الوكيل 5–10 لقطات شاشة: البحث عن مطعم واختيار مطعم ومشاهدة القائمة وإضافة الأطباق إلى السلة ومعالجة الدفع. هذا 5–10 استدعاءات لنموذج رؤية مكلف لمهمة واحدة. عند التوسع إلى آلاف هذه العمليات يومياً، تصبح التكاليف غير مستدامة. تكتشف الشركة بسرعة أنها أنفقت في يوم واحد من عمل الوكلاء أكثر مما أنفقته في شهر واحد من الحفاظ على النماذج النصية. تتحدث الأرقام عن نفسها: إذا كان طلب الرؤية يكلف 10 مرات أكثر من طلب النص، والوكيل يلتقط 10 لقطات شاشة لكل مهمة، فإن التكاليف تزيد بمقدار 100 مرة.
مشكلة التوسع
الشركات التي جربت وكلاء المتصفح غالباً ما تكتشف تكاليف مخفية. ما بدا أكثر اقتصاداً من توظيف شخص (وكيل واحد لمدة شهر أرخص من عامل حر)، في الواقع يكلف أكثر إذا كنت بحاجة إلى معالجة عشرات الآلاف من الشاشات يومياً.
"اقتصاد وكلاء الرؤية يختلف تماماً عن الوكلاء القائمين على النص.
الشركات تحسب العائد على الاستثمار بشكل خاطئ،" — قال المطورون.
هذا لا يعني أن وكلاء المتصفح غير مربحة. هذا يعني أنه لا يمكن إطلاقها بدون حساب دقيق. هناك حاجة إلى حساب صادق: كم يكلف دورة واحدة للوكيل، وكم دورة لكل مهمة، وكم مهمة في اليوم، وما النتيجة. بدون هذا، يمكنك إنفاق الميزانية بأكملها بسرعة أكثر مما هو متوقع.
ما يعنيه هذا
يتطلب تطوير وكلاء المتصفح نهجاً جديداً للتسعير. يجب على الشركات أن تفهم تكلفة نماذج الرؤية قبل النشر في الإنتاج، وليس بعد فاتورة. وإلا، فإن التوفير في الأتمتة سيتحول إلى نفقات غير متوقعة. هذا سيؤخر مؤقتاً اعتماد هذه الوكلاء، لكنه سيفرض اتخاذ القرارات بوعي.