قارنت Yandex بين MCP وCLI+Skill لوكلاء AI: 400 طلب وعطل غير متوقع
توصل فريق Yandex إلى أن اختيار البنية يؤثر مباشرة في استهلاك tokens عندما يعمل وكيل AI مع واجهات API داخلية. وقارن الفريق بين MCP وCLI + Skill عبر 14 سيناريو…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
أجرت فريق الخدمات الحضرية في Yandex معايرة قارنت بين طريقتين لربط وكيل ذكاء اصطناعي بواجهات برمجية داخلية — واكتشفت أن الاختيار المعماري يؤثر مباشرة على كفاءة إنفاق الرموز.
المشكلة: الرموز ليست لا نهائية
نافذة سياق محدودة — الجميع يعرف ذلك. لكن قلة يحسبون عدد الرموز المنفقة ليس على المهمة نفسها، بل على "الغلاف": أوصاف الأدوات، قوائم المعاملات، النتائج الوسيطة للاستدعاءات. في السيناريوهات المعقدة، يمكن لهذه النفقات العامة أن تشغل جزءاً كبيراً من السياق المتاح — وحينئذ يبدأ الوكيل في ارتكاب أخطاء ليس لأن النموذج سيء، بل ببساطة لأنه لم يتبقَّ مساحة مفيدة.
طرح دانيل ميخائيلوف من فريق منتجات الشركاء في Yandex السؤال بشكل مباشر: كيف يمكن إنجاز المزيد أثناء إنفاق رموز أقل عند العمل مع واجهات برمجية داخلية حقيقية؟
MCP مقابل CLI + Skill
قارن الفريق بين طريقتين لدمج وكيل مع الأدوات. MCP (بروتوكول سياق النموذج) — بروتوكول منظم: يتلقى الوكيل وصفاً لكل أداة بصيغة واضحة، تمر الاستدعاءات عبر طبقة موحدة. الميزة — عمومية وخطة يمكن التنبؤ بها. العيب — يشغل كل وصف أداة مساحة في السياق بالكامل.
CLI + Skill — نهج بديل: يصل الوكيل إلى سطر الأوامر، وتُدرَّج المعرفة حول الأدوات في "مهارة" مضغوطة — تعليمات موجهة مكتوبة مسبقاً. الوصف أكثر اختصاراً، لكنه يتطلب صيانة يدوية.
لاختبار الفرضية المستخلصة من الأبحاث الخارجية، جمعوا معايرة:
- 14 سيناريو حقيقي للعمل مع أدوات Yandex الداخلية
- نموذجا لغة
- أكثر من 400 طلب
- قياسات الدقة وإنفاق الرموز في كل سيناريو
اللحظة التي انهار فيها كل شيء
جاء الاكتشاف الأكثر قيمة ليس في النهاية، بل في منتصف التجربة: ما كان يعمل بثبات توقف فجأة عن العمل. وفقاً لميخائيلوف، كان هذا الفشل أكثر إثارة للاهتمام من الأرقام النهائية — اضطروا إلى فهم السبب.
"في لحظة ما، كل ما كان يعمل انهار — واتضح أن هذا كان الجزء الأكثر
إثارة للاهتمام. اضطررت إلى معرفة السبب."
غالباً ما تكشف مثل هذه الشذوذ في المعايير عن تبعيات مخفية: كيف يفسر النموذج صيغة الخطة، كيف تتصرف الأدوات تحت الاستدعاءات المتكررة، مدى استقرار الناتج مع صيغ مهام مختلفة. بدون مثل هذه "لحظة الضغط"، كانت النتائج قد تبدو متفائلة بسذاجة.
النتيجة: شجرة القرار
بناءً على سلسلة التجارب، جمع الفريق شجرة قرار عملية: متى يكون MCP أكثر ربحية، وعندما يكون — CLI + Skill. هذه ليست توصية مجردة، بل استنتاج من بيانات حقيقية — أكثر من 400 طلب في بنية تحتية حقيقية.
ما يعنيه هذا
اختيار طريقة لربط وكيل بواجهة برمجية ليس نزوة تقنية. إنه يؤثر على عدد الرموز المهدرة، وكم من الوقت يستمر السياق، ومدى استقرار سلوك الوكيل في السيناريوهات غير القياسية. بالنسبة للفرق التي تبني وكلاء منتجات على أنظمة داخلية، يوفر هذا البحث أداة ملموسة لاختيار البنية المعمارية — ليس لأسباب تسويقية، بل على أساس القياسات الحقيقية.
هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟
أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).
أهم ما في عالم الذكاء الاصطناعي — مرة كل أسبوع
سبع قصص مهمة فعلاً هذا الأسبوع، مختارة بعناية. بلا ضجيج ولا بيانات صحفية.
تم! تحقق من بريدك للتأكيد.