شرحت Anthropic و OpenAI و LangChain لماذا يحتاج وكلاء الذكاء الاصطناعي إلى harness
شركات الذكاء الاصطناعي الكبرى تتنافس بشكل متزايد ليس فقط على النماذج، بل على جودة agent harness. إن التنسيق والذاكرة والتحكم في السياق والتنفيذ الموثوق…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
المشكلة الرئيسية للوكلاء الذكيين الحديثين لا تكمن في جودة النموذج الأساسي، بل في الطبقة التي تحيط به: التنسيق، والذاكرة، وإدارة السياق، وتشغيل الأدوات الموثوق. هذه الطبقة، التي يُطلق عليها بشكل متزايد agent harness، تحول نموذج اللغة الكبير بلا حالة من عرض توضيحي مثير إلى نظام قادر على تنفيذ سلاسل طويلة من الإجراءات بموثوقية، والتعافي من الأخطاء، وتقديم النتائج. في المرحلة الأولى، تقتصر العديد من الفريق على واجهة دردشة، وعدة استدعاءات أداة، ودورة ReAct بسيطة.
بالنسبة للنموذج الأولي، هذا كافٍ: يقوم النموذج بالاستدلال، واختيار أداة، والحصول على إجابة، ومتابعة الحوار. لكن في سيناريوهات الإنتاج، تظهر أعطال النظام بسرعة. ينسى الوكيل ما فعله قبل خطوتين أو ثلاث خطوات، ويكرر نفس الاستدعاءات، ويفقد النتائج الوسيطة، وتمتلئ نافذة السياق بضوضاء عشوائية.
هناك مشكلة منفصلة متعلقة بالأدوات: يمكنها إرجاع تنسيقات غير متوقعة، أو الرد بتأخير، أو الفشل بدون سبب واضح. إذا لم تكن هناك طبقة تحكم وتسجيل واستعادة فوق هذا، فإن جودة النظام يتم تحديدها ليس بذكاء النموذج، بل بهشاشة الغلاف. هذا هو السبب في أن اللاعبين الكبار مثل Anthropic و OpenAI و Perplexity و LangChain يبنون ليس فقط نماذج جديدة، بل بنية تحتية كاملة للوكلاء.
في مركز هذه البنية التحتية يوجد دورة التنسيق: تقرر متى يحتاج النموذج إلى التفكير مرة أخرى، ومتى يستدعي أداة، وما الذي يجب حفظه في الذاكرة، وما الذي يجب إعادته للمستخدم، ومتى يتوقف. بشكل أساسي، يعمل harness كنظام تشغيل للوكيل. يحدد قواعد التنفيذ، ويراقب حالة الجلسة، ويوجه الإجراءات بين النموذج والخدمات الخارجية، ويقلل احتمالية دخول الوكيل في حلقة لا نهائية أو فقدان هدف المهمة.
يمكن اعتبار مكونات معينة من هذا النهج إلزامية بالفعل. أولاً، إدارة الأدوات: وصف الواجهات، والتحقق من صحة المدخلات، وإعادة المحاولة، والمهل الزمنية، ومعالجة الأخطاء. ثانياً، الذاكرة متعددة الطبقات: الذاكرة قصيرة الأجل للمهمة الحالية، وذاكرة العمل للنتائج الوسيطة، والذاكرة طويلة الأجل للتفضيلات والقواعد والخبرة المتراكمة. ثالثاً، التحكم في السياق: اختيار الأجزاء المهمة حقاً، وضغط السجل، وإزالة القمامة، وتمرير النموذج فقط ما يؤثر على الخطوة التالية. عندما تكون هذه الآليات غائبة، حتى نموذج اللغة الكبير القوي يتدهور مع نمو طول المهمة. عندما تكون موجودة، يبدأ نفس النموذج في العمل بشكل أكثر موثوقية.
هناك طبقة أخرى مهمة من harness متعلقة بالملاحظة وتقييم الجودة. لا يكفي أن يعرف المطور أن الإجابة كانت سيئة؛ يحتاج إلى رؤية كامل مسار الوكيل: أي مطالبة تم إرسالها للنموذج، وأية أداة تم استدعاؤها، وأي إجابة تم إرجاعها، وأين حدث الخطأ، ولماذا تم اختيار الخطوة التالية. بدون هذا، من المستحيل تصحيح سلوك الوكيل بشكل صحيح وتحسين النظام بشكل متكرر. لهذا السبب تضيف الأكوام الناضجة التتبع، والمقاييس، والتنفيذ في بيئة معزولة، ونقاط التفتيش اليدوية، وآليات إدراج الإنسان في الحلقة للإجراءات المحفوفة بالمخاطر.
التأثير العملي واضح. تستشهد المقالة بمثال من LangChain: قامت الشركة بتحسين ليس أوزان النموذج نفسه، بل البنية التحتية حوله، وكان هذا كافياً للارتفاع بشكل كبير في TerminalBench 2.0، من مراكز خارج الثلاثين الأولى إلى المركز الخامس. نتيجة أخرى أكثر إثارة للاهتمام: في مشروع بحثي، تم استخدام نموذج اللغة الكبير لتحسين بنيته التحتية الخاصة للوكيل، وحقق النظام معدل نجاح بنسبة 76.4٪، متفوقاً على الحلول المجمعة يدوياً. هذه إشارة مهمة للسوق.
يتحول التنافس من السؤال "أي نموذج أذكى" إلى "أي بيئة تنفيذ تساعد النموذج بشكل أفضل على التفكير والتذكر والتخطيط وتصحيح نفسه". بالنسبة للمطورين وفرق المنتج، الخلاصة واضحة: إذا كنت تريد وكيلاً عاملاً بدلاً من برنامج روبوت لعبة، فأنت بحاجة إلى الاستثمار ليس فقط في اختيار النموذج، بل في harness. الفائزون سيكونون هؤلاء الذين ينظمون بشكل أفضل دورة التنفيذ والذاكرة والسياق والملاحظة وتحمل الأخطاء.
في المستقبل القريب، ستكون جودة هذا الغلاف، وليس قفزة أخرى في المعايير، هي الفرق الرئيسي بين عرض توضيحي جميل ونظام يمكنك الوثوق به للعمل الفعلي.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.