MarkTechPost→ المصدر

أطلقت Poolside نموذجي Laguna XS.2 و M.1 — نماذج مفتوحة للبرمجة بالوكلاء

أطلقت Poolside نموذجين للبرمجة بالوكلاء — Laguna XS.2 و M.1. حصل النموذج XS.2 على أوزان مفتوحة بموجب Apache 2.0 ويعمل محلياً ويحقق 68.2٪ على SWE-bench…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
أطلقت Poolside نموذجي Laguna XS.2 و M.1 — نماذج مفتوحة للبرمجة بالوكلاء
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت Poolside أول نماذج من عائلة Laguna — XS.2 و M.1 — وتراهن ليس على الذكاء الاصطناعي العادي لإكمال الكود تلقائياً، بل على وكلاء الكود الذين يمكنهم متابعة المهام لفترات طويلة وبصورة متسلسلة دون فقدان مستمر للسياق. الفكرة أن النموذج لا يجب أن يكتفي بكتابة مقطع كود، بل أن يقرأ مستودعاً، ويدخل تعديلات، ويشغل اختبارات، ويحلل الأخطاء، ويوصل التغيير إلى حالة عملية في دورة عمل واحدة.

ما قدمته Poolside

تضمن الإصدار نموذجين وبيئة وكيل تدرب عليها الشركة أنظمتها الخاصة. Laguna M.1 الرائد هو نموذج MoE كبير يحتوي على 225 مليار معامل و 23 مليار معامل نشط لكل رمز.

Laguna XS.2 أصغر بكثير: 33 مليار معامل إجمالي و 3 مليارات نشطة. بالنسبة للسوق، هذا إشارة مهمة: Poolside لا تطلق فقط نموذج من جانب الخادم للأحمال الثقيلة، بل أيضاً نسخة خفيفة للاستخدام المحلي.

أصبحت XS.2 أول نموذج مفتوح الأوزان للشركة. توزع Poolside النموذج بموجب ترخيص Apache 2.

0 وتؤكد على وجه التحديد أن النموذج يمكن أن يعمل على Mac بذاكرة 36 غيغابايت عبر Ollama. بالإضافة إلى النماذج، فتحت الشركة معاينة بحث لوكيل المحطة الطرفية pool وعميل ACP مع خادم. هذه نفس البيئة التي تستخدمها Poolside داخلياً لتدريب RL واختبار كيفية حل الوكيل لمهام الهندسة الحقيقية خطوة بخطوة.

النتائج على معايير الأداء

الحجة الرئيسية للإصدار هي النتائج على اختبارات التطوير المطبقة. حصلت Laguna M.1 على 72.

5% على SWE-bench Verified، و 67.3% على SWE-bench Multilingual، و 46.9% على SWE-bench Pro، و 40.

7% على Terminal-Bench 2.0. تأتي XS.

2 أقل قليلاً لكنها تبدو قوية جداً في فئة وزنها: 68.2% و 62.4% و 44.

5% و 30.1% على التوالي. بالنسبة لنموذج مفتوح الأوزان مضغوط، هذا بالفعل مستوى ستسعى إليه العديد من وكلاء الترميز المحلية.

هذه الأرقام مهمة ليس فقط بحد ذاتها. يتحقق SWE-bench Verified و Pro مما إذا كان النموذج قادراً على إصلاح الأخطاء الحقيقية في المستودعات الموجودة، بينما Terminal-Bench أقرب إلى سلوك الوكيل في المحطة الطرفية، حيث تحتاج إلى العمل مع الملفات والأوامر. تسمي Poolside بشكل مباشر كلا نموذج Laguna بنماذج للمهام طويلة الأفق: عندما تحتاج إلى الحفاظ على السياق، والتخطيط لسلسلة من الخطوات، وعدم الانهيار بعد سلسلة طويلة من استدعاءات الأدوات والفحوصات الوسيطة.

  • Laguna XS.2 هو أول نموذج مفتوح الأوزان من Poolside
  • أوزان XS.2 متاحة بموجب ترخيص Apache 2.0
  • نافذة السياق XS.2 هي 131,072 رمز
  • يمكن تشغيل XS.2 محلياً على Mac بذاكرة 36 غيغابايت
  • تم تدريب كلا النموذجين على أكثر من 30 تريليون رمز

كيفية صنع النماذج

تم تدريب كلا نموذج Laguna من الصفر على البنية التحتية الخاصة بـ Poolside، دون الاعتماد على نموذج أساس آخر. بالنسبة لـ M.1، استخدمت الشركة 6,144 وحدة معالجة رسومات NVIDIA Hopper متصلة ببعضها.

تستند العائلة على Mixture of Experts: في كل خطوة، يتم تفعيل جزء فقط من "الخبراء"، لذا يمكن أن يكون النموذج كبيراً بعدد المعاملات الإجمالي لكن ليس مكلفاً بقدر نماذج كثيفة بحجم مماثل. هذا مهم خاصة لسيناريوهات الوكلاء حيث تكون استدعاءات النموذج متكررة. بالنسبة لـ XS.

2، تصف Poolside بشكل منفصل مجموعة من حلول الكفاءة: خلط Sliding Window Attention والانتباه العام، وتكميم الذاكرة المؤقتة KV إلى FP8، وعمارة بها 256 خبيراً. نتيجة لذلك، حصل النموذج على نافذة سياق 131k رمز ودعم للتفكير الأصلي بين استدعاءات الأدوات. إذا أزلت التسويق، المعنى بسيط: يمكن للوكيل أن يتناوب بين التفكير والعمل مع المحطة الطرفية والخطوات التالية دون انقطاع قاسٍ بين هذه المراحل وبتكاليف ذاكرة أقل.

التركيز المنفصل في الإعلان هو على تدريب الوكلاء، وليس فقط نموذج اللغة نفسه. بنت Poolside نظام RL غير متزامن حيث ينشئ الممثلون صناديق رمل، ويشغلون المهام، ويجمعون الخيوط، ويمررونها تقريباً بشكل مستمر إلى المدرب. تؤكد الشركة أيضاً أن محسِّن Muon سمح بتحقيق نفس فقدان التدريب في حوالي 15% خطوات أقل مقارنة بـ AdamW.

هذا لا يجعل Laguna قائداً تلقائياً في جميع المقاييس، لكنه يُظهر نضج المكدس بأكمله، وليس فقط نقطة تفتيش ناجحة واحدة.

ما يعنيه هذا

يمتلك السوق الآن أكثر من مجرد "نماذج الكود"، بل أنظمة مصممة للبرمجة المدفوعة بالوكيل الحقيقية. بالنسبة للمطورين، يعني هذا ظهور قاعدة مفتوحة الأوزان قوية أخرى يمكن ضبطها وتكميتها وتشغيلها محلياً. بالنسبة للصناعة ككل، يُظهر إصدار Laguna تحولاً من سيناريو "النموذج يكتب دالة" إلى صيغة يقود فيها الذكاء الاصطناعي مهمة هندسية طويلة بالكامل — وهذا بالضبط ما تُبنى حوله الموجة التالية من المنافسة الآن.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…