Hugging Face Blog→ المصدر

أطلقت H Company نموذج Holotron-12B — نموذج للوكلاء مع زيادة في السرعة بمقدار 2x

قدمت H Company نموذج Holotron-12B، وهو نموذج لوكلاء computer-use قائم على NVIDIA Nemotron. ويركز المطورون على throughput: ففي اختبار تحميل على H100 واحد،…

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
أطلقت H Company نموذج Holotron-12B — نموذج للوكلاء مع زيادة في السرعة بمقدار 2x
المصدر: Hugging Face Blog. كولاج: Hamidun News.
◐ استمع للمقال

أصدرت شركة H Company نموذج Holotron-12B — وهو نموذج متعدد الوسائط مخصص لعملاء الذكاء الاصطناعي الذين يتفاعلون مع الواجهات كالمستخدم البشري. يستند النموذج الجديد إلى NVIDIA Nemotron مفتوح المصدر، وقد صُمِّم ليس لإنتاج عروض توضيحية مبهرة، بل لتحقيق إنتاجية عالية في بيئات الإنتاج.

لأي مهام

يُقدَّم Holotron-12B باعتباره نموذج سياسة (policy model) لعملاء computer-use: وهي أنظمة يجب أن ترى الشاشة، وتفهم عناصر الواجهة، وتختار الإجراء التالي، وتُنجز المهام من البداية إلى النهاية. على خلاف كثير من النماذج متعددة الوسائط الموجَّهة نحو التعرف الثابت على الصور أو المحادثة العادية المستندة إلى الصور، ينصبّ التركيز هنا على الجلسات الطويلة، وسلاسل الإجراءات، والتعامل مع لقطات شاشة متعددة في آنٍ واحد. يُعدّ هذا تحولاً جوهرياً: فالنموذج لم يُصمَّم باعتباره مساعداً عاماً، بل وحدةً عمليةً لأنظمة الوكلاء الذكيين.

أجرى مطورو H Company ضبطاً دقيقاً للنموذج على خليط خاص من البيانات المتعلقة بتحديد مواقع عناصر الواجهة والتنقل. والهدف هو أن يفهم الوكيل على نحو أفضل الأزرار وحقول الإدخال وبنى الصفحات والعلاقة بين السياق البصري والإجراء. يتوفر Holotron-12B بالفعل على Hugging Face بموجب رخصة NVIDIA Open Model License، مما يجعله صالحاً كأساس لبناء web agents وأدوات الأتمتة الداخلية ودوائر التعلم المعزز عبر الإنترنت.

السرعة تحت الضغط

الرهان الأساسي في Holotron-12B ليس فقط جودة الإجراءات، بل كفاءة الاستدلال (inference). يُبنى النموذج على معمارية هجينة SSM + attention موروثة من Nemotron. وفي جوهره، هذا محاولة لحل المشكلة الرئيسية لأعباء العمل الوكيلية: فالتاريخ الطويل للتفاعلات والصور الكثيرة عالية الدقة وعشرات الطلبات المتوازية تصطدم بسرعة بحدود الذاكرة وعرض نطاق GPU. في نهج SSM، يُخزَّن الحالة بشكل أكثر إحكاماً مقارنةً بـ transformer التقليدي ذي KV cache الكبير، مما يجعل النموذج يتوسع بصورة أفضل في السيناريوهات الفعلية.

  • أُجريت الاختبارات على وحدة NVIDIA H100 واحدة عبر vLLM مع تحسينات SSM من الإصدار 0.14.1
  • في أعباء العمل الفعلية لعملاء متعددي الوسائط، أظهر النموذج إنتاجية تفوق Holo2-8B بأكثر من ضعفين
  • على رسم بياني لـ generation throughput، حقق Holotron-12B 149 رمزاً في الثانية مقابل 69 لـ Holo2-8B
  • عند مستوى تزامن 100، ارتفعت الإنتاجية الإجمالية إلى 8,900 رمز في الثانية مقابل 5,100 لـ Holo2-8B

بالنسبة للفرق التي تبني خطوط أنابيب ضخمة لتوليد البيانات أو التوسيم أو RL عبر الإنترنت، هذا ليس تحسيناً شكلياً. إذا تمكن النموذج من التعامل مع حمل دُفعات أكبر على الأجهزة ذاتها، تنخفض تكلفة سيناريوهات الوكلاء ويصبح نشرها في الإنتاج أيسر. هذا بالضبط ما يدفع H Company إلى التركيز ليس على الحجم الأقصى للنموذج، بل على القدرة على تقديم خدمة مستقرة لجلسات وكيلية طويلة مع تزامن عالٍ للطلبات.

التدريب والمعايير القياسية

دُرِّب Holotron-12B على مرحلتين. كانت القاعدة النموذجَ المفتوح متعدد الوسائط NVIDIA Nemotron-Nano-12B-v2-VL-BF16، وقد أجرت H Company بعدها supervised fine-tuning على خليط خاص من بيانات التحديد والتنقل. يُشدد المطورون بشكل خاص على التركيز في screen understanding وgrounding وUI-level interactions — أي قدرة النموذج ليس على وصف الشاشة فحسب، بل على ربط الإجراء بعنصر واجهة محدد بشكل صحيح. اجتاز نقطة التفتيش النهائية تدريباً على نحو 14 مليار رمز.

تبدو النتائج على المعايير القياسية قوية. على WebVoyager، ارتفع معدل النجاح من 35.1% للنموذج الأساسي Nemotron إلى 80.5% لـ Holotron-12B، متجاوزاً قليلاً نسبة 80.2% لـ Holo2-8B. في مهام GUI localization، ارتفع متوسط الدقة إلى 74.2% مقابل 24.6% للنسخة الأساسية. وتُبيّن نتائج الاختبارات الفردية تبايناً ملحوظاً: 49% على OSWorld-G، و66.1% على Showdown، و82% على GroundUI-1k، و83.8% على WebClick v1، و89.9% على Screenspot V2. أي أن التحسن لا يقتصر على معيار قياسي واحد مريح، بل يمتد إلى سيناريوهات فهم الواجهة المتعددة.

ما الذي يعنيه هذا

يتجه سوق وكلاء الذكاء الاصطناعي تدريجياً بعيداً عن VLM العامة نحو نماذج أكثر تخصصاً، مُحسَّنة للعمل المحدد مع الواجهات ولاقتصاديات الإنتاج. ومثير الاهتمام في Holotron-12B هو تحديداً هذا: فهو يُثبت أن ما يهم في أنظمة computer-use اليوم ليس فقط نسب المعايير القياسية، بل الإنتاجية الفعلية على وحدة GPU واحدة. وبالنسبة للشركات التي تبني وكلاء متصفحات أو حاسوب مكتبي، لم تعد هذه مقياساً ثانوياً — بل باتت شرطاً أساسياً للتوسع.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…