PrismML Bonsai: كيفية تشغيل نموذج 1 بت على CUDA مع GGUF و JSON و RAG
تم إطلاق برنامج تعليمي عملي حول تشغيل Bonsai-1.7B بـ 1 بت عبر CUDA و GGUF. يوضح الدليل تثبيت المتطلبات، وتحميل ملفات llama.cpp الثنائية المُحسّنة، وقياس…
معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
تتحول نماذج اللغة ذات 1 بت تدريجيًا من التجارب المخبرية إلى أدوات عملية، والبرنامج التعليمي الجديد لـ PrismML Bonsai يوضح ذلك بشكل جيد. تشرح المادة خطوة بخطوة كيفية تشغيل Bonsai-1.7B على وحدة معالجة الرسومات عبر CUDA وصيغة GGUF والتحقق من سرعة التوليد وتكوين وضع الدردشة والحصول على مخرجات JSON صارمة وتجميع سيناريو RAG بسيط بدون بنية تحتية ثقيلة.
يبدأ المؤلفون بجزء أساسي لكن مهم: التحقق من وحدة معالجة الرسومات وبيئة CUDA وتثبيت تبعيات Python وتنزيل ملفات llama.cpp الثنائية المجمعة مسبقًا من مكدس PrismML المُحسّن. بعد ذلك، يتم سحب نموذج Bonsai-1.
7B من Hugging Face بصيغة GGUF. حجمه على القرص حوالي 248 MB، وتؤكد PrismML أن هذا الإصدار أصغر بحوالي 13.9 مرة من نظير FP16.
تعتمد كفاءة هذا على صيغة Q1_0_g128، حيث يتم تخزين كل وزن كـ بت واحد لكل علامة، وبالنسبة لكل 128 وزن يتم إضافة عامل مقياس FP16. من حيث الحساب، يبلغ حوالي 1.125 بت لكل معامل، مما يقلل بشكل جذري متطلبات الذاكرة.
بالنسبة للإعدادات المحلية الصغيرة، هذا يعني أن النموذج يمكن الاحتفاظ به بالقرب من البيانات وتكامله في سيناريوهات التطبيق بشكل أسرع. بعد ذلك، ينتقل البرنامج التعليمي من الإعداد إلى العملية الفعلية. أولاً، يتم تشغيل النموذج من خلال الاستدلال الأساسي للتأكد من أن Bonsai يرد بشكل صحيح على الاستعلامات.
ثم تأتي كتلة المقياس: يتم قياس سرعة التوليد عبر سلسلة من الأشغال والنتيجة تُقارن بالمراجع المنشورة. بالنسبة لـ Bonsai-1.7B، تُدرج بطاقة النموذج معايير قياسية بسرعة 674 رمزًا في الثانية على RTX 4090 عبر CUDA و 250 رمزًا في الثانية على M4 Pro 48 GB عبر Metal.
بعد ذلك، يتم توضيح دردشة متعددة الخطوات مع تراكم السجل، جنبًا إلى جنب مع ضبط معاملات أخذ العينات—درجة الحرارة و top-k و top-p—لإظهار كيف يتغير أسلوب وتنوع الإجابات. يتم التأكيد بشكل منفصل على أنه بدون وحدة معالجة الرسومات مثل هذا التشغيل ممكن لكنه سيكون أبطأ بشكل ملحوظ. هناك كتلة مفيدة بشكل خاص حيث يتم اختبار Bonsai ليس على نسخ فردية بل على مهام تطبيقية.
في المثال، يقوم النموذج بتلخيص نص تقني طويل ضمن نافذة السياق المحدودة، ثم يُجبر على إرجاع JSON صحيح تمامًا بدون نصوص إضافية وتغليفات markdown، وبعد ذلك يُستخدم لإنشاء كود Python. الخطوة التالية هي تشغيل llama-server محلي في وضع متوافق مع OpenAI. هذه تفاصيل مهمة: يمكن توصيل النموذج عبر مكتبات العميل المألوفة وتكامله في خطوط الأنابيب الموجودة دون إعادة كتابة كل المكدس لـ API غريب الأطوار.
في الواقع، يحول البرنامج التعليمي نموذج لغة كبير تجريبي مضغوط إلى خدمة يمكن توصيلها بسرعة بروبوت أو وكيل أو أداة داخلية. قطعة عملية أخرى هي mini-RAG. بدلاً من قاعدة بيانات متجهة كبيرة، هنا يتم استخدام قاموس بسيط يحتوي على حقائق حول نماذج Bonsai وصيغة الكَمْ، والذي يتم خلطه في الإيعاز كسياق.
يوضح هذا المثال كيف يرد النموذج على الأسئلة المستندة حول حجم إصدار 1.7B وطول السياق أو ميكانيكا Q1_0_g128. في نفس الوقت، يظهر سياق أوسع: يُعلن Bonsai-1.
7B عن نافذة 32768 رمز وحجم حوالي 0.25 GB، و 4B له حوالي 0.6 GB، و 8B له حوالي 0.
9 GB مع نافذة سياق تصل إلى 65536 رمز. يتم توزيع جميع النماذج مجانًا بموجب ترخيص Apache 2.0، مما يجعلها منصة مريحة للتجارب المحلية.
الاستنتاج الرئيسي من هذه المادة بسيط: قيمة Bonsai الآن لا تكمن في استبدال كامل النماذج الكبيرة عالية الدقة، بل في حقيقة أن صيغة 1 بت تقلل بشكل كبير من حاجز الدخول للنشر المحلي والتكامل التطبيقي. البرنامج التعليمي لا يعرض فكرة مجردة بل مسارًا قابلاً للتكرار—من تنزيل الملفات الثنائية إلى خادم وإجابات JSON و RAG. بالنسبة لمطوري المساعدات المحلية والروبوتات وسيناريوهات الحافة، يبدو هذا كأحد الأمثلة الأكثر إقناعًا لكيفية تحول نماذج اللغة الكبيرة فائقة الضغط بالفعل إلى أداة هندسية عملية.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.