Habr AI→ المصدر

LM Studio و Qwen: كيف تتعامل نماذج اللغة الضخمة المحلية مع البرمجة على MacBook M4 Pro

يمكن الآن استخدام نماذج اللغة الضخمة المحلية للبرمجة بدون السحابة إذا كانت المهمة محادثات سريعة وتعديلات بسيطة. في تجربة MacBook M4 Pro، أظهرت النماذج عبر LM…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
LM Studio و Qwen: كيف تتعامل نماذج اللغة الضخمة المحلية مع البرمجة على MacBook M4 Pro
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

يمكن بالفعل استخدام نماذج اللغة المحلية لكتابة وتحرير الأكواد دون إرسال الأكواد المصدرية إلى السحابة، لكن راحة هذا العمل لا تزال تعتمد بشكل كبير على المهمة والأجهزة المتاحة. تجربة على جهاز MacBook Pro مع M4 Pro و48 غيغابايت من الذاكرة تظهر أن مزيج استوديو LM والنماذج الحديثة ذات الأوزان المفتوحة يوفر بالفعل نتائج ملموسة في وضع الدردشة، لكنه في وضع الوكلاء الكاملة يواجه بسرعة قيودًا في الذاكرة والحرارة ووقت التنفيذ. نقطة البداية هنا بسيطة: نماذج السحابة مريحة، لكن لديها قيود واعتماد على الشبكة والعيب الرئيسي للعديد من المطورين — تُرسل البيانات والأكواد والعمليات الفورية إلى الخوادم البعيدة.

يعد التنفيذ المحلي بالخصوصية والتحكم الكامل، لكنه يتطلب فهم كيفية استهلاك النموذج لـ RAM و VRAM، وكمية الذاكرة المتبقية للسياق، وكيف تختلف صيغ مثل GGUF و MLX. أُجريت الاختبارات على جهاز MacBook Pro مع معالج M4 Pro و48 غيغابايت من الذاكرة الموحدة، حيث يتشارك وحدة المعالجة المركزية ووحدة معالجة الرسومات مجموعة ذاكرة مشتركة. يساعد هذا في استيعاب نماذج أكبر، لكن يعني في نفس الوقت أن النموذج يتنافس على الموارد مع بيئة التطوير ودوكر وعشرات علامات التبويب في المتصفح.

يركز جزء منفصل من التحليل على اختيار نموذج للأجهزة. يقترح المؤلف عدم النظر فقط إلى الحجم بمليارات المعاملات، بل أيضًا إلى التخصص والتكميم ودعم استدعاء الوظائف ونوع المعمارية. للبرمجة، استخدم Qwen3-Coder 30B A3B Instruct في متغيرات MLX و GGUF، وقارنه أيضًا مع Qwen3-Coder Next و Qwen3.

5 و Nvidia Nemotron-3 Nano و Gemma 4 26B A4B. توضح المقالة جيدًا المعنى العملي للاختصارات: على سبيل المثال، A3B يشير إلى نهج MoE، حيث يتم تنشيط جزء فقط من معاملات نموذج كبير، مما يجعل السرعة أقرب إلى النماذج الصغيرة بينما تقترب الجودة من النماذج الأكبر. تم اختيار استوديو LM كبيئة التنفيذ: من خلاله، يتم تحميل النماذج بسهولة وإعداد خادم محلي وتفعيل CORS وربط وكلاء مثل Claude Code و Open Code و Kilo Code و Aider.

توقعت توقعات الأداء لـ Qwen3-Coder حوالي 150 رمزًا في الثانية، لكن القياس الفعلي في استوديو LM تبين أنه أقرب إلى 82 رمزًا في الثانية، مما يعيد النقاش من النظرية إلى الممارسة على الفور. يبدأ الجزء الأكثر إثارة للاهتمام بالقياسات. في وضع الدردشة العادي، لا تبدو النماذج المحلية كلعبة بل كحل وسط عملي.

احتوت Qwen3-Coder 30B A3B Instruct في MLX 4bit تقريبًا في دقيقتين و9 ثوان على السيناريو المكون من ثلاث مراحل بأكملها وحققت درجة نهائية 8.5 من 10. أظهرت Gemma 4 26B A4B في GGUF أحد أفضل التوازنات: حوالي دقيقتين و23 ثانية ودرجة نهائية 10 من 10.

أعطت النماذج الأكثر تفكيرًا نتائج أفضل لكن بتكلفة الوقت: وصلت Qwen3.5 35B A3B إلى 10 من 10 في حوالي 5 دقائق و43 ثانية، بينما امتدت Qwen3.5 27B إلى ما يقرب من نصف ساعة.

الخلاصة من هذا الجزء صحيحة: النماذج المحلية تطابق بالفعل أحيانًا النماذج السحابية في سرعة الاستجابة، خاصة بدون وضع التفكير، لكنها غالبًا ما تتخلف في الجودة على نفس المدة الزمنية. وفي الوقت نفسه، تبدو النماذج MoE الحديثة عملية بشكل ملحوظ أكثر من المتغيرات الكثيفة. في وضع الوكيل، تتغير الصورة بشكل جذري.

يزداد السياق وينمو عدد الاستدعاءات وتتحول الثوان إلى دقائق أو حتى عشرات الدقائق. أكمل Aider مع نفس Qwen3-Coder MLX 4bit السيناريو في دقيقتين و50 ثانية برصيد 9.5، و Open Code في 7 دقائق و33 ثانية برصيد 9، لكن Kilo Code مع نفس النموذج استغرق 15 دقيقة و5 ثوان ولم يصل إلا إلى 6 نقاط.

مع Qwen3.5 35B A3B الأثقل، استغرق Kilo Code 57 دقيقة و3 ثوان، على الرغم من أن الجودة النهائية تحسنت إلى 9 من 10. أكمل Claude Code مع Gemma 4 26B التجربة برصيد أقصى 10 من 10، لكنه أنفق ما مجموعه 21 دقيقة و14 ثانية، وتعطلت مزيج Claude Code مع Qwen3-Coder فعليًا بسبب ذاكرة غير كافية للسياق.

في الوقت نفسه، عانى الكمبيوتر المحمول بشكل ملحوظ: ارتفعت درجة حرارة وحدة معالجة الرسومات إلى حوالي 100 درجة، تقريبًا لم تتوقف المراوح، والمبادلة في بعض السيناريوهات انتفخت حتى 20 غيغابايت. في مقابل ذلك، بدت وكلاء السحابة بسهولة أكثر ملاءمة: على سبيل المثال، أعطى Kilo Code مع Qwen3.5 Plus 9 من 10 في 6 دقائق و53 ثانية، و Claude Opus 4.

6 — 10 من 10 في 12 دقيقة و15 ثانية، رغم بتكلفة. الخلاصة بسيطة: يمكن الآن اعتبار نماذج اللغة الكبيرة المحلية بجدية للدردشة الخاصة والمهام الفردية لإعادة البناء والسيناريوهات البسيطة حيث يأتي التحكم في البيانات قبل السرعة المطلقة. لكن إذا كنت تحتاج وضع وكيل مستمر على كمبيوتر محمول للعمل، خاصة بجانب بيئة التطوير والمتصفح و Docker، فإن المجموعة المحلية تبقى حلاً وسطًا.

السيناريو الأكثر معقولية من هذه التجربة هو استخدام نماذج MoE الحديثة واستخدام وكلاء أكثر بساطة مثل Aider أو Open Code، وعند الإمكان، تشغيل النموذج المحلي على جهاز منفصل مثل Mac mini.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…