Ollama تسرّع تشغيل AI محليًا على Apple M5: يلزم Mac مزود بما لا يقل عن 32 GB من الذاكرة
أطلقت Ollama الإصدار 0.19 مع تسريع عتادي لأجهزة Apple M5 وM5 Pro وM5 Max. وبفضل MLX والمسرّعات الجديدة، تعطي النماذج المحلية على Mac أول token أسرع وتحقق…
معالج بواسطة الذكاء الاصطناعي من 3DNews AI؛ بتحرير Hamidun News
أضافت Ollama تسريعًا للأجهزة لـ Apple M5 و M5 Pro و M5 Max، بحيث تعمل نماذج الذكاء الاصطناعي المحلية على macOS بشكل ملحوظ أسرع. المخطط الجديد يعمل في وضع المعاينة ويتطلب حد أدنى من 32 غيغابايت من الذاكرة الموحدة.
ما الذي تغير
Ollama هي واحدة من أبرز الأدوات لتشغيل نماذج اللغات الكبيرة محليًا على Windows و Linux و macOS. في الإصدار 0.19، نقل المطورون عمليات Apple Silicon إلى وضع جديد يعتمد على MLX — إطار عمل ML الخاص بـ Apple، والذي يستخدم بشكل أفضل ذاكرة الرقاقة الموحدة وكتل الحوسبة الخاصة بها. بالنسبة للمستخدمين، هذا يعني بدء الاستجابة أسرع وسرعات توليد أعلى دون الذهاب إلى السحابة وبدون نقل البيانات إلى خدمة خارجية.
النقطة الأساسية هي أن التسريع مرتبط حاليًا بشكل محدد بعائلة Apple M5. وفقًا لـ Ollama، تعلمت التطبيق الوصول إلى معجلات GPU Neural الجديدة في رقائق M5 و M5 Pro و M5 Max. هذه هي التي توفر التحسن في كل من الوقت حتى الرمز الأول وسرعة الإخراج الإجمالية. هذا مهم بشكل خاص للسيناريوهات حيث لا يقوم النموذج برد الفعل فقط في واجهة المحادثة، بل يتلقى باستمرار السياق الطويل والأدوات وسجل الإجراءات.
حيث يكون التحسن مرئيًا
على الأرقام، يبدو التحديث عمليًا جدًا. في الاختبار الرسمي لـ Ollama، قارنت الشركة الإصدار 0.19 مع 0.18 على نموذج Qwen3.5-35B-A3B: زادت سرعة prefill من 1154 إلى 1810 رمز في الثانية، و decode من 58 إلى 112 رمز في الثانية. بالنسبة لتكميم int4، يعد المطورون بأرقام أعلى حتى — حتى 1851 رمز في الثانية في prefill وحتى 134 في decode. هذا بالفعل فرق ملحوظ ليس فقط في المعايير، بل أيضًا في العمل اليومي.
"هذه هي أسرع طريقة لتشغيل
Ollama على Apple Silicon"، يكتب المطورون في إعلان إطلاق المعاينة.
يُتوقع أداء أسرع ليس فقط للدردشات المحلية العادية، بل أيضًا للأدوات حيث يعالج النموذج بشكل مستمر الكود والأوامر والموجهات الطويلة:
- المساعدات الشخصية مثل OpenClaw
- وكلاء الأكواد مثل Claude Code و OpenCode و Codex
- جلسات طويلة مع موجهات النظام المشتركة وتفرع الحوار
- السيناريوهات المحلية حيث تكون الخصوصية والكمون المنخفض مهمين
بالإضافة إلى ذلك، حدثت Ollama آلية التخزين المؤقت. الآن يمكن للتطبيق إعادة استخدام التخزين المؤقت بين المحادثات المختلفة، وحفظه عند نقاط الموجه الناجحة والاحتفاظ بالبادئات المشتركة في الذاكرة لفترة أطول. بالنسبة للسيناريوهات التي تتضمن أكوادًا ووكلاء، هذا أكثر أهمية مما يبدو: عندما تعود الأداة بشكل متكرر إلى نفس السياق النظامي، يؤدي تقليل إعادة معالجة الموجه غير الضرورية إلى تسريع الاستجابات مباشرة.
القيود والتفاصيل
القيد الرئيسي بسيط: تحتاج إلى Mac بحد أدنى من 32 غيغابايت من الذاكرة الموحدة. بالنسبة للذكاء الاصطناعي المحلي، هذا حرج لأنه على Apple Silicon يتم مشاركة الذاكرة بين وحدة المعالجة المركزية ووحدة معالجة الرسومات ومسرعات أخرى، والنماذج الكبيرة تستهلك بسرعة السعة المتاحة. بعبارة أخرى، تتعلق الأخبار ليس بأي Mac M5، بل فقط بالتكوينات الباهظة الثمن حيث توجد ذاكرة كافية للنموذج نفسه والتخزين المؤقت والحمل العمل.
هناك قيد ثانٍ: في الوقت الحالي، الأمر يتعلق بتنفيذ المعاينة ومجموعة أولية ضيقة جدًا. في الإعلان، لاحظت Ollama بشكل محدد أن الإصدار يسرع أولاً النموذج الجديد Qwen3.5-35B-A3B بإعدادات لمهام الترميز. إن دعم الهياكل الأخرى والاستيراد الأكثر ملاءمة للنماذج المخصصة لا يزال قيد المعالجة. أي أن هذا ليس تسريعًا فوريًا لـ "كل شيء في المرة الواحدة"، بل الخطوة الأولى نحو تحسين أعمق للذكاء الاصطناعي المحلي لأجهزة Mac الجديدة.
من الجدير بالملاحظة أيضًا دعم NVFP4 والتحسينات التي تقرب التنفيذ المحلي من بيئات الإنتاج. يقلل NVFP4 متطلبات الذاكرة والنطاق الترددي دون فقدان الجودة بشكل كبير، مما يعني أن المستخدمين يمكنهم الحصول على نتائج أقرب إلى ما يقدمه موفرو الاستدلال الحديثة. عند دمجه مع MLX، يحول هذا Ollama من مجرد غلاف نموذج مريح إلى منصة محلية أكثر جدية للتطوير والتجريب.
ما الذي يعنيه هذا
بالنسبة لسوق الذكاء الاصطناعي المحلي، هذه إشارة مهمة: Mac يتحول بشكل متزايد إلى جهاز عمل ليس فقط لتشغيل النماذج الصغيرة ذات الأوزان المفتوحة، بل أيضًا لسيناريوهات الوكلاء الكاملة. بالنسبة للمطورين والمستخدمين المتقدمين، الفائدة واضحة — كمون أقل، خصوصية أكثر، اعتماد أقل على السحابة. لكن هذه القصة لن تصبح سائدة حتى الآن: تكلفة الدخول تبقى مرتفعة بسبب متطلبات Apple M5 و 32 غيغابايت من الذاكرة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.