Habr AI→ المصدر

AMD RX580 شغّلت LLM محليًا: كيف تتغلب على ROCm وOllama وتحقق الاستدلال على GPU

يمكن بالفعل تحويل AMD RX580 قديمة إلى بطاقة عملية للاستدلال المحلي لـ LLM، لكن الطريق يمر عبر أخطاء ROCm، وانهيارات Ollama، وقراءات مضللة لاستهلاك VRAM. أمضى…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
AMD RX580 شغّلت LLM محليًا: كيف تتغلب على ROCm وOllama وتحقق الاستدلال على GPU
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

تشغيل نموذج لغة كبير على بطاقة رسومات AMD RX580 القديمة تبين أنه ليس مسألة أمر واحد محظوظ، بل تحقيق هندسي شامل. حاول المؤلف الحصول على استدلال GPU مناسب من خلال ROCm و Ollama في Kubernetes، لكن بدلاً من الإنشاء المستقر، حصل على علامات كاذبة للنجاح، وأعطال في الذاكرة، وأحياناً نصوص بلا معنى في الإخراج.

الأعراض والفخاخ

في البداية، بدا كل شيء يعمل تقريباً. تم الكشف عن بطاقة الرسومات، وتم تشغيل الحاويات، وامتلأت الذاكرة العشوائية، مما يعني أن النظام يستخدم وحدة معالجة الرسومات فعلياً. لكن هذا كان فخاً: الذاكرة المشغولة لا تعني بالضرورة أن الحسابات تتم بشكل صحيح على معالج الرسومات.

ظهرت المشكلة الرئيسية في لحظة الاستدلال الحقيقي — فشلت الطلبات مع أخطاء hipMemGetInfo أو انتهت بإنشاء غريب يبدو سطحياً وكأنه يعمل النموذج، لكنه في الواقع لم ينتج نتيجة ذات معنى.

تم الكشف عن وحدة معالجة الرسومات، واشتغلت الذاكرة، وتم تشغيل الحاويات

— لكن الاستدلال فشل مع أخطاء hipMemGetInfo.

تُظهر هذه الحالة جيداً خطأ شائع عند تشغيل نموذج لغة كبير محلياً: النظر فقط إلى "مظهر الحياة" في البنية التحتية. إذا أطلق Kubernetes الحاوية، ورأى Ollama النموذج، واحتلت وحدة معالجة الرسومات عدة جيجابايت، فهذا لا يؤكد أن مكدس ROCm يقوم فعلاً بتنفيذ العمليات الحسابية بشكل صحيح. بالنسبة للبطاقات القديمة مثل RX580، من المهم بشكل خاص التحقق ليس فقط من توفر الجهاز بل أيضاً من مسار الحساب الفعلي، لأن العطل قد يكون مختبئاً تحت مستوى التطبيق نفسه.

كيفية اكتشاف السبب

تم تضييق نطاق جذر المشكلة ليس من خلال إعادة تثبيت الحزم مرة أخرى، بل من خلال تشخيص الدائرة الحسابية. قارن المؤلف علامات التشغيل في طبقات مختلفة من النظام وميز النجاحات الثانوية عن تنفيذ الاستدلال الفعلي. كان Vulkan بشكل غير متوقع هو الأداة الرئيسية هنا: ساعد في التحقق مما إذا كانت وحدة معالجة الرسومات قادرة على تنفيذ المهام الحسابية بشكل مستقر، وبالتالي أوضح أن المشكلة لم تكن قابلة للاختزال فقط لـ Ollama أو تكوين الحاوية.

في الواقع، سار التحقيق من الأعراض إلى الفرضيات القابلة للاختبار. بدلاً من التخمين من السجلات، قام المؤلف بالقضاء بشكل منهجي على التفسيرات الخاطئة وتجميع تكوين يعمل بشكل أدنى، مع التحقق من كل طبقة بشكل منفصل: من الحاويات والوقت التشغيلي إلى الدوال والنموذج نفسه. هذا الترتيب مهم لأنه يسمح بفهم حيث ينتهي "ارتفاع البنية التحتية" ويبدأ خط الأنابيب الحسابي الحقيقي.

في التحليل، بدا الأمر خطوة بخطوة هكذا:

  • التحقق من حساب وحدة معالجة الرسومات الفعلي وليس فقط استخدام الذاكرة
  • مقارنة سلوك ROCm و Vulkan
  • تصفية مشاكل الحاوية والتنسيق
  • البحث عن إصدارات متوافقة من النواة و ROCm
  • التحكم في جودة إخراج النموذج نفسه

هذا الأسلوب مهم لأن النص بلا معنى في الإخراج هو أيضاً إشارة تشخيصية. إذا أجاب النموذج لكنه ينتج هراء، فقد تكون العطل ليست في تحميل الأوزان بل في عمل الحسابات غير الصحيح، عدم توافق الدوال، أو واجهة خلفية تعمل بشكل جزئي تبدو حية فقط على السطح. عادة ما تستهلك هذه الحالات شبه الوظيفية وقتاً أكثر من الفشل الكامل لأنها تتظاهر بأنها أخطاء عشوائية في التطبيق.

التكوين الفعال على RX580

انتهت التجربة ليس بـ "ضبط سحري" بل بمجموعة تم العثور عليها من الإصدارات والمكونات التي تعطي بطاقة RX580 القديمة نتائج مستقرة فعلاً. يكتب المؤلف أن إصدارات محددة من ROCm ونواة Linux اتضح أنها تعمل، وبعد حل التضارب، توقف الاستدلال عن الفشل وبدأ ينتج نصاً عادياً. هذا الاستنتاج مهم لأي شخص يحاول تشغيل نماذج محلية على رسومات AMD ليست حديثة جداً: النجاح هنا يعتمد ليس على دعم الأجهزة الاسمي بقدر ما يعتمد على المحاذاة الدقيقة لطبقات الدالة والنظام والوقت التشغيلي.

تبدو النتيجة العملية مقنعة: على RX580، تمكنوا من الحصول على حوالي 42 رمزاً في الثانية. بالنسبة لبطاقة رسومات منزلية من الجيل السابق، هذا لا يعتبر مجرد عرض توضيحي بل نمط تشغيلي يمكن من خلاله اختبار مساعدين محليين، نماذج أولية لسيناريوهات RAG، وخدمات استدلال شخصية دون الحاجة إلى الترقية الضرورية لمكدس NVIDIA جديد. لكن الدرس الرئيسي ليس في رقم السرعة بل في الطريقة: إذا كانت وحدة معالجة الرسومات "تبدو وكأنها تعمل"، فهذا ليس كافياً. ما يجب التحقق منه هو استقرار الحسابات وصحة الإخراج وتكرار النتائج.

ماذا يعني هذا

تُظهر قصة RX580 أن الاستدلال المحلي لنموذج لغة كبير على أجهزة AMD القديمة ممكن، لكنه يتطلب انضباطاً في التشخيص. بالنسبة للمطورين، هذا دليل جيد: عدم الخلط بين الذاكرة المشغولة والعمل الفعلي للنموذج، والتحقق من الكومة الكاملة من النواة إلى الوقت التشغيلي، ومعاملة الإخراج الغريب كخطأ كامل وليس كمشكلة طفيفة. بالنسبة للمختبرات المنزلية، هذا قائمة تحقق جاهزة تقريباً حول كيفية عدم قضاء أيام في ملاحقة العلامات الكاذبة للنجاح.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…