3DNews AI→ المصدر

مخضرم من Microsoft شغّل transformer على جهاز PDP-11 بسرعة 6 ميغاهرتز وذاكرة 64 كيلوبايت

شغّل ديف بلامر، المطور السابق في Microsoft، transformer صغيرًا باسم Attention 11 على الحاسوب المصغر PDP-11. وتعلّمت الآلة العائدة إلى سبعينيات القرن الماضي،…

معالج بواسطة الذكاء الاصطناعي من 3DNews AI؛ بتحرير Hamidun News
مخضرم من Microsoft شغّل transformer على جهاز PDP-11 بسرعة 6 ميغاهرتز وذاكرة 64 كيلوبايت
المصدر: 3DNews AI. كولاج: Hamidun News.
◐ استمع للمقال

أظهر قدم خبير مايكروسوفت ديف بلومر أن محول التحويل ليس فقط يمكن شرحه بإيماءات اليد، بل يمكن تشغيله حرفياً على الأجهزة من أواخر السبعينيات. يقلل تجربته مع الحاسوب الصغير PDP-11 الذي يعمل بتردد 6 ميجاهرتز و64 كيلوبايت من ذاكرة الوصول العشوائي النقاش حول الذكاء الاصطناعي إلى صورة واقعية: التدريب هو الكثير من الحسابات والتكرار والتحسين الدقيق.

جهاز قديم، مهمة جديدة

يُعرف بلومر بأنه مطور شارك سابقاً في إنشاء مكونات مهمة من نظام Windows. في فيديوه الجديد، لم يقم بحيلة حنين للحصول على إعجابات، بل قدم عرضاً توضيحياً للمبادئ الأساسية للنماذج الحديثة. في مركز التجربة يوجد نظام PDP-11 يبلغ عمره 47 سنة، آلة من عصر لم يحلم فيه أحد حتى بنماذج اللغة الكبيرة. التباين هو ما يجعل المشروع مقنعاً: إذا كان يمكن تدريب نسخة مخفضة من محول التحويل على مثل هذا الجهاز، فإن الفكرة الأساسية أبسط بكثير مما تبدو عليه على خلفية مراكز البيانات والميزانيات بمليارات الدولارات.

تم تشغيل نموذج Attention 11 على PDP-11، والذي كتبه بلغة التجميع PDP-11 المطور Damien Bouré. بدت مهمته متواضعة للوهلة الأولى: خذ تسلسلاً من ثمانية أرقام وأخرجه بترتيب عكسي. الأساسي هنا ليس حفظ عدة أمثلة، بل فهم القاعدة التي ستعمل على بيانات الإدخال الجديدة. هنا يركز بلومر: حتى في مثل هذا السيناريو البسيط، يجب على النموذج تعلم البنية، وليس مجرد تخمين الإجابة التالية وفقاً للنمط.

كيفية تقليص النموذج

لكي تتاح لهذه التجربة أي فرصة للنجاح، اضطر المطورون إلى ضغط الهندسة بشدة. Attention 11 ليست نسخة مصغرة من ChatGPT، بل هي محول تحويل بطبقة واحدة مع آلية انتباه واحدة، مصقول إلى حالة من الحد الأدنى الهندسي. يحتوي النموذج على 1216 معامل فقط. بدلاً من مصفوفات الذاكرة والمعجلات النموذجية لمشاريع الذكاء الاصطناعي الحديثة، تم استخدام حسابات الفاصلة الثابتة هنا، وتم تقليل التمرير الأمامي إلى دقة 8 بت. في الأساس، إنه هيكل عظمي تعليمي لمحول التحويل، يحتفظ فقط بما هو ضروري لتوضيح عملية التدريب الفعلية.

  • 1216 معامل بدلاً من مليارات
  • حسابات الفاصلة الثابتة
  • دقة 8 بت للتمرير الأمامي
  • تحسين كل دورة معالج تقريباً
  • المهمة تتطلب اكتشاف القاعدة، وليس حفظ الأمثلة

ومع ذلك، حتى مع مثل هذه القيود، كانت النتيجة بعيدة عن أن تكون زخرفية. أفاد بلومر بأن النموذج وصل إلى دقة 100٪ في حوالي 350 خطوة تدريب. على نظام PDP-11/44 مع لوحة ذاكرة التخزين المؤقت، استغرق هذا حوالي ثلاث دقائق ونصف. مقارنة بوحدات GPU الحديثة، هذه بالتأكيد سرعة من مستوى المتحف. لكن بالنسبة لآلة بتردد 6 ميجاهرتز و64 كيلوبايت من ذاكرة الوصول العشوائي، فإن مجرد حقيقة التدريب الكامل الناجح يهم أكثر من الوقت المطلق: التجربة تثبت أن مبادئ محول التحويل لا تتطلب سحراً، فقط موارد وهندسة جيدة.

ليس سحراً، بل رياضيات

الهدف الرئيسي لهذا المشروع لم يكن إيجاد بديل عملي مفيد للنماذج الحديثة. حاول بلومر إظهار شيء أقل رومانسية: لا توجد نار مقدسة في أساس الذكاء الاصطناعي. هناك دورة من الأخطاء والتصحيحات والتكرارات، حيث تتكيف الأوزان تدريجياً مع المهمة. لهذا السبب يعمل عرضه كمضاد للتغطية الغامضة للشبكات العصبية. إنه يزيل طبقة التسويق ويترك الآليات المجردة، التي يمكن مراقبتها تقريباً لقطة لقطة.

"من التخمين إلى المعرفة." هذا هو وصف بلومر للحظة التي يتوقف فيها

النموذج عن التعثر ويبدأ بتطبيق القاعدة التي اكتشفها بشكل متسق. هذا هو التأثير الأكثر إثارة للاهتمام في التجربة: المشاهد لا يرى إجابة ذكية جاهزة، بل ولادة قدرة من خلال التصحيحات المتتالية. على خلفية النقاشات حول الذكاء الاصطناعي العام، هذا يبدو صاحياً. تثير الأنظمة الحديثة الإعجاب ليس لأنها تنتهك قوانين الحساب، بل لأن نفس الآلية تعمل على نطاق ضخم—على بيانات وموديلات وعناقيد حسابية أكبر بكثير.

ماذا يعني هذا

تجربة PDP-11 لا تثبت أن ChatGPT يمكن نقله إلى جهاز كمبيوتر قديم. بدلاً من ذلك، تظهر بوضوح شيئاً آخر: الأفكار الأساسية لمحولات التحويل مضغوطة بما يكفي لفهمها وإعادة إنتاجها وتدريبها حتى على الأجهزة القديمة. بالنسبة للسوق، هذا حجة أخرى لصالح النماذج الصغيرة الفعالة والتحسين الدقيق، خاصة الآن عندما يصبح تكلفة الحساب عاملاً تنافسياً منفصلاً.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…