Taalas تتحدى GPU: منطق صلب بدلًا من المرونة من أجل 17,000 توكن في الثانية
تطوّر الشركة الناشئة Taalas في تورونتو شرائح AI متخصصة ذات منطق صلب (hardwired) تحل محل وحدات GPU القابلة للبرمجة في مهام الاستدلال. وتقول الشركة إنها تصل…
معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
اعتمدت صناعة الذكاء الاصطناعي بأكملها على مدى العقد الماضي على بديهية ضمنية واحدة: يجب أن تكون رقاقات السيليكون مرنة. تتغير النماذج كل أسبوع، والمعماريات تتطور كل ربع سنة، وفقط وحدات معالجة الرسومات القابلة للبرمجة يمكنها مواكبة هذا السباق. تعتقد شركة Taalas الناشئة من تورونتو أن هذه المنطق أدت الصناعة إلى طريق مسدود — وتقترح بديلاً جذرياً: رقاقات بمنطق صارم لا يمكنها فعل أي شيء سوى الاستدلال، لكنها تفعله بسرعة 17,000 رمز في الثانية.
لفهم حجم هذا الادعاء، يستحق الأمر تذكر السياق. وحدات معالجة الرسومات الحديثة — من NVIDIA H100 إلى أحدث Blackwell — هي في الأساس حاسوبات عملاقة على رقاقة واحدة، قادرة على تنفيذ حسابات عشوائية. تحتفظ معماريتها بعقود من تطوير معالجات الرسومات: آلاف النوى القابلة للبرمجة، وسلاسل ذاكرة معقدة، وناقلات بيانات مرنة. تتيح هذه المرونة تشغيل تدريب النماذج العملاقة والاستدلال والمحاكاة العلمية على نفس الأجهزة. لكن المرونة لها ثمن — استهلاك الطاقة والكمون والتكلفة. كل دورة ساعة تُنفق على فك تشفير التعليمات وإدارة تدفقات البيانات هي طاقة ووقت لا يذهبان إلى الضرب المصفوفي الفعلي.
تهاجم Taalas هذه النقطة بالذات. تطور الشركة رقاقات يتم فيها توصيل مسارات الحساب مباشرة في السيليكون — ما يُسمى بالمنطق الصارم. هذا يعني أن الرقاقة لا تفسر البرنامج أثناء التنفيذ، بل تجسد فعلياً عمليات معمارية المحول المحددة: الضرب المصفوفي، وآليات الانتباه، والتطبيع. بشكل أساسي، بدلاً من معالج عام، تحصل على دائرة إلكترونية تفعل شيئاً واحداً بالضبط — لكنها تفعله بأقل قدر من العبء الإضافي.
النهج ليس جديداً من حيث المبدأ. تُستخدم رقاقات ASIC (الدوائر المتكاملة الخاصة بالتطبيق) منذ وقت طويل في تعدين العملات المشفرة والاتصالات ومعالجة الفيديو. قدمت Google معالجات TPU — معالجات الموترات — في عام 2016، وهي متخصصة أيضاً في حسابات الشبكات العصبية، وإن احتفظت بدرجة معينة من القابلية للبرمجة. لكن Taalas، على ما يبدو، تذهب أبعد، مما يزيد التخصص الأقصى لتحقيق أقصى أداء لكل رمز.
يستحق الرقم 17,000 رمز في الثانية انتباهاً خاصاً. للمقارنة: يعطي الاستدلال النموذجي لنموذج لغة كبير على وحدة معالجة رسومات واحدة من فئة H100 من مئات إلى عدة آلاف من الرموز في الثانية، حسب حجم النموذج والدفعة. إذا حققت Taalas فعلاً السرعة المعلنة مع جودة وحجم نموذج قابل للمقارنة، فقد يعني ذلك انخفاضاً جذرياً في تكاليف الاستدلال — البند الرئيسي للنفقات بالنسبة للشركات التي تنشر خدمات الذكاء الاصطناعي في الإنتاج. تحدد تكلفة الاستدلال، وليس التدريب، اقتصاديات معظم منتجات الذكاء الاصطناعي اليوم: كل استعلام إلى ChatGPT، كل استدعاء Copilot، كل توليد صورة — هذه أموال تُنفق على وقت وحدة معالجة الرسومات.
غير أن النهج ينطوي على مخاطر واضحة وخطيرة. المنطق الصارم يعني ارتباطاً صارماً بمعمارية نموذج محددة. إذا انتقلت الصناعة غداً من المحولات إلى شيء مختلف بشكل جذري — مثل المعماريات المستندة إلى نماذج فضاء الحالة أو الأساليب الهجينة — تخاطر رقاقات Taalas بأن تصبح أوزان ورق مكلفة. هذا هو الاختيار الكلاسيكي للتخصص: تربح في الكفاءة لكنك تخسر في التكيف. يمكن لشركة Google تحديث برامج معالجات TPU الخاصة بها، وتصدر NVIDIA برامج تشغيل وملكات CUDA جديدة — لكن Taalas سيتعين عليها تصميم رقاقة جديدة.
ومع ذلك، لدى الشركة الناشئة حجة قوية. استحوذت معمارية المحول على السوق لمدة ثماني سنوات ولا تظهر أي علامات على الرحيل القريب. العمليات الأساسية — الضرب المصفوفي وآليات الانتباه — تبقى متطابقة بشكل أساسي من GPT-2 إلى أحدث النماذج. علاوة على ذلك، فإن الاتجاه نحو "الاستدلال في كل مكان" (ubiquitous inference)، الذي تروج له Taalas كشعارها، يقترح أن حساب الذكاء الاصطناعي يجب أن يصبح رخيصاً وسهل الوصول مثل الكهرباء. وللقيام بذلك، تحتاج بالضبط إلى رقاقات متخصصة وموفرة للطاقة، وليس وحدات معالجة رسومات عامة مكلفة.
هناك أيضاً سياق السوق. نقص وحدات معالجة الرسومات والموقف الاحتكاري لشركة NVIDIA خلقوا طلباً قوياً على بدائل. يطور موفرو الخدمات السحابية الرئيسيون — Amazon و Google و Microsoft — بالفعل رقاقاتهم الخاصة. تقدم شركات ناشئة مثل Groq و Cerebras و SambaNova معماريات غير تقليدية. تناسب Taalas هذا الاتجاه لكنها تحتل الموقف الأكثر تطرفاً في طيف المرونة والتخصص.
السؤال الرئيسي الذي يجب على Taalas الإجابة عليه ليس تقنياً بل اقتصادياً. هل يمكنهم تصنيع وتحديث رقاقاتهم بسرعة كافية لمواكبة تطور النماذج؟ هل يمكنهم إقناع العملاء بأن المراهنة على المنطق الصارم مبررة؟ إذا كان الجواب نعم — قد نشهد بداية حقبة جديدة حيث يتوقف الاستدلال بالذكاء الاصطناعي عن كونه رفاهية ويصبح معياراً للبنية التحتية. إذا كان الجواب لا — فستكون درساً آخر في السبب الذي يجعل الصناعة تتمسك بقوة بالمرونة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.