Nvidia تكشف عن Groq 3: الشركة تراهن على رقاقات مخصصة لاستدلال AI

قدمت Nvidia Groq 3، أول رقاقة لديها صُممت خصيصًا لاستدلال AI. وهي لا تنافس Rubin GPU من حيث القوة الإجمالية، بل تخدم غرضًا مختلفًا: استدلال سريع بأقل زمن استجابة. وتراهن الشركة على بنية هجينة، حيث يعمل prefill والحوسبة الثقيلة على GPU، بينما يتم توليد tokens النهائية على LPU.

Khamidun Zhemal

رصد الذكاء الاصطناعي · IEEE Spectrum AI

30 أبريل 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من IEEE Spectrum AI؛ بتحرير Hamidun News

Nvidia تكشف عن Groq 3: الشركة تراهن على رقاقات مخصصة لاستدلال AI — المصدر: IEEE Spectrum AI. كولاج: Hamidun News.

◐ استمع للمقال

عرضت نفيديا Groq 3 — أول شريحة من الشركة مصممة خصيصًا للاستدلال الذكي بدلاً من تدريب النماذج. هذه إشارة مهمة: السوق يتحول من سباق نحو نماذج أكبر إلى سباق حول مدى سرعة وتكلفة استجابة هذه النماذج للمستخدمين.

لماذا تغير نفيديا مسارها

في مؤتمر GTC، أعلن الرئيس التنفيذي لنفيديا ليس فقط عن سلسلة Vera Rubin، بل أيضًا عن فئة منفصلة من المعالجات للاستدلال بالنماذج. تم بناء Groq 3 LPU على تكنولوجيا مرخصة من شركة Groq الناشئة، التي حصلت نفيديا على ترخيص لها في نهاية السنة الماضية. حقيقة أن حوالي سنتين ونصف قد مرت من الترخيص إلى إعلان المنتج توضح مدى سرعة نمو الطلب على الاستدلال في مراكز البيانات.

"أخيرًا، الذكاء الاصطناعي قادر على القيام بعمل مفيد، ونقطة انعطاف

الاستدلال قد حدثت بالفعل."

يحل التدريب والاستدلال مشاكل مختلفة، لذلك يحتاجان إلى أجهزة مختلفة. خلال التدريب، يقوم النظام بتشغيل كميات هائلة من البيانات لأسابيع وتحديث أوزان النموذج. أثناء الاستدلال، يحدث كل شيء في لحظة طلب المستخدم، وللنماذج المنطقية، قد تتضمن جلسة واحدة تمريرات داخلية متعددة قبل أن يرى الإنسان الإجابة. هنا، العوامل الحاسمة ليست الحد الأقصى من FLOPS، بل الكمون، وتدفق البيانات المستقر، ووقت توليد الرمز المتوقع.

كيف يعمل Groq 3

يختلف نهج Groq عن نظام GPU المألوف. بدلاً من الاعتماد على ذاكرة HBM منفصلة عالية السرعة بجانب معالج الرسومات، تستخدم الشريحة ذاكرة SRAM مدمجة مباشرة في كتلة الحوسبة. هذا يبسط حركة البيانات: تتدفق عبر المعالج بشكل خطي، بدون رحلات إضافية للخارج والعودة. من خلال هذا، تضحي الهندسة المعمارية بالعمومية لكنها تفوز حيث يكون الرد الأسرع مطلوبًا. للاستدلال، حيث يوّلد النموذج الرموز بالتسلسل بدلاً من حساب كل شيء دفعة واحدة، يكون هذا التصميم مفيدًا بشكل خاص.

الفرق ملحوظ أيضًا في المواصفات. يظل معالج Rubin GPU آلة للحسابات الثقيلة والنماذج الكبيرة، بينما تم صنع Groq 3 لهدف مختلف — الحد الأدنى من الكمون في مرحلة فك التشفير، عندما تكون الإجابة قيد التجميع رمز تلو الآخر. من حيث الحسابات العامة وسعة الذاكرة، تكون وحدة LPU متواضعة ملحوظًا، لكنها تفوز في الإنتاجية وتكون أنسب للاستدلال النهائي. لذلك، لا تستبدل نفيديا معالج GPU بفئة جديدة من الشرائح، بل تكمله بمسرّع متخصص.

معالج Rubin GPU لديه 288 غيغابايت من HBM، Groq 3 لديها حوالي 500 ميغابايت من SRAM المدمجة
يوفر Rubin ما يصل إلى 50 بيتافلوبس في الحسابات 4 بت، Groq 3 — 1.2 بيتافلوبس في 8 بت
من حيث إنتاجية الذاكرة، يصل Groq 3 إلى 150 تيرابايت/ثانية مقابل 22 تيرابايت/ثانية لـ Rubin
تركيز Groq 3 — ليس العمومية، بل التوليد السريع للرموز بكمون منخفض

السوق يتجه نحو الاستدلال

على مدى السنتين الماضيتين، كان هناك انفجار حقيقي للشركات الناشئة حول شرائح الاستدلال. تراهن D-Matrix على الحوسبة الرقمية في الذاكرة، وEtched على ASIC للمحولات، وRainAI على الدوائر العصبية الشكلية، وEnCharge على الحوسبة التناظرية في الذاكرة، وFuriosaAI على العمارة لعمليات الموتر. من خلال إعلانها، لم تضف نفيديا ببساطة منتجًا آخر، بل أكدت بشكل فعلي أن التخصص أثبت أنه كبير جدًا بحيث لا يمكن تجاهله داخل إمبراطورية GPU.

في الوقت نفسه، يتم وضع الرهان ليس فقط على شريحة منفصلة، بل على تقسيم الاستدلال إلى أجزاء. أظهرت AWS مؤخرًا نظامًا مع Trainium وCerebras CS-3، حيث يتم تنفيذ prefill و decode بأنواع مختلفة من الأجهزة. تتجه نفيديا في نفس الاتجاه: ستضم وحدة Groq 3 LPX الجديدة ثماني وحدات LPU ونظام Vera Rubin.

سيبقى Prefill والجزء الأثقل من decode على Rubin، بينما المرحلة النهائية للاستدلال — على Groq 3. يسمح مثل هذا الهجين باستخدام نقاط القوة في كل معالج بدلاً من التسوية.

ماذا يعني هذا

الخبر الرئيسي ليس أن نفيديا أطلقت مسرّعًا آخر، بل أن أكبر لاعب في السوق اعترف علنًا بالاستدلال كفئة منفصلة من الحوسبة. بالنسبة لمنتجات الذكاء الاصطناعي، هذه أخبار جيدة: إذا كانت مثل هذه العمائر تتسع فعلاً في الإنتاج، فإن ردود النموذج ستصبح أسرع والاقتصاديات الجماعية — أكثر قابلية للتنبؤ. المرحلة التالية من المنافسة في الذكاء الاصطناعي ستكون ليس فقط من أجل جودة النماذج، بل من أجل تكلفة مليون إجابة مفيدة.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 50 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

احجز استشارة مجانية →