NVIDIA X-Token: تقطير يتفوق على GOLD بـ3.82 نقطة
قدمت NVIDIA X-Token، وهي طريقة لتقطير المعرفة للنماذج اللغوية الصغيرة. ويتفوق النهج الجديد على GOLD بمتوسط 3.82 نقطة. وفي مهام الرياضيات (GSM8k)، ارتفعت الدقة م

أطلقت NVIDIA طريقة X-Token لتحسين نماذج اللغة الصغيرة. X-Token هو نهج لتقطير المعرفة يصحح حدين هيكليين للطريقة السابقة GOLD ويُظهر تحسنات كبيرة على المعايير القياسية.
ما هو X-Token؟
X-Token هو طريقة لتقطير المعرفة عبر التوكنايزر المتقاطع الموجه بالإسقاط. بعبارات أبسط، إنها طريقة لنقل المعرفة من نموذج كبير إلى نموذج صغير، لكن مع الأخذ في الاعتبار مجموعات مفردات علامات مختلفة (العناصر التي ينقسم فيها النموذج النص). غالباً ما تعمل النماذج الصغيرة على أجهزة tokenizer الخاصة بها—أنظمة تحليل نصوص خاصة—وفي السابق، كانت التقطير تتجاهل هذا. يحل X-Token هذه المشكلة.
تقدم الطريقة طبقة إسقاط وسيطة تترجم التمثيلات بين مساحات علامات مختلفة. إنه مثل مترجم يعمل عند أساس النموذج. عندما ينقل نموذج كبير المعرفة إلى نموذج صغير، يضمن X-Token عدم فقدان المعلومات في الترجمة من طريقة ترميز إلى أخرى.
نتائج مثيرة للإعجاب
على نموذج Llama-3.2-1B، يُظهر X-Token تفوقاً متسقاً:
- على المعايير العامة—تحسن بمقدار 3,82 نقطة في المتوسط مقارنة بـ GOLD
- على مهام الرياضيات (GSM8k)—قفزة من 2,56٪ إلى 15,54٪ دقة
- على اختبار MMLU القياسي—نمو من 24,0 إلى 24,7٪
هذا ليس مجرد مكسب هامشي—في الرياضيات، زادت الدقة ستة أضعاف. بالنسبة لنموذج صغير بمليار معامل، هذا حرج: كل نقطة مئوية مهمة، لأنه على مثل هذه الأوزان حتى التحسينات الصغيرة في القدرة تساعد في حل مهام أكثر تعقيداً.
الأخطاء الهيكلية في GOLD
تجاهلت طريقة GOLD السابقة أن tokenizer في نموذج صغير قد يكون مختلفاً تماماً. أدى هذا إلى مشكلتين: أولاً، فقدت معرفة النموذج الكبير معناها عندما ترجمها النموذج الصغير إلى مفرداته الخاصة؛ ثانياً، لم تتمكن التقطير من الاستفادة الفعلية من جميع قدرات النموذج الصغير. يدمج X-Token إسقاطاً بين مساحات علامات مختلفة في عملية التقطير. إنه مثل جسر بين نظامي ترميز المعلومات. هذا مهم بشكل خاص عندما يكون النموذج الصغير مصمماً للتنفيذ السريع على أجهزة الهاتف المحمول أو edge ويمتلك tokenizer فريد خاص به لتوفير الذاكرة.
ماذا يعني هذا
النماذج الصغيرة ضرورية في كل مكان: على الهواتف، في أجهزة IoT، على الخوادم المحلية، حيث لا توجد إمكانية الوصول للسحابة أو حيث تكون الكمون حرجة. يوضح X-Token أنه يمكنك أخذ المعرفة من نموذج ضخم وبكفاءة 'ضغطها' في تنسيق صغير—مباشرة مع مفرداته الخاصة. هذا هو الطريق نحو ذكاء اصطناعي يعمل في كل مكان، وليس فقط على أجهزة الحوسبة السحابية. وتحسن سداسي الأضعاف في الرياضيات هو إشارة إلى أن النماذج الصغيرة تبدأ في اكتساب قدرات حقيقية للمهام العملية. قريباً، قد يصبح الذكاء الاصطناعي المحلي المعيار، وليس الاستثناء.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.