الاستدلال

فك التشفير التكهني (Speculative Decoding)

فك التشفير التكهني هو تقنية استدلال تستخدم نموذج مسودة صغير للعثور على رموز متعددة بالتوازي، ثم تتحقق منها بالنموذج الهدف الكبير في ممر أمامي واحد، مما يقلل زمن الكمون بمقدار 2-4 مرات دون تغيير جودة الإخراج.

فك التشفير التكهني هو طريقة لتسريع استدلال نموذج اللغة الحالي (autoregressive). في الجيل القياسي، ينتج نموذج كبير رمز واحد في كل مرة من خلال ممرات أمامية متسلسلة، كل واحدة مكلفة حسابياً. يكسر فك التشفير التكهني هذا الاختناق من خلال إدراج نموذج مسودة سريع مع النموذج الهدف لاستغلال حقيقة أن الانتباه في المحول على تسلسل طول ثابت يمكن حسابه في ممر متوازي واحد.

تعمل الآلية في مرحلتين. يولد نموذج مسودة خفيف — على سبيل المثال، نموذج 7B يعمل كمسودة لهدف 70B — K رموز مرشحة في K ممرات متسلسلة رخيصة. يقيم النموذج الهدف الكبير بعد ذلك جميع المواضع K+1 بشكل متزامن في ممر أمامي واحد، التحقق من كل رمز مقترح ضد توزيعه الخاص. يتم الاحتفاظ برموز مقبولة؛ عند أول رمز مرفوض، تتراجع العملية وتحتل تصحيح النموذج الهدف. بشكل حاسم، توزيع الرموز المقبولة يثبت رياضياً أنه متطابق مع ما كان النموذج الكبير ليولده بمفرده، لذا جودة الإخراج لم تتغير رياضياً.

تهم التقنية لأنها تقطع زمن الكمون الشامل بحوالي 2-4 مرات على الأجهزة النموذجية بدون مبادلة دقة. هذا مهم بشكل خاص للتطبيقات التفاعلية حيث تؤثر سرعة البث ووقت الرمز الأول مباشرة على تجربة المستخدم. يعتمد التسريع على معدل قبول المسودة: مسودة متطابقة جيداً تتفق مع الهدف على معظم الرموز تنتج المكاسب الأكبر، والفائدة تقل عندما ينحرف النموذجان بشكل كبير في الأسلوب أو المجال.

بحلول 2025-2026، يتم نشر فك التشفير التكهني في الإنتاج بواسطة Google لاستدلال Gemini، Anthropic ل Claude، وموفري استدلال رئيسيين بما فيهم Together AI و Groq. تحسينات مثل Medusa (رؤوس مسودة متوازية متعددة مرفقة بنموذج واحد)، EAGLE (رأس تكهني مدرب باستخدام مدخلات على مستوى الميزة من الهدف)، وفك التشفير التكهني الذاتي (استخدام طبقات محول سابقة كمسودة) وسعت تطبيقية التقنية وقللت الحاجة لنموذج مسودة مدرب بشكل منفصل.

مثال

توفر API إنتاجية نموذج 70B معاملة نموذج مسودة 7B؛ عند معدل قبول رمز 75٪، ينخفض زمن كمون البث من حوالي 120 ميلي ثانية إلى أقل من 45 ميلي ثانية لكل رمز مفك بدون أي تغيير في مخرجات النموذج.

مصطلحات مرتبطة

الاستدلال (Inference)زمن الاستجابة (Latency)Small Language Model (SLM)الرمز (Token)

← المسرد