معمارة فاكك التشفير فقط (Decoder-Only Architecture)
معمارة فاكك التشفير فقط هي متغيير Transformer يستخدم مكدسة انتباه ذاتي واحدة مع إخفاء سببي (من اليسار إلى اليمين) للتنبؤ بكل رمز تالي من السياق السابق، بدون مُشفِّر منفصل، وهي التصميم المهيمن لنماذج اللغة الكبيرة.
في محول فاكك التشفير فقط، يتم التعامل مع المدخل بالكامل — كل من الطلب والمخرجات المولدة — كسلسلة رموز موحدة. تطبق كل طبقة انتباه ذاتي مقنع، حيث يمكن لكل موضع أن ينتبه فقط إلى المواضع السابقة (إخفاء سببي)، مما يضمن أن النموذج لا يستطيع مراقبة الرموز المستقبلية أثناء التنبؤ بالرمز التالي. يتناقض هذا مع تصاميم المُشفِّر–فاكك التشفير، التي تستخدم مُشفِّر ثنائي الاتجاه منفصل وفاكك تشفير سببي، وإصدارات نماذج المُشفِّر فقط على غرار BERT، التي تطبق انتباه ثنائي الاتجاه بدون قيود توليدية.
يتم تدريب المعمارة بموضوع واحد: بناءً على سلسلة رموز، تنبأ بالرمز التالي في كل موضع. هذه مهمة نمذجة لغة انحدارية ذاتية المراقبة بالكامل — لا توجد حاجة لبيانات موسومة، فقط نصوص خام — مما يتيح التدريب على متعددة الويب الكبيرة. أصبحت سلسلة GPT الحد الأدنى من التصميم: GPT-1 (OpenAI، 2018) أثبتت نقل التعلم من التدريب المسبق، GPT-2 (2019) أظهرت أن الحجم أنتج توليد متماسك بشكل مفاجئ، و GPT-3 (2020، 175 مليار معامل) أسست أن نماذج فاكك التشفير كبيرة جداً تطور قدرات تعلم سياق عريضة بدون تحديثات تدرجية.
تهيمن نماذج فاكك التشفير على الشبكات العصبية اللغوية الحديثة الكبيرة لأن التصميم أبسط (مكدسة واحدة، موضوع واحد)، يتسع بشكل متنبأ مع عدد المعاملات والبيانات، ويتعامل مع الفهم والتوليد في تمرير أمامي واحد عبر تكييف الطلب. جميع النماذج الحدودية الرئيسية اعتباراً من 2026 — GPT-4 و GPT-4o (OpenAI)، سلسلة Claude 3 و Claude 4 (Anthropic)، Gemini 1.5 و 2.0 (Google DeepMind)، LLaMA 3 (Meta)، و Mistral — تستخدم معمارات فاكك التشفير فقط.
على الرغم من انتشاره، فإن تصميم فاكك التشفير فقط له حدود: الإخفاء السببي يعني أن كل رمز ينتبه فقط إلى الرموز السابقة حتى عندما يكون السياق ثنائي الاتجاه مفيداً، كما هو الحال في مهام التصنيف حيث يمكن لنماذج المُشفِّر فقط من نفس الحجم تفوقها. يستكشف البحث الحالي انتباه البادئة (انتباه ثنائي الاتجاه على الطلب متبوعاً بفك تشفير سببي)، طبقات فاكك تشفير خليط متخصص (كما هو الحال في GPT-4 و Mixtral)، وفك تشفير تكهني لتسريع خطوة التوليد الحتمية بالتسلسل.