الاستدلال

الرمز (Token)

الرمز (Token) هو الوحدة الأساسية للنص التي تعالجها نموذج اللغة، وعادة ما تكون كلمة أو جزء من كلمة أو علامة ترقيم. في النثر الإنجليزي العام، تقابل الكلمة الواحدة تقريباً 1.3 رمز تحت المعاجم الفرعية الشائعة الاستخدام.

الرمز (Token) هو الوحدة الذرية التي يتم تحليل النص إليها قبل إدخاله إلى نموذج اللغة. تستخدم معظم النماذج الحديثة الترميز الفرعي (subword tokenization)، مما يقسم النص إلى قطع لا تقف عند مستوى الأحرف ولا حتماً عند حدود الكلمات، بل إلى أجزاء توازن بين حجم المعجم وطول التسلسل. أكثر الخوارزميات شيوعاً هي ترميز Byte-Pair (BPE المستخدم من قبل عائلة GPT) و WordPiece (المستخدم من قبل BERT ومشتقاته) و SentencePiece (المستخدم من قبل LLaMA و T5 والعديد من النماذج متعددة اللغات). تحتوي المعاجم عادة على 32,000–200,000 نوع من الرموز؛ يحتوي محلل الرموز cl100k_base الخاص بـ GPT-4 على ما يقرب من 100,000.

في الممارسة العملية، غالباً ما تكون الكلمات الإنجليزية عالية التكرار مثل "the" أو "model" رموزاً فردية، بينما تنقسم الكلمات النادرة والمصطلحات التقنية ومعظم النصوص غير الإنجليزية إلى رموز متعددة. ينقسم الكود وعناوين URL أيضاً بكفاءة أقل من النثر. يتم تدريب محلل الرموز بشكل منفصل عن النموذج على مجموعة بيانات كبيرة وممثلة، ويتم تثبيت معجمه قبل بدء تدريب النموذج. في وقت الاستدلال، يتم تحويل النص الخام أولاً إلى سلسلة من معرّفات الرموز الصحيحة، والتي تُستخدم للبحث عن متجهات التضمين الكثيفة التي تعالجها طبقات النموذج.

تعتبر الرموز مهمة لثلاثة أسباب عملية. أولاً، نوافذ السياق — أقصى سلسلة يمكن لنموذج معالجتها في المرة الواحدة — تُقاس بالرموز؛ اعتباراً من 2025، تتراوح النماذج الرائدة بين 128,000 رمز (GPT-4o) و 200,000 (Claude 3.5 Sonnet) وأكثر من مليون (Gemini 1.5 Pro)، مع استمرار التوسع. ثانياً، واجهات برمجة التطبيقات لاستدلال السحابة تفرض رسوماً لكل رمز يتم استهلاكه وإنشاؤه، مما يجعل كفاءة الرموز عامل تكلفة مباشر. ثالثاً، ينسحب الاهتمام في المحولات (transformers) بشكل تربيعي مع طول السلسلة بالرموز، مما يجعل السياقات الأطول مكلفة حسابياً ويحفز البحث عن متغيرات الاهتمام الخطي والمتفرقة.

اعتباراً من 2026، توسعت تجريدة الرموز لتتجاوز النص إلى النماذج متعددة الوسائط. يتم عادة ترميز الصور كعدد ثابت من الرموز البصرية (عادة 256–1,024 لكل صورة) متسلسلة مع رموز النص قبل المعالجة بواسطة محول موحد. تتبع مدخلات الصوت والفيديو خطوط معالجة مماثلة للتكمية ثم الترميز، مما يجعل الرمز العملة العالمية عبر معماريات الذكاء الاصطناعي متعددة الوسائط.

مثال

قد يحتوي عقد قانوني من 10 صفحات قُدّم إلى مساعد ذكاء اصطناعي على حوالي 5,000 رمز؛ بمعدل نموذجي قدره بضع دولارات لكل مليون رمز إدخال، تكون معالجة هذا المستند تكلفة حوالي بضعة سنتات في رسوم الاستدلال.

مصطلحات مرتبطة

آخر الأخبار حول الموضوع

← المسرد