الاستدلال

الترميز (Tokenization)

الترميز (Tokenization) هو عملية تقسيم النص الخام إلى وحدات منفصلة تسمى رموز — عادة ما تكون أجزاء فرعية من الكلمات — والتي يقوم نموذج اللغة بتشفيرها وتعالجها بشكل رقمي. يبلغ متوسط الرمز حوالي 4 أحرف في الإنجليزية؛ تستخدم معظم نماذج اللغة الكبيرة الحديثة معاجم فرعية تتراوح بين 32,000–200,000 إدخال.

الترميز (Tokenization) هو خطوة المعالجة المسبقة التي تحول سلسلة نصية إلى سلسلة من معرّفات الأعداد الصحيحة المأخوذة من معجم ثابت. كل معرّف يقابل رمزاً — قد يكون كلمة أو جزء فرعي من كلمة أو حرف واحد أو مسافة بيضاء — حسب تصميم محلل الرموز. تتراوح أحجام المعاجم الخاصة بمحللات الرموز الحديثة الشائعة من حوالي 32,000 (محلل SentencePiece الخاص بـ LLaMA 2) إلى حوالي 100,000–200,000 (معجم tiktoken cl100k الخاص بـ GPT-4o).

النهج السائد منذ حوالي 2018 هو ترميز Byte-Pair (BPE)، والذي يتم فيه دمج أزواج الأحرف المتكررة بشكل تكراري إلى وحدات فرعية أثناء مرحلة التدريب على مجموعة بيانات نصية كبيرة، مما ينتج عنه معجم يوازن بين تغطية الكلمات النادرة والترميز الفعال للكلمات الشائعة. تشمل البدائل WordPiece (المستخدم في نماذج عائلة BERT) و Unigram LM (المستخدم في SentencePiece، الذي يدعم LLaMA و Mistral). يتم تثبيت معجم محلل الرموز قبل تدريب نموذج اللغة نفسه. في وقت الاستدلال، يتم ترميز النص المدخل إلى سلسلة معرّفات الرموز، وتُفكك معرّفات إخراج النموذج مرة أخرى إلى نص قابل للقراءة.

يحدد الترميز بشكل مباشر تكلفة النظام وسلوك النموذج: تُسعّر واجهات برمجة التطبيقات بالرموز، وتُعبّر عن حدود نافذة السياق بالرموز، والنماذج تعمل بشكل حصري على معرّفات صحيحة — لا ترى أبداً الأحرف الخام. تُرمّز اللغات التي تحتوي على مجموعات أحرف كبيرة (الصينية واليابانية) أو تشكل صرفياً عالي الإلصاق (الفنلندية والتركية) بكفاءة أقل من الإنجليزية، مما يعني أن المحتوى الدلالي المكافئ قد يستهلك رموزاً تصل إلى مرتين أو أربع مرات أكثر، وبالتالي حساب وتكلفة متناسبة.

اعتباراً من 2026، تستخدم معظم النماذج الحدودية — GPT-4o و Claude 3.5/4 و Gemini 2.0 — محللات رموز بنمط BPE مع معاجم في نطاق 100k–200k. يستمر البحث في معماريات بدون محلل رموز وعلى مستوى البايت (MegaByte و MEGALODON)، بهدف القضاء على اختناق الترميز بالكامل، لكن الترميز الفرعي يبقى النهج السائد للإنتاج عبر نماذج الأوزان المفتوحة والملكية.

مثال

عندما يقدم مستخدم الجملة "Tokenization is fundamental" إلى GPT-4o، يحول محلل الرموز النص إلى تقريباً 4–5 معرّفات أعداد صحيحة قبل بدء أي حساب عصبي؛ ثم يتم فك تشفير معرّفات إخراج النموذج مرة أخرى إلى نص قابل للقراءة رمزاً تلو الآخر.

مصطلحات مرتبطة

آخر الأخبار حول الموضوع

← المسرد