لماذا يخطئ GPT في عدّ الحروف: سر tokenization
تعالج نماذج LLM النص على أنه تسلسل من tokens رقمية، لا حروفًا منفصلة. وهذا يفسّر مفارقة غريبة: يمكن أن يختلط الأمر على GPT بسهولة عند عدّ الحروف في كلمات مثل st
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
عندما تكتب موجهة أوامر في ChatGPT، ترى نصاً عادياً مكوناً من أحرف. لكن النموذج يرى شيئاً مختلفاً تماماً — سلسلة من الأرقام تُسمى الرموز (tokens). يخلق هذا التناقض تأثيرات غريبة: قد لا يتمكن GPT من فهم عدد الأحرف في كلمة strawberry، أو قد يرتبك في عملية عد بسيطة.
كيف ترى نماذج اللغة الكبيرة النص
بالنسبة للشبكات العصبية، النص ليس مجموعة من الأحرف، بل سلسلة من الرموز الرقمية. يقابل كل رمز رقم، والنموذج يعمل فقط مع الأرقام، لا يرى الحرف الفعلي أبداً. إنه كما لو كنت تقرأ كتاباً من خلال نظام يترجم الكلمات إلى رموز أولاً، ثم تعالجها، وبعد ذلك تُترجم الرموز مرة أخرى إلى نص. يمكن أن تكون الكلمة الشائعة رمزاً واحداً، بينما تُقسم الكلمة النادرة إلى عدة أجزاء. على سبيل المثال، تُرمز كلمة "hello" كرقم واحد، بينما قد تكون كلمة "strawberry" ثلاثة أو أربعة أرقام. في اللغة الروسية، الوضع أكثر تعقيداً — بسبب الهيكل الصرفي الغني، تُقسم الكلمات بكفاءة أقل.
لماذا يخلق هذا مشاكل
يؤدي التناقض بين طريقة رؤية الإنسان للنص وطريقة رؤية النموذج له إلى مجموعة كاملة من المشاكل:
- أخطاء العد: لا يستطيع GPT ببساطة عد الأحرف لأنه يعمل مع أرقام وليس أحرفاً
- عدم وضوح الكلمات النادرة: تُقسم مجموعات الأحرف النادرة إلى رموز متعددة، ويرى النموذج كل جزء على حدة
- عدم التماثل اللغوي: ينقسم الإنجليزية إلى رموز بكفاءة أكبر من الروسية أو الصينية أو العربية
- استهلاك السياق: إذا انقسمت كلمة إلى 3 رموز بدلاً من 1، فإن موجهتك تأخذ مساحة أكبر في نافذة السياق
- سلوك غير متنبأ به: قد يتصرف النموذج بشكل غريب مع الأرقام والرموز والأسماء النادرة لأنها مقسمة إلى أجزاء
الخوارزمية خلف الكواليس
خلف الترميز تقف خوارزمية Byte Pair Encoding (BPE). إليك كيفية عملها: أولاً، ينقسم النص إلى كل حرف كرمز منفصل. ثم تبحث الخوارزمية عن أي أزواج أحرف تظهر بشكل متكرر وتدمجها في رمز جديد. بعد ذلك، تبحث عن أزواج متكررة من الرموز الناتجة — وتدمجها مرة أخرى. يتكرر هذا آلاف المرات. نتيجة لذلك، يحتوي قاموس GPT على حوالي 50000 رمز. تصبح الكلمات الشائعة وأجزاء الكلمات رموزاً منفصلة، بينما تبقى مجموعات الأحرف النادرة مجزأة. لا يُعتبر مثالياً، لكنه أكثر كفاءة من ترميز كل حرف على حدة.
ما يعنيه هذا
يغير فهم الترميز طريقة عملك مع نماذج اللغة الكبيرة. إذا كنت تعلم أن النموذج سيرتبك في عد الأحرف، يمكنك طلب منه العمل بطريقة مختلفة — على سبيل المثال، طباعة الأحرف بشكل منفصل أولاً ثم عدها. هذا ليس حلاً سحرياً، لكنه يساعد في كتابة موجهات أوامر أكثر موثوقية. معرفة الترميز مفيدة عند تحسين موجهات الأوامر الطويلة — يمكنك التنبؤ بمكان "إنفاق" النموذج للرموز بشكل غير ضروري. هذا مهم لأي شخص يعمل مع نماذج اللغة الكبيرة على مستوى عميق، من مهندسي موجهات الأوامر إلى مطوري التطبيقات القائمة على الشبكات العصبية.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.