الروسية في ChatGPT تكلف ضعف السعر: والسبب هو tokenization
تتضاعف تكلفة النص الروسي في ChatGPT وغيره من خدمات LLM السحابية مقارنة بالإنجليزية. والسبب هو الطريقة التي تقسم بها الشبكات العصبية النص إلى tokens: فالكلمة الإ

عندما تُرسل طلباً إلى ChatGPT أو شبكة عصبية أخرى قائمة على السحابة، فإنها لا تعمل مباشرة مع الأحرف والكلمات. يتم تقسيم النص أولاً إلى رموز — قطع صغيرة من المعنى يمكن للنموذج معالجتها. يحدد هذا التقسيم تكلفة الطلب وسرعة الاستجابة وكمية المعلومات التي يمكن أن تتناسب في نافذة السياق في المرة الواحدة.
كيف يعمل الترميز
الترميز هو العملية التي تقطع بها شبكات عصبية مختلفة النص بطرق مختلفة. يتم تقسيم النص الإنجليزي بكفاءة عالية جداً: تحتل الكلمة عادة رمزاً واحداً أو رمزين. الكلمة "contract" هي دائماً رمز واحد. سيتطلب النص الإنجليزي من 1000 كلمة تقريباً 1200-1500 رمز.
اللغة الروسية لم تحظ بنفس الحظ: يتطلب نفس المحتوى 2-3 أضعاف من القطع الأخرى. تتطلب الكلمة الروسية "разработка" رمزين أو ثلاثة رموز. "Программирование" تتطلب ثلاثة أو أربعة رموز. وصفة مثل "искусственный" قد تحتل أربعة أو خمسة رموز. سيتطلب النص الروسي من 1000 كلمة 2500-3500 رمز.
يحدث هذا لأن اللغة الإنجليزية استُخدمت بكثافة أكبر كثيراً في تدريب نماذج اللغة الكبيرة الحديثة مقارنة باللغة الروسية. يتم تمثيل مفرداتها بشكل أفضل في قاموس الرموز الذي جمعه منشئو النموذج من كميات ضخمة من المحتوى باللغة الإنجليزية. يظل الأبجدية السيريلية أجنبية للشبكات العصبية.
ما يكلفه في الممارسة العملية
نظراً لعدم المساواة في الترميز، يكلف النص الروسي في خدمات السحابة مثل OpenAI تقريباً ضعف سعر النص الإنجليزي لنفس كمية المعلومات الفعلية. إذا دفعت دولاراً واحداً لمعالجة 1000 رمز من النص الإنجليزي، فسيكلف الروسي دولارين.
من الأسهل ملاحظة هذا عند العمل على مشاريع كبيرة: تحديث تطبيق إلى الروسية أو ترجمة الوثائق أو تشغيل روبوت محادثة باللغة الروسية سيكلف ضعف سعر نفس الخدمات لمستخدم ناطق بالإنجليزية.
لكن التكلفة العالية هي فقط بداية المشاكل. معالجة النص الروسي أبطأ بشكل ملحوظ لأن النموذج يحتاج إلى معالجة المزيد من الرموز. عندما تكون هناك رموز أكثر، تستغرق الاستجابة وقتاً أطول. ونافذة السياق — ذلك الحجم من الذاكرة حيث يمكن للنموذج الاحتفاظ بالمعلومات — تصبح نصف الحجم من حيث المحتوى الفعلي. إذا كان للنموذج نافذة سياق تضم 128 ألف رمز، فلا يمكنك في الروسية أن تضع إلا نصف هذه الكمية من المعلومات الروسية الفعلية.
من يتأثر بشكل خاص
- المطورون الناطقون بالروسية الذين يستخدمون الذكاء الاصطناعي للعمل مع الوثائق والأكواد
- الشركات التي تعالج كميات كبيرة من النص الروسي (الترجمات والروبوتات والتحليلات)
- الشركات الناشئة الناطقة بالروسية التي تبني منتجات بناءً على نماذج اللغة الكبيرة ولا تستطيع تحمل نفقات OpenAI
- الباحثون الذين يعملون مع اللغة الروسية ويحتاجون إلى تحليل عميق من خلال الشبكات العصبية
- المؤلفون والناشرون الذين يرغبون في استخدام الذكاء الاصطناعي لتحرير وإعادة كتابة النصوص
كيفية القياس على البيانات الخاصة بك
يوصي مؤلف المقالة بالتحقق من النسبة الفعلية للرموز لنصوصك المحددة: خذ عينة بالإنجليزية والروسية، واحسب الرموز من خلال واجهة برمجة تطبيقات OpenAI وقارن. سيستغرق هذا خمس دقائق وسيظهر لك التكلفة الفعلية لحالتك.
ما تعنيه
عدم المساواة في الترميز هي ضريبة مخفية على اللغة الروسية في عصر نماذج اللغة الكبيرة. هذا ليس خطأ من المطورين، بل هو نتيجة طبيعية لكيفية بناء هذه النماذج: على محتوى باللغة الإنجليزية من الجيل الأول من الإنترنت. بالنسبة للمجتمع الناطق بالروسية، هذا يعني قبول الواقع: إما أن تدفع أكثر وتحصل على نتائج أبطأ، أو تبحث عن بدائل تم تدريبها مع دعم أفضل للأبجدية السيريلية.