Русский язык в ChatGPT стоит в 2 раза дороже: виновата токенизация
Русский текст в ChatGPT и других облачных LLM вырастает в стоимости в 2 раза по сравнению с английским. Виноват способ, которым нейросети разбивают текст на ток

Когда вы отправляете запрос в ChatGPT или другую облачную нейросеть, она не работает с буквами и словами напрямую. Текст сначала разбивается на токены — маленькие кусочки смысла, которые модель может обработать. От этого разбиения зависит стоимость запроса, скорость ответа и то, сколько информации поместится в контекстное окно за один раз.
Как работает токенизация Токенизация — это процесс, которым разные нейросети режут текст по-разному.
Английский текст режется очень эффективно: слово обычно занимает один-два токена. Слово «contract» — это всегда один токен. На английский текст из 1000 слов потребуется примерно 1200-1500 токенов. Русский язык не так повезло: то же самое содержание требует 2-3 раза больше кусочков. Слово «разработка» в русском требует два-три токена. «Программирование» — три-четыре. А прилагательное вроде «искусственный» может занять четыре-пять токенов. На русский текст из 1000 слов потребуется уже 2500-3500 токенов. Это происходит потому, что английский язык был использован при обучении современных больших языковых моделей намного интенсивнее, чем русский. Его лексика лучше представлена в словаре токенов, который создатели модели собирали на огромных объёмах англоязычного контента. Кириллица остаётся иностранкой для нейросетей.
Что это стоит на практике
Из-за неравенства в токенизации русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского при одинаковом объёме реальной информации. Если вы платите 1 доллар за обработку 1000 токенов английского текста, то русский будет стоить 2 доллара. Проще всего это заметить при работе с большими проектами: локализация приложения на русский, перевод документации, или ведение чат-бота на русском языке обойдутся вдвое дороже, чем те же услуги для англоязычного пользователя.
Но дороговизна — это только начало проблем. Обработка русского текста идёт заметно медленнее, потому что модели нужно прогнать через больше токенов. Когда токенов больше, ответ приходит дольше.
А контекстное окно — тот самый объём памяти, где модель может удерживать информацию, — становится вдвое меньше по реальному содержанию. Если у модели контекстное окно из 128 тысяч токенов, то на русском языке вы можете уместить только половину русской информации.
Кого это особенно бьёт *
Русскоязычные разработчики, использующие AI для работы с документацией и кодом Компании, обрабатывающие большие объёмы русского текста (переводы, чат-боты, аналитика) Стартапы на русском, которые строят продукты на базе LLM и не могут позволить себе расходы на OpenAI Исследователи, работающие с русским языком и нуждающиеся в глубоких анализах через нейросети Авторы и издатели, которые хотят использовать AI для редактирования и переписи текстов ## Как измерить на своих данных Автор статьи рекомендует проверить реальное соотношение токенов для ваших специфичных текстов: возьмите образец на английском и русском, посчитайте токены через API OpenAI и сравните. Это займёт минут пять и покажет точную цену вашего кейса.
Что это значит
Неравенство в токенизации — это скрытый налог на русский язык в эру больших языковых моделей. Это не ошибка разработчиков, а естественное следствие того, как строились эти модели: на английском контенте первого поколения интернета. Для русскоязычного сообщества это значит принять реальность: либо платить больше и получать медленнее, либо искать альтернативы, которые были обучены с лучшей поддержкой кириллицы.