Азербайджанский LLM на SageMaker: как Azercell решила проблему редкого языка
Азербайджанский телеком-оператор Azercell разработал собственную большую языковую модель с помощью Amazon SageMaker AI. За шесть недель интенсивной работы с AWS

Азербайджанский телеком-оператор Azercell разработал собственную языковую модель на Amazon SageMaker AI. Компания поставила перед собой амбициозную задачу: создать production-grade LLM для морфологически сложного языка с дефицитом готовых данных и без существующих решений на рынке.
Почему
Азербайджан — сложный случай Азербайджанский — типичный представитель агглютинативных языков с богатой морфологией. Одно слово может нести множество суффиксов, которые кардинально меняют смысл и грамматическую функцию. Это требует совершенно других подходов к токенизации и обучению моделей по сравнению с индоевропейскими языками. К морфологической сложности добавляется критический фактор: объём открытых обучающих данных на азербайджанском значительно меньше, чем для английского, русского или испанского. Стандартные методы обучения LLM, отработанные на крупных текстовых корпусах, здесь напрямую не работают.
- Морфологическая сложность требует специальной токенизации Дефицит данных: в 100+ раз меньше текстов, чем для крупных языков Отсутствие готовых примеров и best practices для LLM на азербайджанском Необходимость адаптировать foundation models, обученные на англоязычных данных Требование интегрировать модель в production-системы телекома ## Как Azercell решила задачу Компания заключила партнёрство с AWS Generative AI Innovation Center. За интенсивные шесть недель совместной работы специалисты обеих сторон построили production-ready фреймворк на Amazon SageMaker. Решение включило несколько ключевых компонентов: правильную подготовку и очистку имеющихся данных, специализированную токенизацию, учитывающую морфологию азербайджанского, и оптимизацию процесса обучения для работы с меньшим объёмом данных. Инженеры использовали transfer learning — адаптировали уже обученные модели вместо обучения с нуля на азербайджанском корпусе.
Что получилось: две роли для модели Модель Azercell работает по двум направлениям.
Во-первых, это customer-facing чатбот, который помогает абонентам с вопросами по услугам и тарифам на азербайджанском языке. Во-вторых, модель используется во внутренних бизнес-процессах: обработка входящих запросов, анализ речи в call-центре, классификация проблем и персонализированные рекомендации услуг. Фокус на азербайджанский позволяет избежать потерь смысла при переводе и гарантирует, что модель понимает локальные контексты и речевые нюансы.
Что это значит
Это первый публичный пример полнофункционального LLM для азербайджанского, разработанного в облачной инфраструктуре. Кейс показывает, что облачные платформы могут адаптировать LLM не только для редких языков, но и для конкретных индустриальных задач. Для других компаний в регионе это сигнал: инвестиция в собственную языковую модель реальна и осуществима за несколько недель.