Азербайджанский LLM на SageMaker: как Azercell решила проблему редкого языка

Q: Источник материала?

Оригинальная публикация на AWS Machine Learning Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-29. Время чтения: 3 мин.

Азербайджанский телеком-оператор Azercell разработал собственную большую языковую модель с помощью Amazon SageMaker AI. За шесть недель интенсивной работы с AWS

ЖХ

Редакция Hamidun News

AI‑мониторинг · AWS Machine Learning Blog

2026-05-29· 2 мин

Азербайджанский LLM на SageMaker: как Azercell решила проблему редкого языка — Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

◐ Слушать статью

Азербайджанский телеком-оператор Azercell разработал собственную языковую модель на Amazon SageMaker AI. Компания поставила перед собой амбициозную задачу: создать production-grade LLM для морфологически сложного языка с дефицитом готовых данных и без существующих решений на рынке.

Почему

Азербайджан — сложный случай Азербайджанский — типичный представитель агглютинативных языков с богатой морфологией. Одно слово может нести множество суффиксов, которые кардинально меняют смысл и грамматическую функцию. Это требует совершенно других подходов к токенизации и обучению моделей по сравнению с индоевропейскими языками. К морфологической сложности добавляется критический фактор: объём открытых обучающих данных на азербайджанском значительно меньше, чем для английского, русского или испанского. Стандартные методы обучения LLM, отработанные на крупных текстовых корпусах, здесь напрямую не работают.

Морфологическая сложность требует специальной токенизации Дефицит данных: в 100+ раз меньше текстов, чем для крупных языков Отсутствие готовых примеров и best practices для LLM на азербайджанском Необходимость адаптировать foundation models, обученные на англоязычных данных Требование интегрировать модель в production-системы телекома ## Как Azercell решила задачу Компания заключила партнёрство с AWS Generative AI Innovation Center. За интенсивные шесть недель совместной работы специалисты обеих сторон построили production-ready фреймворк на Amazon SageMaker. Решение включило несколько ключевых компонентов: правильную подготовку и очистку имеющихся данных, специализированную токенизацию, учитывающую морфологию азербайджанского, и оптимизацию процесса обучения для работы с меньшим объёмом данных. Инженеры использовали transfer learning — адаптировали уже обученные модели вместо обучения с нуля на азербайджанском корпусе.

Что получилось: две роли для модели Модель Azercell работает по двум направлениям.

Во-первых, это customer-facing чатбот, который помогает абонентам с вопросами по услугам и тарифам на азербайджанском языке. Во-вторых, модель используется во внутренних бизнес-процессах: обработка входящих запросов, анализ речи в call-центре, классификация проблем и персонализированные рекомендации услуг. Фокус на азербайджанский позволяет избежать потерь смысла при переводе и гарантирует, что модель понимает локальные контексты и речевые нюансы.

Что это значит

Это первый публичный пример полнофункционального LLM для азербайджанского, разработанного в облачной инфраструктуре. Кейс показывает, что облачные платформы могут адаптировать LLM не только для редких языков, но и для конкретных индустриальных задач. Для других компаний в регионе это сигнал: инвестиция в собственную языковую модель реальна и осуществима за несколько недель.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com