LLM azerbaïdjanais sur SageMaker : comment Azercell a résolu le problème des langues rares
L'opérateur de télécommunications azerbaïdjanais Azercell a développé son propre grand modèle de langage en utilisant Amazon SageMaker AI. En six semaines de co

Azercell, un opérateur de télécommunications azerbaïdjanais, a développé son propre modèle de langage sur Amazon SageMaker AI. L'entreprise s'est fixé un objectif ambitieux : créer un LLM de qualité production pour une langue morphologiquement complexe avec une pénurie de données prêtes à l'emploi et sans solutions existantes sur le marché.
Pourquoi l'azerbaïdjanais est un cas complexe
L'azerbaïdjanais est un représentant typique des langues agglutinantes avec une morphologie riche. Un seul mot peut porter plusieurs suffixes qui changent drastiquement son sens et sa fonction grammaticale. Cela nécessite des approches entièrement différentes de la tokenisation et de l'entraînement des modèles par rapport aux langues indo-européennes. À la complexité morphologique s'ajoute un facteur critique : le volume de données d'entraînement ouvertes en azerbaïdjanais est nettement inférieur à celui de l'anglais, du russe ou de l'espagnol. Les méthodes standard d'entraînement des LLM, testées sur de grands corpus textuels, ne fonctionnent pas directement ici.
- La complexité morphologique exige une tokenisation spécialisée
- Déficit de données : 100+ fois moins de textes que pour les grandes langues
- Absence d'exemples existants et de bonnes pratiques pour les LLMs en azerbaïdjanais
- Nécessité d'adapter les modèles fondamentaux entraînés sur des données en anglais
- Exigence d'intégrer le modèle dans les systèmes de production des télécommunications
Comment Azercell a résolu la tâche
L'entreprise s'est associée avec le AWS Generative AI Innovation Center. Au cours de six semaines intensives de travail conjoint, des spécialistes des deux côtés ont construit un framework prêt pour la production sur Amazon SageMaker. La solution incluait plusieurs composants clés : une préparation adéquate et un nettoyage des données existantes, une tokenisation spécialisée tenant compte de la morphologie de l'azerbaïdjanais, et une optimisation du processus d'entraînement pour fonctionner avec des volumes de données plus petits. Les ingénieurs ont utilisé le transfer learning — en adaptant des modèles déjà entraînés plutôt que d'entraîner à partir de zéro sur un corpus azerbaïdjanais.
Ce qui en a résulté : deux rôles pour le modèle
Le modèle d'Azercell fonctionne dans deux directions. Premièrement, il sert de chatbot orienté client qui aide les abonnés à répondre aux questions sur les services et les tarifs en azerbaïdjanais. Deuxièmement, le modèle est utilisé dans les processus commerciaux internes : traitement des demandes entrantes, analyse de la parole dans les centres d'appels, classification des problèmes et recommandations de services personnalisées. La concentration sur l'azerbaïdjanais permet d'éviter la perte de sens lors de la traduction et garantit que le modèle comprend les contextes locaux et les nuances du langage.
Ce que cela signifie
Ceci est le premier exemple public d'un LLM entièrement fonctionnel pour l'azerbaïdjanais développé dans une infrastructure cloud. Le cas montre que les plateformes cloud peuvent adapter les LLMs non seulement pour les langues rares, mais aussi pour des tâches industrielles spécifiques. Pour les autres entreprises de la région, ceci est un signal : l'investissement dans votre propre modèle de langage est réel et réalisable en quelques semaines.