OpenAI, Qwen et GigaChat : pourquoi il devient de plus en plus difficile pour les entreprises russes de choisir des modèles d'AI
Les entreprises russes se heurtent de plus en plus à une alternative inconfortable : les LLM occidentaux deviennent moins accessibles, les modèles…
Traité par IA depuis Habr AI ; édité par Hamidun News
Le marché de l'IA russe entre dans une phase où le choix du modèle n'est plus simplement une question de qualité de réponse. Pour les entreprises, c'est maintenant une combinaison de trois facteurs : la disponibilité des services occidentaux, les exigences de données et le coût de l'infrastructure locale.
Comment le choix se rétrécit
L'auteur décrit une situation où les modèles occidentaux comme OpenAI et Anthropic deviennent de plus en plus inaccessibles pour les affaires russes non seulement techniquement mais aussi légalement. Le blocage géographique et les restrictions IP fonctionnent déjà pour certains fournisseurs, et dans les secteurs réglementés, même l'accès formellement autorisé via proxy ne résout guère. Si le nom, le numéro de téléphone ou la voix d'un client apparaît dans une demande à une API externe, cela ressemble à un transfert transfrontalier de données personnelles et bute sur les exigences de la Loi fédérale 152-FZ.
Cela place les agents d'IA pour le support, les ventes et les centres de contact dans une zone de risque accru. À travers ces modèles passe non du texte abstrait, mais des données réelles d'utilisateurs. Dans ce contexte, la demande croît à l'intérieur de la Russie pour des solutions « souveraines », mais ce mot cache souvent non des modèles propriétaires, mais des versions adaptées de systèmes open-source étrangers.
Et c'est ici que commence le compromis principal : plus l'indépendance formelle est grande, plus l'économie devient lourde.
Trois scénarios fonctionnels
Le marché s'est essentiellement établi autour de trois approches. La première est de construire un modèle de base à partir de zéro, comme le fait Sber avec la famille GigaChat. La deuxième est de prendre un modèle ouvert puissant, généralement de la famille Qwen, et de l'ajuster sur un corpus russe et des données de domaine, comme le font Yandex, T-Bank et Avito. La troisième est de continuer à utiliser les API occidentales via la zone grise, si l'entreprise accepte le risque juridique.
- GigaChat — contrôle et localité maximaux, mais entraînement et inférence très coûteux.
- Qwen après ajustement fin — notablement moins cher et plus rapide à lancer, mais la souveraineté ici est conditionnelle.
- OpenAI et Anthropic — qualité solide et économie claire, mais l'accès devient de plus en plus instable.
- Schémas hybrides — un compromis pour les entreprises du marché intermédiaire : commencez dans le cloud, puis migrez vers votre propre périmètre.
Le problème est que chaque chemin a des coûts qui ne peuvent pas être ignorés. L'entraînement à partir de zéro nécessite des dizaines ou même des centaines de millions de dollars, un grand volume de données et des GPU rares de niveau H100 ou H200. L'ajustement fin de Qwen semble plus réaliste, mais l'architecture de base et les poids restent chinois. Du point de vue de la logique réglementaire stricte, ce n'est pas une indépendance complète, mais un compromis soigneusement localisé.
Où l'argent se perd
L'argument le plus douloureux de l'article — non la qualité du modèle, mais le prix de l'inférence. Selon les calculs de l'auteur sur sa propre plateforme d'agents, une minute de travail sur un modèle OpenAI comparable coûte moins de 1 rouble, tandis qu'une minute sur GigaChat-Max coûte environ 80 roubles. Pour les agents vocaux et les centres de contact, c'est une différence non en pourcentages, mais en presque deux ordres de grandeur. Dans un tel modèle de coûts, vous pouvez créer un bon produit techniquement, mais vous ne pouvez pas le justifier économiquement.
« Une solution entièrement russe est terriblement chère »
Un coup supplémentaire — l'infrastructure. Un serveur capable de servir environ mille sessions d'agents simultanées, l'auteur l'estime à environ 55 millions de roubles. Ensuite, un autre piège s'enclenche : pour maintenir le token relativement bon marché, les GPU doivent être chargés à 80-90%. Avec une demande faible et inégale, c'est difficile. L'équipement reste inactif, et les coûts d'électricité, de maintenance et d'amortissement ne disparaissent pas. C'est pourquoi l'IA se rentabilise avant tout là où il existe du travail humain coûteux et une charge constante : support, centres de contact, fonctions juridiques.
Ce que cela signifie
Pour les équipes produit, la conclusion est plutôt dure : construire toute votre architecture sur un seul fournisseur est déjà dangéreux. Si une entreprise travaille avec des LLM en langue russe, elle a besoin d'un schéma agnostique de modèle avec commutation rapide entre OpenAI, GigaChat, des solutions de type Qwen et un périmètre local. Sinon, tout nouveau cycle de blocages, de changements de prix ou d'exigences de données transforme rapidement un choix technique en un problème commercial.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.
L'essentiel de l'IA — une fois par semaine
Sept actus qui ont vraiment compté, choisies à la main. Sans bruit ni communiqués.
C'est fait ! Vérifiez votre boîte mail pour la confirmation.