Les nouveaux GPU réduiront le coût de l'inférence, mais pas les prix pour les utilisateurs
L'inférence (déploiement des modèles d'IA) devient plus chère en raison de la charge croissante sur l'infrastructure. La nouvelle génération de GPU et…
Traité par IA depuis 3DNews AI ; édité par Hamidun News
Chaque jour, les services d'IA deviennent plus chers en raison de la charge croissante sur l'infrastructure. Les entreprises dépensent de plus en plus pour les serveurs et les processeurs graphiques destinés à l'inférence — la phase où le modèle entraîné fonctionne et répond aux demandes des utilisateurs. Et les consommateurs le ressentent dans leurs factures d'API et d'abonnements.
Pourquoi l'inférence est si chère
L'inférence n'est pas l'entraînement du modèle. Le modèle est déjà entraîné une seule fois, puis il est lancé des milliers de fois par jour sur des milliers de serveurs. Chaque demande d'utilisateur nécessite un calcul sur GPU. Quand des millions de personnes écrivent simultanément dans ChatGPT, cela crée une charge énorme. Les développeurs ont deux options : soit acheter d'autres GPU, soit vivre avec des files d'attente.
NVIDIA vend ses H100 et B100 pour des centaines de milliers de dollars chacun. OpenAI, Google et Meta en achètent des milliers. De plus, ils paient pour l'électricité (plusieurs kilowatts par puce) et le refroidissement (systèmes de refroidissement par eau spécialisés). C'est pourquoi l'abonnement Claude Pro coûte 20 $ par mois — c'est simplement de l'ingénierie d'infrastructure.
Sauvetage grâce aux nouveaux matériels
Les fabricants de processeurs voient le problème et lancent des matériels spécialisés pour l'inférence. NVIDIA prépare la série Blackwell pour l'IA, Intel développe Gaudi, AMD améliore le MI300X. La nouvelle génération promet :
- Une consommation d'énergie réduite (30 à 40 % moins chers par an en électricité)
- Une meilleure performance par watt (une nouvelle puce peut remplacer deux anciennes)
- Optimisation pour les modèles typiques (moins de mémoire, calculs plus rapides)
- Scalabilité (plus facile de construire une ferme de milliers de puces)
En théorie, cela pourrait réduire le coût opérationnel de l'inférence de 25 à 50 %.
Mais les prix pour l'utilisateur ne baisseront pas
The Register le rappelle justement : quand l'équipement devient moins cher, cela mène rarement à une baisse des prix pour le consommateur final. Voici pourquoi :
Premièrement, les développeurs paient toujours pour l'électricité, les racks, le refroidissement et l'amortissement des anciens GPU (qui ne disparaissent pas en un jour).
Deuxièmement, les entreprises utilisent l'économie pour développer de nouvelles fonctionnalités et augmenter le nombre de paramètres dans les modèles — c'est coûteux et nécessite à nouveau plus de GPU.
Troisièmement, le marché est jeune. OpenAI, Google et Anthropic fixent encore les prix sans faire de concurrence agressive sur les prix. Ils rivalisent sur la qualité et les capacités. Quand il y aura 20 services comparables sur le marché, les prix baisseront — mais ce n'est pas pour aujourd'hui.
Ce que cela signifie
Les nouveaux matériels sont un cadeau pour les entreprises, pas pour les consommateurs. Les GPU moins chers permettront aux services d'IA de rester rentables même face à la demande croissante. Très probablement, les économies réalisées iront à la formation de nouveaux modèles, à l'expansion géographique et à l'amélioration du service — mais pas à des réductions pour les abonnés. Les services d'IA resteront chers tant que cela fonctionnera.
*Meta est reconnue comme une organisation extrémiste et interdite en Russie.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.