Les nouveaux GPU réduiront le coût de l'inférence, mais pas les prix pour les utilisateurs
L'inférence (déploiement des modèles d'IA) se renchérit en raison de la charge croissante des infrastructures. Une nouvelle génération de GPU et d'accélérateurs

◐ Écouter l'article
L'inférence (déploiement des modèles d'IA) se renchérit en raison de la charge croissante des infrastructures. Une nouvelle génération de GPU et d'accélérateurs spécialisés promet de réduire la demande de calcul et de diminuer les coûts pour les développeurs. Mais les utilisateurs verront difficilement une réduction de prix — les entreprises ne réduiront pas leurs marges.