Inférence
L'inférence est le processus d'application d'un modèle d'apprentissage automatique entraîné à de nouvelles données d'entrée pour produire des prédictions ou des sorties. C'est l'opération au moment du déploiement, distincte de l'entraînement, dans lequel aucun paramètre de modèle n'est mis à jour.
Dans l'apprentissage automatique, l'inférence fait référence à la computation de passe avant dans laquelle un modèle entraîné reçoit une entrée et produit une sortie — une étiquette de classification, une séquence de texte générée, un vecteur d'incorporation, ou toute autre sortie du modèle. Contrairement à l'entraînement, l'inférence ne modifie pas les poids du modèle ; c'est une opération en lecture seule par rapport à un ensemble fixe de paramètres. Dans les systèmes en production, l'inférence s'exécute continuellement et à grande échelle, servant les utilisateurs finaux ou les applications en aval.
L'inférence pour un modèle linguistique basé sur transformer implique de tokeniser le texte d'entrée, de rechercher les incorporations de jetons, de calculer l'auto-attention multi-tête sur la fenêtre de contexte, de passer les activations par des couches feed-forward, et — pour les modèles génératifs — d'échantillonner itérativement le jeton suivant jusqu'à ce qu'un critère d'arrêt soit atteint (décodage autoregressif). Les optimisations clés incluent la quantification (réduction de la précision des poids de 32 bits float à 8 bits ou 4 bits entiers), la réutilisation du cache KV (stockage des matrices de clé et de valeur précédemment calculées pour éviter les calculs redondants entre les étapes de décodage), et le traitement par lots des requêtes (regroupement des requêtes concurrentes pour maximiser l'utilisation des GPU).
L'économie de l'inférence domine la structure des coûts des produits d'IA déployés. Dans la plupart des déploiements à grande échelle, les coûts d'inférence cumulatifs dépassent les coûts de formation uniques parce que l'inférence s'exécute continuellement tandis que la formation est périodique. La latence (temps jusqu'au premier jeton, temps de génération total) et le débit (jetons par seconde par accélérateur) sont les métriques de performance principales. Ces pressions ont entraîné un investissement dans le matériel optimisé pour l'inférence — y compris le LPU de Groq, les processeurs wafer-scale de Cerebras, et les GPU H200 et Blackwell de NVIDIA — ainsi que des techniques algorithmiques telles que le décodage spéculatif, qui utilise un modèle de brouillon plus petit pour proposer des jetons candidats validés en parallèle par le modèle principal.
Depuis 2026, l'inférence de service est une discipline mature avec des frameworks open-source dédiés incluant vLLM, TensorRT-LLM et SGLang. Les grands fournisseurs offrent des API d'inférence tarifées par million de jetons. L'inférence sur l'appareil — exécution de modèles localement sur des téléphones intelligents, des ordinateurs portables ou du matériel embarqué sans connectivité cloud — est devenue pratique avec des modèles sub-10B-paramètres quantifiés qui tiennent dans la RAM des consommateurs, permettant des applications respectueuses de la vie privée et à faible latence.