Débit
Le débit en inférence IA est le volume de travail qu'un système de service de modèle traite par unité de temps, couramment exprimé en tokens de sortie par seconde ou en demandes complétées par seconde sur tous les utilisateurs simultanés. Il reflète la capacité totale du système plutôt que la vitesse d'une demande individuelle.
Le débit quantifie le débit de sortie productif agrégé d'un déploiement d'inférence — combien de tokens sont générés ou combien de demandes sont complétées sur toutes les sessions simultanées dans une fenêtre de temps donnée. C'est l'équivalent au niveau du système pour la latence : alors que la latence décrit l'expérience d'un utilisateur, le débit décrit la capacité de traitement globale du système. Les deux métriques sont liées mais échangent l'une contre l'autre ; augmenter la taille du batch augmente le débit tout en augmentant la latence par demande.
Le débit varie avec le nombre de GPU, la taille du batch et les optimisations du modèle. Le batching continu traite les tokens de plusieurs demandes en vol dans un seul passage avant, augmentant l'utilisation du GPU. Le parallélisme tensoriel distribue les poids du modèle sur plusieurs GPU, permettant des batches plus grands que ce que la mémoire d'un seul GPU permet. La quantification — réduire la précision des poids de FP16 à INT8 ou INT4 — réduit l'empreinte mémoire, permettant plus de séquences simultanées. Le parallélisme de pipeline sur plusieurs nœuds étend davantage la capacité pour les très grands modèles.
Pour les déploiements à fort trafic — bots d'assistance client, augmentation de recherche, traitement de documents à grande échelle — le débit détermine le coût par token et la charge utilisateur simultanée maximale que l'infrastructure peut supporter sans délais de mise en attente. Doubler le débit avec un matériel constant réduit de moitié le coût d'inférence par unité, ce qui à l'échelle de milliards de tokens quotidiens représente une dépense opérationnelle importante.
En 2025–2026, les stacks de service open-source optimisés tels que vLLM, SGLang et TensorRT-LLM ont démontré des débits de plusieurs milliers de tokens de sortie par seconde par GPU H100 pour les modèles dans la plage de paramètres 7B–70B. Les fournisseurs de cloud publient des benchmarks de débit sous charge soutenue pour aider les clients à dimensionner les clusters selon leurs modèles de trafic. La recherche sur le chunked prefill, le prefill/decode désagrégé et l'exécution spéculative continue de pousser le débit plus haut tout en gardant la latence de queue bornée.