Inférence

Latence

La latence en inférence IA est le temps écoulé entre la soumission d'une demande à un modèle et la réception de sa réponse, généralement mesuré en millisecondes. Dans les modèles de langage de grande taille, elle est subdivisée en temps jusqu'au premier token (TTFT) et latence inter-token (TPOT).

La latence mesure le délai accumulé à travers chaque étape du pipeline d'inférence à partir du moment où une demande est envoyée jusqu'au moment où une réponse est reçue. Deux sous-métriques sont les plus importantes pour les LLM : le temps jusqu'au premier token (TTFT), le délai avant l'apparition du premier token de sortie, et le temps par token de sortie (TPOT), la vitesse à laquelle les tokens suivants arrivent. La latence bout en bout est à peu près égale à TTFT plus (TPOT × nombre de tokens de sortie).

La latence s'accumule à travers le transit réseau, la mise en attente des demandes, la recherche de KV-cache et le calcul GPU. La phase de préfilling — le traitement complet de l'invite d'entrée en parallèle — domine TTFT et varie avec la longueur de l'invite. La phase de décodage autorégressive, qui génère un token par passage avant, détermine TPOT. Lors du décodage, la bande passante mémoire GPU plutôt que le calcul brut est généralement le facteur limitant, car les matrices de poids doivent être chargées à partir de la mémoire HBM pour chaque étape de token.

Pour les applications interactives telles que les chatbots, les assistants de codage et les agents vocaux, une latence élevée dégrade directement l'utilisabilité. La recherche en facteurs humains place le seuil de sensation « instantané » à environ 200 ms ; au-delà de 1–2 secondes, l'engagement des utilisateurs et les taux d'achèvement des tâches baissent de manière mesurable. Dans les workflows d'agents où un modèle invoque des outils en boucles, la latence se compose à travers de nombreux appels séquentiels, ce qui rend le délai de chaque étape conséquent.

Depuis 2026, les API hébergées de pointe d'OpenAI, Anthropic et Google offrent généralement des TTFT inférieurs à 500 ms et des vitesses de streaming de 40–100 tokens par seconde sur les demandes standard. Les techniques d'optimisation incluant le décodage spéculatif (utilisant un petit modèle brouillon pour proposer des tokens vérifiés par un modèle plus grand), le batching continu et la quantification ont considérablement réduit la latence depuis 2023. Le matériel spécialisé — NVIDIA H100/H200, AMD MI300X, Google TPU v5e — fournit la bande passante mémoire nécessaire pour réduire TPOT à moins de 10 ms par token.

Exemple

Une entreprise déployant un assistant de codage en temps réel surveille le TTFT pour s'assurer que les développeurs voient le premier token d'une suggestion en moins de 300 ms ; si le TTFT dépasse ce seuil sous charge, l'équipe augmente le nombre de réplicas ou active le décodage spéculatif pour respecter le SLA.

Termes liés

Débit Inférence Streaming Speculative Decoding

Dernières actualités sur le sujet

Loka a créé un agent vocal sur Amazon Nova 2 Sonic avec une latence inférieure à une seconde2026-06-28 Alibaba lance un traducteur avec une latence de 2.8 secondes dans 60 langues2026-05-21 NVIDIA Vera Rubin : comment les développeurs pourront mettre à l'échelle l'IA d'agent sans latence2026-05-21 OpenAI a expliqué comment elle a repensé WebRTC pour une AI vocale à faible latence2026-05-16 Pourquoi la latence détermine l’architecture des systèmes d’AI plus que la précision du modèle2026-05-02

← Glossaire