Inférence

Prompt Caching

La mise en cache des prompts est une technique d'API et de services qui stocke l'état du cache KV calculé pour un préfixe de prompt partagé — comme une invite système ou un grand document — et le réutilise entre plusieurs demandes séparées, éliminant le calcul redondant et réduisant à la fois le temps jusqu'au premier token et le coût de l'API.

La mise en cache des prompts étend le concept du cache KV d'un appel de génération unique à travers plusieurs demandes d'API de différents utilisateurs ou sessions. Lorsque le même préfixe de texte — généralement une invite système longue, un document de connaissance récupéré ou une base de code de référence — apparaît au début de nombreuses demandes, le transformateur n'a pas besoin de retraiter ce préfixe pour chaque nouvelle demande. Au lieu de cela, les tenseurs K/V calculés pour le préfixe mis en cache sont stockés côté serveur et réattachés aux demandes entrantes comme si l'étape de prefill pour le préfixe avait déjà été complétée, permettant au modèle de procéder directement à la génération de la réponse.

L'implémentation diffère par fournisseur. Anthropic a introduit la mise en cache explicite des prompts dans son API Claude en 2024 : les développeurs annotent les points d'arrêt du cache dans JSON de demande en utilisant un champ cache_control ; la première demande qui rencontre un point d'arrêt calcule et stocke les tenseurs de préfixe, et les demandes suivantes arrivant dans la TTL du cache (5 minutes par défaut, plus longtemps pour les comptes de niveau supérieur) les réutilisent. Anthropic facture environ 10 % du prix normal du token d'entrée pour les tokens de cache-hit, avec une petite charge unique pour l'écriture. L'API d'OpenAI a introduit le cache de préfixe automatique fin 2024, réutilisant de manière transparente le préfixe le plus long correspondant dans le cache côté serveur sans nécessiter de balisage. L'API Gemini de Google a introduit « context caching » en 2024 avec un paramètre TTL explicite et des coûts de stockage par seconde pour les contextes très grands en cache.

Pour les applications où un contexte grand et stable est partagé entre de nombreuses demandes — des bots de service client avec des bases de connaissances produits détaillées, des assistants de codage avec un référentiel complet chargé, des pipelines RAG avec de grands passages récupérés — la mise en cache des prompts réduit les coûts de traitement des entrées de 60 à 90 % et réduit considérablement la latence du temps jusqu'au premier token. Une invite système de 20 000 tokens réutilisée dans des milliers de demandes quotidiennes consommerait autrement un calcul substantiel à chaque appel ; avec la mise en cache, elle est traitée une fois par durée de vie du cache indépendamment du volume de demande.

En 2026, la mise en cache des prompts est une fonction de production standard dans toutes les principales API d'IA en nuage. Au niveau de l'infrastructure, les frameworks d'inférence locaux implémentent le même concept sans balisage au niveau de l'application : la mise en cache des préfixes de vLLM partage des tenseurs KV entre des demandes avec des préfixes identiques, et RadixAttention de SGLang (2024) organise les préfixes en cache sous forme d'arbre radix pour maximiser la réutilisation entre les prompts se chevauchant partiellement, réalisant des gains de débit substantiels dans les charges de travail agentiques et RAG où la structure du prompt est hautement régulière entre les demandes.

Exemple

Une plateforme d'assistance aux clients utilise la mise en cache des prompts d'Anthropic pour mettre en cache une base de connaissances produits de 30 000 tokens ; après que la première demande ait calculé ce préfixe, les 50 000 demandes suivantes tout au long de la journée paient chacune environ 10 % du coût normal du token d'entrée pour ces tokens, réduisant les dépenses quotidiennes de l'API de plusieurs centaines de dollars à des dizaines de dollars sans aucun changement de qualité de réponse.

Termes liés

← Glossaire