Prompt Caching
Prompt caching es una técnica de API y entrega que almacena el estado de KV-cache calculado para un prefijo de prompt compartido —como un prompt del sistema o un documento grande— y lo reutiliza en múltiples solicitudes separadas, eliminando computación redundante y reduciendo tanto el tiempo-al-primer-token como el costo de API.
Prompt caching extiende el concepto de KV-cache desde dentro de una única llamada de generación a través de múltiples solicitudes de API de diferentes usuarios o sesiones. Cuando el mismo prefijo de texto —típicamente un prompt largo del sistema, un documento de conocimiento recuperado o un código de referencia— aparece al inicio de muchas solicitudes, el transformador no necesita re-procesar ese prefijo para cada nueva solicitud. En su lugar, los tensores K/V calculados para el prefijo en caché se almacenan del lado del servidor y se reasignan a las solicitudes entrantes como si el paso de prefill para el prefijo ya se hubiera completado, permitiendo que el modelo proceda directamente a generar la respuesta.
La implementación difiere por proveedor. Anthropic introdujo almacenamiento en caché explícito de prompt en su API de Claude en 2024: los desarrolladores anotan puntos de interrupción de caché en JSON de solicitud usando un campo cache_control; la primera solicitud que encuentra un punto de interrupción calcula y almacena los tensores de prefijo, y las solicitudes posteriores que llegan dentro del TTL de caché (5 minutos por defecto, más largo para cuentas de nivel superior) los reutilizan. Anthropic cobra aproximadamente el 10% del precio normal de token de entrada para tokens de acierto de caché, con una pequeña tarifa de escritura única. La API de OpenAI introdujo almacenamiento en caché de prefijo automático en finales de 2024, reutilizando transparentemente el prefijo coincidente más largo en el caché del lado del servidor sin requerir marcado. La API Gemini de Google introdujo «almacenamiento en caché de contexto» en 2024 con un parámetro TTL explícito y costos de almacenamiento por segundo para contextos en caché muy grandes.
Para aplicaciones donde un contexto grande y estable se comparte entre muchas solicitudes —bots de servicio al cliente con bases de conocimiento detalladas de productos, asistentes de codificación con un repositorio completo cargado, canalizaciones RAG con pasajes recuperados grandes— prompt caching reduce los costos de procesamiento de entrada en 60–90% y corta la latencia de tiempo-al-primer-token sustancialmente. Un prompt del sistema de 20.000 tokens reutilizado en miles de solicitudes diarias de otro modo consumiría computación sustancial en cada llamada; con almacenamiento en caché, se procesa una vez por vida de caché independientemente del volumen de solicitud.
A partir de 2026, prompt caching es una característica de producción estándar en todas las API principales de IA en la nube. En la capa de infraestructura, los marcos de inferencia locales implementan el mismo concepto sin marcado a nivel de aplicación: el almacenamiento en caché de prefijo de vLLM comparte tensores KV entre solicitudes con prefijos idénticos, y RadixAttention de SGLang (2024) organiza prefijos en caché como un árbol radix para maximizar la reutilización entre prompts parcialmente superpuestos, logrando ganancias de rendimiento sustanciales en cargas de trabajo agentes y RAG donde la estructura de prompt es altamente regular entre solicitudes.