Cache de Prompt
Cache de prompt é uma técnica de API e serving que armazena o estado KV-cache computado para um prefixo de prompt compartilhado — como um prompt do sistema ou um documento grande — e o reutiliza através de múltiplas requisições separadas, eliminando computação redundante e reduzindo tanto time-to-first-token quanto custo de API.
Cache de prompt estende o conceito de KV-cache de dentro de uma única chamada de geração para através de múltiplas requisições de API de usuários diferentes ou sessões. Quando o mesmo prefixo de texto — tipicamente um prompt do sistema extenso, um documento de conhecimento recuperado ou uma base de código de referência — aparece no início de muitas requisições, o transformer não precisa reprocessar aquele prefixo para cada nova requisição. Em vez disso, os tensores de K/V computados para o prefixo em cache são armazenados do lado do servidor e reanexados a requisições recebidas como se a etapa de prefill para o prefixo já tivesse sido completada, permitindo ao modelo prosseguir diretamente para gerar a resposta.
A implementação difere por provedor. Anthropic introduziu cache de prompt explícito em sua API Claude em 2024: desenvolvedores anotam pontos de quebra de cache no JSON de requisição usando um campo cache_control; a primeira requisição que encontra um ponto de quebra computa e armazena os tensores de prefixo, e requisições subsequentes chegando dentro do TTL de cache (5 minutos por padrão, mais longo para contas de nível superior) reutilizam-nos. Anthropic cobra aproximadamente 10% do preço normal de token de entrada para tokens cache-hit, com uma pequena taxa de escrita única. A API OpenAI introduziu cache de prefixo automático no final de 2024, reutilizando transparentemente o prefixo correspondente mais longo no cache do lado do servidor sem requerer markup. A API Gemini do Google introduziu "cache de contexto" em 2024 com um parâmetro TTL explícito e custos de armazenamento por segundo para contextos em cache muito grandes.
Para aplicações onde um contexto grande e estável é compartilhado através de muitas requisições — bots de atendimento ao cliente com bases de conhecimento de produto detalhadas, assistentes de código com um repositório completo carregado, pipelines de RAG com passagens recuperadas grandes — cache de prompt reduz custos de processamento de entrada em 60–90% e corta a latência de time-to-first-token substancialmente. Um prompt do sistema de 20.000-token reutilizado através de milhares de requisições diárias consumiria computação substancial em cada chamada; com cache, ele é processado uma vez por lifetime de cache independentemente de volume de requisição.
A partir de 2026, cache de prompt é um recurso padrão de produção através de todas as APIs de IA em nuvem principais. Na camada de infraestrutura, frameworks de inferência local implementam o mesmo conceito sem markup em nível de aplicação: cache de prefixo do vLLM compartilha tensores de KV através de requisições com prefixos idênticos, e RadixAttention do SGLang (2024) organiza prefixos em cache como uma árvore radix para maximizar reuso através de prompts parcialmente sobrepostos, alcançando ganhos substanciais de throughput em workloads de agente e RAG onde a estrutura de prompt é altamente regular através de requisições.