Inferência

Cache de Prompt

Cache de prompt é uma técnica de API e serving que armazena o estado KV-cache computado para um prefixo de prompt compartilhado — como um prompt do sistema ou um documento grande — e o reutiliza através de múltiplas requisições separadas, eliminando computação redundante e reduzindo tanto time-to-first-token quanto custo de API.

Cache de prompt estende o conceito de KV-cache de dentro de uma única chamada de geração para através de múltiplas requisições de API de usuários diferentes ou sessões. Quando o mesmo prefixo de texto — tipicamente um prompt do sistema extenso, um documento de conhecimento recuperado ou uma base de código de referência — aparece no início de muitas requisições, o transformer não precisa reprocessar aquele prefixo para cada nova requisição. Em vez disso, os tensores de K/V computados para o prefixo em cache são armazenados do lado do servidor e reanexados a requisições recebidas como se a etapa de prefill para o prefixo já tivesse sido completada, permitindo ao modelo prosseguir diretamente para gerar a resposta.

A implementação difere por provedor. Anthropic introduziu cache de prompt explícito em sua API Claude em 2024: desenvolvedores anotam pontos de quebra de cache no JSON de requisição usando um campo cache_control; a primeira requisição que encontra um ponto de quebra computa e armazena os tensores de prefixo, e requisições subsequentes chegando dentro do TTL de cache (5 minutos por padrão, mais longo para contas de nível superior) reutilizam-nos. Anthropic cobra aproximadamente 10% do preço normal de token de entrada para tokens cache-hit, com uma pequena taxa de escrita única. A API OpenAI introduziu cache de prefixo automático no final de 2024, reutilizando transparentemente o prefixo correspondente mais longo no cache do lado do servidor sem requerer markup. A API Gemini do Google introduziu "cache de contexto" em 2024 com um parâmetro TTL explícito e custos de armazenamento por segundo para contextos em cache muito grandes.

Para aplicações onde um contexto grande e estável é compartilhado através de muitas requisições — bots de atendimento ao cliente com bases de conhecimento de produto detalhadas, assistentes de código com um repositório completo carregado, pipelines de RAG com passagens recuperadas grandes — cache de prompt reduz custos de processamento de entrada em 60–90% e corta a latência de time-to-first-token substancialmente. Um prompt do sistema de 20.000-token reutilizado através de milhares de requisições diárias consumiria computação substancial em cada chamada; com cache, ele é processado uma vez por lifetime de cache independentemente de volume de requisição.

A partir de 2026, cache de prompt é um recurso padrão de produção através de todas as APIs de IA em nuvem principais. Na camada de infraestrutura, frameworks de inferência local implementam o mesmo conceito sem markup em nível de aplicação: cache de prefixo do vLLM compartilha tensores de KV através de requisições com prefixos idênticos, e RadixAttention do SGLang (2024) organiza prefixos em cache como uma árvore radix para maximizar reuso através de prompts parcialmente sobrepostos, alcançando ganhos substanciais de throughput em workloads de agente e RAG onde a estrutura de prompt é altamente regular através de requisições.

Exemplo

Uma plataforma de suporte ao cliente utiliza cache de prompt do Anthropic para cachear uma base de conhecimento de produto de 30.000-token; após a primeira requisição computar aquele prefixo, as subsequentes 50.000 requisições ao longo do dia cada uma pagam aproximadamente 10% do custo normal de token de entrada para esses tokens, cortando gastos diários de API de várias centenas de dólares para dezenas de dólares sem nenhuma mudança na qualidade da resposta.

Termos relacionados

Últimas notícias sobre o tema

← Glossário