Google apresenta TurboQuant: compressão de cache KV de 6x para LLMs sem perda de precisão
Google apresentou TurboQuant — um novo método para comprimir o cache KV de grandes modelos de linguagem sem ajuste fino e sem perda de qualidade nos testes…
Processado por IA de MarkTechPost; editado por Hamidun News
Google Research apresentou o TurboQuant — um algoritmo de compressão de cache KV para grandes modelos de linguagem que visa resolver uma das principais limitações do contexto longo. De acordo com a empresa, o método reduz o consumo de memória em no mínimo seis vezes e em certas configurações acelera o cálculo de attention até oito vezes sem perda de qualidade em tarefas de benchmark.
Por que o cache KV desacelera
Quando um LLM trabalha com contexto longo, ele armazena chaves e valores intermediários no cache KV para evitar recalculá-los para cada token. Isso economiza computação, mas rapidamente esbarra em limitações de memória: quanto maior o modelo e quanto mais longo o diálogo ou documento, mais o cache cresce. Como resultado, o gargalo se torna não apenas a GPU em si, mas também a transferência de dados entre a SRAM rápida e a memória HBM. Para inference isso é particularmente problemático, porque consultas longas começam a custar significativamente mais tanto em latência quanto em requisitos de hardware.
Google compara o cache KV a uma "cola digital de alta velocidade" que o modelo usa em vez de cálculos repetidos.
A quantização padrão resolve parcialmente o problema, mas tem seu próprio efeito colateral: junto com os dados comprimidos, é necessário armazenar constantes de quantização adicionais. Esses bits de overhead consomem parte das economias, especialmente ao lidar com bilhões de valores dentro de um contexto longo. Este é precisamente o lugar onde o Google constrói o TurboQuant: a ideia não é apenas comprimir vetores de forma mais agressiva, mas remover overhead desnecessário que impede alcançar economias reais de memória.
Como o TurboQuant funciona O TurboQuant consiste em dois estágios.
Primeiro, o PolarQuant é usado: um algoritmo que rotaciona aleatoriamente vetores, os traduz para uma representação mais conveniente e depois quantiza as coordenadas individualmente. Esta abordagem preserva a estrutura básica dos dados originais sem ajustes complexos para cada bloco. Então entra em ação a segunda camada — Quantized Johnson-Lindenstrauss, ou QJL.
Ela toma o erro residual após o primeiro estágio e o codifica com um único bit adicional para eliminar o viés sistemático no cálculo do produto interno e do attention score. Praticamente, isso é importante por duas razões. Primeiro, o TurboQuant permanece data-oblivious: não requer datasets para calibração, treinamento adicional ou fine-tuning para modelos específicos.
Segundo, o método funciona para cenários online, onde o cache precisa ser comprimido diretamente durante a inferência, em vez de preparar um pipeline offline separado. O Google enfatiza que essa abordagem é útil não apenas para LLMs, mas também para busca vetorial, onde grandes arrays de embeddings também precisam ser armazenados e comparados de forma rápida e barata. O próprio TurboQuant está sendo preparado para apresentação no ICLR 2026.
Que resultados o
Google alcançou O Google testou o TurboQuant em LongBench, Needle In A Haystack, ZeroSCROLLS, RULER e L-Eval, usando os modelos abertos Gemma e Mistral. De acordo com a empresa, o TurboQuant mantém a qualidade em tarefas de contexto longo enquanto reduz significativamente o cache KV. O blog do Google enfatiza a quantização de 3 bits sem perda de qualidade em benchmarks testados, e o resumo do artigo no arXiv observa separadamente a preservação total da qualidade em 3,5 bits por canal com apenas ligeira degradação em 2,5 bits.
redução mínima de 6x na memória do cache KV aceleração de até 8x no cálculo de attention logits em H100 em configuração de 4 bits em comparação com chaves de 32 bits não quantizadas nenhuma necessidade de treinamento adicional, fine-tuning ou datasets de calibração resultados fortes também em busca vetorial: TurboQuant superou os métodos baseline PQ e RabbiQ em recall no dataset GloVe Separadamente, o Google está apostando na aplicação do método à busca. TurboQuant, PolarQuant e QJL reduzem não apenas o uso de memória, mas também o tempo de construção do índice, mantendo a precisão da busca do vizinho mais próximo. Isso torna a tecnologia interessante não apenas para modelos generativos, mas para qualquer infraestrutura que precise trabalhar com enormes coleções de vetores: desde busca semântica até sistemas de recomendação e a camada de retrieval de produtos de IA.
O que isso significa
TurboQuant mostra que o próximo grande avanço para LLMs pode vir não de novos parâmetros de modelo, mas de gerenciamento mais inteligente de memória. Se a abordagem do Google for validada em produção e aparecer em stacks de inferência populares, o contexto longo se tornará mais barato, rápido e acessível mesmo sem upgrades de hardware. Para desenvolvedores, esta é uma oportunidade de encaixar sessões mais longas e cenários de RAG dentro do mesmo orçamento de GPU, e para usuários — obter respostas mais estáveis em documentos grandes e conversas longas.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.