Google mostrou TurboQuant: cache KV de 3 bits para LLM, mas mercado de memória entrou em pânico cedo
Google mostrou TurboQuant — uma forma de compactar o cache KV do LLM para 3 bits e reduzir drasticamente o consumo de VRAM em contextos longos. O mercado de…
Processado por IA de Habr AI; editado por Hamidun News
Google Research apresentou TurboQuant — um algoritmo que promete comprimir o KV-cache de modelos de linguagem para 3 bits sem retreinamento e com quase nenhuma perda de qualidade. Diante dessas afirmações, o mercado de memória rapidamente ficou assustado, embora uma verdadeira revolução nos data centers ainda esteja longe.
Por que o mercado reagiu
Em 24 de março de 2026, Google Research lançou material sobre TurboQuant e, apenas dois dias depois, investidores começaram a vender ações de empresas relacionadas à memória. SK Hynix perdeu 6,23%, Samsung caiu 4,8%, Micron e SanDisk nos EUA caíram aproximadamente 5% e 8% respectivamente. A lógica do mercado parecia direta: se grandes modelos conseguissem funcionar com significativamente menos memória para inferência, a demanda por HBM e DRAM em data centers também deveria diminuir. Mas essa interpretação se mostrou demasiadamente simplista e não levou em conta exatamente onde TurboQuant oferece benefícios.
O problema que o algoritmo visa não está relacionado a toda a memória do modelo, mas apenas ao KV-cache. Estas são representações auxiliares de tokens que um transformer armazena durante a geração de texto para evitar recalculá-los em cada etapa. Em contextos curtos, o KV-cache praticamente não atrapalha, mas em contextos longos, ele se torna o principal consumidor de memória. Para modelos grandes com janelas de dezenas e centenas de milhares de tokens, o volume desse cache pode ocupar dezenas de gigabytes e se tornar um gargalo na inferência em massa.
O que TurboQuant faz
A indústria aprendeu há muito tempo como quantizar os pesos dos modelos: existem GPTQ, AWQ e outras abordagens para isso. Com o KV-cache, a situação é mais complexa porque ele surge em tempo real e é único para cada solicitação. Você não pode preparar dados uma vez, calibrar um esquema e depois simplesmente aplicá-lo em todos os lugares. Você precisa de um método que possa comprimir rapidamente qualquer novo vetor em tempo real, sem comprometer a qualidade da resposta em contextos longos.
Esta é precisamente a tarefa que TurboQuant tenta resolver. O esquema do Google é em duas etapas. Primeiro, a etapa PolarQuant rotaciona o vetor com uma matriz ortogonal aleatória para tornar a distribuição de valores mais uniforme e previsível. Depois disso, você pode aplicar um quantizador ótimo pré-calculado sem dados de calibração. Em seguida, a etapa QJL entra em ação, que codifica o sinal do erro residual com um bit e reduz o viés sistemático nos produtos escalares. Por isso, o erro não se acumula notavelmente em uma longa sequência de tokens, e o modelo preserva melhor a qualidade da resposta.
- Representação de 3 bits do KV-cache sem retreinamento do modelo
- Computação de logit de atenção até 8 vezes mais rápida em H100 de acordo com os autores
- Pelo menos 6 vezes menos VRAM para o próprio KV-cache
- Sem calibração offline obrigatória para um modelo específico
Onde o método tem limitações
A nuance mais importante é que a tecnologia ainda parece prematura como padrão industrial. A comunidade já notou: em modelos pequenos com até 3B de parâmetros, a compressão agressiva para 3 bits pode degradar notavelmente a qualidade, causar repetições e piorar a coerência do texto. Para muitos cenários práticos, um modo de 4 bits permanece como a opção mais segura.
Além disso, Google publicou apenas um post de blog e um preprint até agora. Uma implementação oficial ainda não existe e, em 29 de abril de 2026, o algoritmo não está integrado em vLLM, llama.cpp ou SGLang.
Há também uma disputa científica sobre a prioridade da ideia. Jianyang Gao, um dos autores do algoritmo RaBitQ anterior, afirmou que TurboQuant é muito semelhante à sua abordagem e descreve incorretamente o predecessor. Entre as reclamações estão subestimar a similaridade metodológica, crítica questionável da teoria RaBitQ e comparação em condições desiguais: TurboQuant foi testado em uma GPU A100, enquanto RaBitQ em um benchmark foi em Python de thread único.
A reclamação já foi apresentada ao comitê de ética do ICLR, e Google ainda não forneceu uma resposta pública.
O que significa
TurboQuant parece não ser um colapso do mercado de memória, mas uma melhoria forte em um ponto específico e estreito da inferência de LLM. Se Google liberar o código e o método entrar em pilhas padrão, contextos longos ficarão mais baratos, e executar modelos grandes em hardware mais modesto se tornará mais realista. Mas agora é mais um resultado de pesquisa importante do que uma revolução industrial pronta.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.