Habr AI→ original

Google mostrou TurboQuant: cache KV de 3 bits para LLM, mas mercado de memória entrou em pânico cedo

Google mostrou TurboQuant — uma forma de compactar o cache KV do LLM para 3 bits e reduzir drasticamente o consumo de VRAM em contextos longos. O mercado de…

Processado por IA de Habr AI; editado por Hamidun News
Google mostrou TurboQuant: cache KV de 3 bits para LLM, mas mercado de memória entrou em pânico cedo
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Google Research apresentou TurboQuant — um algoritmo que promete comprimir o KV-cache de modelos de linguagem para 3 bits sem retreinamento e com quase nenhuma perda de qualidade. Diante dessas afirmações, o mercado de memória rapidamente ficou assustado, embora uma verdadeira revolução nos data centers ainda esteja longe.

Por que o mercado reagiu

Em 24 de março de 2026, Google Research lançou material sobre TurboQuant e, apenas dois dias depois, investidores começaram a vender ações de empresas relacionadas à memória. SK Hynix perdeu 6,23%, Samsung caiu 4,8%, Micron e SanDisk nos EUA caíram aproximadamente 5% e 8% respectivamente. A lógica do mercado parecia direta: se grandes modelos conseguissem funcionar com significativamente menos memória para inferência, a demanda por HBM e DRAM em data centers também deveria diminuir. Mas essa interpretação se mostrou demasiadamente simplista e não levou em conta exatamente onde TurboQuant oferece benefícios.

O problema que o algoritmo visa não está relacionado a toda a memória do modelo, mas apenas ao KV-cache. Estas são representações auxiliares de tokens que um transformer armazena durante a geração de texto para evitar recalculá-los em cada etapa. Em contextos curtos, o KV-cache praticamente não atrapalha, mas em contextos longos, ele se torna o principal consumidor de memória. Para modelos grandes com janelas de dezenas e centenas de milhares de tokens, o volume desse cache pode ocupar dezenas de gigabytes e se tornar um gargalo na inferência em massa.

O que TurboQuant faz

A indústria aprendeu há muito tempo como quantizar os pesos dos modelos: existem GPTQ, AWQ e outras abordagens para isso. Com o KV-cache, a situação é mais complexa porque ele surge em tempo real e é único para cada solicitação. Você não pode preparar dados uma vez, calibrar um esquema e depois simplesmente aplicá-lo em todos os lugares. Você precisa de um método que possa comprimir rapidamente qualquer novo vetor em tempo real, sem comprometer a qualidade da resposta em contextos longos.

Esta é precisamente a tarefa que TurboQuant tenta resolver. O esquema do Google é em duas etapas. Primeiro, a etapa PolarQuant rotaciona o vetor com uma matriz ortogonal aleatória para tornar a distribuição de valores mais uniforme e previsível. Depois disso, você pode aplicar um quantizador ótimo pré-calculado sem dados de calibração. Em seguida, a etapa QJL entra em ação, que codifica o sinal do erro residual com um bit e reduz o viés sistemático nos produtos escalares. Por isso, o erro não se acumula notavelmente em uma longa sequência de tokens, e o modelo preserva melhor a qualidade da resposta.

  • Representação de 3 bits do KV-cache sem retreinamento do modelo
  • Computação de logit de atenção até 8 vezes mais rápida em H100 de acordo com os autores
  • Pelo menos 6 vezes menos VRAM para o próprio KV-cache
  • Sem calibração offline obrigatória para um modelo específico

Onde o método tem limitações

A nuance mais importante é que a tecnologia ainda parece prematura como padrão industrial. A comunidade já notou: em modelos pequenos com até 3B de parâmetros, a compressão agressiva para 3 bits pode degradar notavelmente a qualidade, causar repetições e piorar a coerência do texto. Para muitos cenários práticos, um modo de 4 bits permanece como a opção mais segura.

Além disso, Google publicou apenas um post de blog e um preprint até agora. Uma implementação oficial ainda não existe e, em 29 de abril de 2026, o algoritmo não está integrado em vLLM, llama.cpp ou SGLang.

Há também uma disputa científica sobre a prioridade da ideia. Jianyang Gao, um dos autores do algoritmo RaBitQ anterior, afirmou que TurboQuant é muito semelhante à sua abordagem e descreve incorretamente o predecessor. Entre as reclamações estão subestimar a similaridade metodológica, crítica questionável da teoria RaBitQ e comparação em condições desiguais: TurboQuant foi testado em uma GPU A100, enquanto RaBitQ em um benchmark foi em Python de thread único.

A reclamação já foi apresentada ao comitê de ética do ICLR, e Google ainda não forneceu uma resposta pública.

O que significa

TurboQuant parece não ser um colapso do mercado de memória, mas uma melhoria forte em um ponto específico e estreito da inferência de LLM. Se Google liberar o código e o método entrar em pilhas padrão, contextos longos ficarão mais baratos, e executar modelos grandes em hardware mais modesto se tornará mais realista. Mas agora é mais um resultado de pesquisa importante do que uma revolução industrial pronta.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…