ZDNet AI→ original

Google apresenta TurboQuant: como a nova compressão reduz o custo da AI local

O Google apresentou o TurboQuant, um método de compressão de KV cache que pode reduzir em pelo menos seis vezes a memória necessária para inferência e…

Processado por IA de ZDNet AI; editado por Hamidun News
Google apresenta TurboQuant: como a nova compressão reduz o custo da AI local
Fonte: ZDNet AI. Colagem: Hamidun News.
◐ Ouvir artigo

O Google Research, em 24 de março de 2026, apresentou o TurboQuant — um algoritmo de compressão que reduz a fome de memória dos modelos de linguagem durante a geração de respostas. O desenvolvimento não torna a IA repentinamente barata, mas pode facilitar significativamente a implantação de modelos locais e conversas longas.

Como Funciona

O objetivo principal do TurboQuant não é reduzir os pesos do modelo em si, mas compactar o cache KV — a memória de trabalho onde os LLMs armazenam chaves e valores intermediários para tokens já processados. Quanto mais longa a conversa ou documento, mais esse cache se expande, e com ele crescem as demandas por memória e largura de banda. É por isso que o contexto longo hoje frequentemente atinge não apenas limitações de GPU, mas também custos de memória.

"O crescimento do cache KV é um gargalo sério para memória e

velocidade computacional."

O TurboQuant possui dois estágios. Primeiro, o método PolarQuant rotaciona e compacta vetores para preservar o máximo de estrutura útil possível com menos bits. Depois, o QJL é aplicado — uma etapa adicional que compensa o erro e remove viés no cálculo do produto interno, a comparação exata em que o mecanismo de atenção se baseia. Na prática, isso significa algo simples: o cache pode ser armazenado de forma muito mais compacta sem retreinar o modelo ou alterar seus pesos.

Onde Aparece o Benefício

O Google testou o TurboQuant em benchmarks de contexto longo LongBench, Needle In A Haystack, ZeroSCROLLS, RULER e L-Eval, bem como em modelos abertos Gemma, Mistral e Llama-3.1-8B-Instruct. Em seu blog, a empresa faz uma declaração forte: o cache KV pode ser comprimido para 3 bits sem fine-tuning e sem perda de qualidade, enquanto simultaneamente acelera computações de atenção. Para quem executa IA localmente ou deseja atender mais requisições no mesmo hardware, isso soa como uma otimização muito prática.

  • Compressão de cache KV de pelo menos 6x em tarefas de contexto longo
  • Aceleração de até 8x no cálculo de attention logits em GPUs Nvidia H100 em modo de 4 bits
  • Operação sem retreinamento ou fine-tuning do modelo
  • Resultados fortes não apenas em inferência de LLM, mas também em busca vetorial
  • Tempo de indexação quase nulo em comparação com vários métodos de quantização clássicos

O efeito mais prático é a oportunidade de executar sessões mais longas em hardware limitado. Se anteriormente um modelo local atingia limites de memória devido ao cache crescente, agora esse teto pode ser empurrado para trás. Para laptops, mini-servidores e cenários edge, isso importa mais do que conversa abstrata sobre "revolução": parte da economia realmente se traduz em IA local mais acessível.

Limites da Tecnologia

No entanto, o TurboQuant não resolve toda a economia da IA. Ele não reduz o tamanho do modelo base, não elimina GPUs caras e não remove custos de rede, armazenamento de dados e consumo de energia do data center. É uma otimização direcionada de um dos gargalos de inferência mais dolorosos. Além disso, há uma nuance na formulação do Google: o blog discute 3 bits sem compromisso de qualidade, enquanto no resumo do artigo de pesquisa a formulação é mais cautelosa — neutralidade total de qualidade é declarada em 3,5 bits por canal, enquanto em 2,5 bits já há alguma degradação.

Há também um segundo limite: a eficiência não sempre leva a custos gerais reduzidos. Se o atendimento de modelos fica mais barato, as empresas geralmente não compram menos computação, mas expandem o contexto, aumentam os tamanhos dos modelos ou servem mais usuários. Este é o clássico paradoxo de Jevons. Portanto, o TurboQuant provavelmente não interromperá a corrida por memória e aceleradores. No máximo, promete agora tornar certos cenários, especialmente implantação local e conversas longas, notavelmente mais econômicos. E mais um ponto importante: o Google ainda não tem um plano público para implantar essa tecnologia no Gemini ou Google Cloud.

O Que Isso Significa

O TurboQuant parece não ser um anúncio de marketing estridente, mas um upgrade de infraestrutura útil. Se os resultados do artigo se confirmarem nos produtos reais, os LLMs locais poderão manter contexto mais longo no mesmo hardware, e os serviços em nuvem tratarão a inferência de forma mais barata. Mas é prematuro esperar que uma única técnica reduza repentinamente o custo de todo o mercado de IA.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…