TNW→ original

Algoritmo TurboQuant do Google derruba ações de fabricantes de memória após publicação de pesquisa

Google introduziu TurboQuant — um método de compressão de cache KV para LLMs que reduz o consumo de memória em pelo menos seis vezes e, segundo a empresa…

Processado por IA de TNW; editado por Hamidun News
Algoritmo TurboQuant do Google derruba ações de fabricantes de memória após publicação de pesquisa
Fonte: TNW. Colagem: Hamidun News.
◐ Ouvir artigo

Google Research apresentou TurboQuant — um algoritmo de compressão para modelos de IA que reduz a memória de cache chave-valor em pelo menos seis vezes sem perda notável de qualidade. O mercado reagiu imediatamente: após a publicação em 24 de março de 2026, investidores começaram a reavaliar quanta memória a indústria de IA generativa realmente precisaria.

O que o Google demonstrou

TurboQuant resolve um gargalo estreito mas caro na inferência de grandes modelos de linguagem — o cache chave-valor, ou KV-cache. Este é um armazenamento de contexto que permite ao modelo não recalcular tokens já processados. Quanto mais longa a solicitação, documento ou diálogo, mais rápido esse cache cresce e mais memória da GPU ele consome.

Segundo o Google, o novo método comprime o KV-cache para 3 bits por valor em vez dos 16 bits padrão e reduz o consumo de memória em pelo menos seis vezes. Para a prática, isso é tão importante quanto para a ciência. A memória liberada permite atender mais solicitações simultâneas no mesmo hardware, executar janelas de contexto mais longas ou usar modelos maiores sem expandir o parque de aceleradores.

Os autores escrevem que TurboQuant não requer retreinamento ou fine-tuning e será apresentado no ICLR 2026. Os testes usaram modelos das famílias Gemma, Mistral e Llama, bem como benchmarks padrão de contexto longo.

Como o algoritmo funciona

TurboQuant é baseado em um esquema em duas etapas. Primeiro, o método PolarQuant converte vetores em representação polar para eliminar dados de overhead desnecessários que normalmente consomem parte dos ganhos da quantização tradicional. Depois, QJL é aplicada — uma técnica que codifica o erro residual com apenas um bit adicional por dimensão e reduz distorções na atenção.

Como resultado, a maior parte do orçamento de bits vai para preservar o significado semântico dos dados originais em vez de overhead técnico.

O

Google chama o KV-cache de "cola digital de alta velocidade" para o modelo.

  • compressão do KV-cache de 16 para 3 bits
  • redução mínima de 6 vezes na memória
  • aceleração de até 8 vezes do cálculo de atenção no Nvidia H100 em modo de 4 bits
  • funcionamento sem treinamento e fine-tuning
  • aplicação não apenas em LLMs mas também em busca vetorial

O Google afirma que em tarefas Needle in a Haystack, TurboQuant mantinha resultados perfeitos mesmo com compressão do cache seis vezes maior. No LongBench e ZeroSCROLLS, o método também igualou ou superou KIVI — uma das abordagens baseline bem conhecidas para quantização de KV-cache.

Separadamente, a empresa testou TurboQuant para busca vetorial e alcançou maior recall sem grandes codebooks e ajuste a datasets específicos. Já é uma área de interesse direto para busca, recomendação e sistemas de publicidade.

Por que o mercado reagiu

O mercado de ações viu nesta publicação não um progresso acadêmico mas um sinal de possível redução na demanda por memória para infraestrutura de IA. Dentro de horas após a divulgação do artigo, as ações da Micron caíram 3%, Western Digital caiu 4,7% e SanDisk caiu 5,7%.

A lógica é simples: se um componente-chave da inferência de repente requer significativamente menos memória, as futuras compras de HBM, DRAM e armazenamento podem não parecer tão lineares quanto os investidores haviam projetado.

Mas isso não significa que a indústria de repente precise de seis vezes menos hardware. Memória é apenas uma linha de despesa em data centers, e o apetite dos modelos por computação cresce mais rápido do que qualquer otimização local. Até analistas alertam contra conclusões muito diretas: algoritmos de compressão existiam antes mas não desabaram a demanda geral por infraestrutura.

A história da computação mais frequentemente mostra o efeito oposto: uma vez que recursos ficam mais baratos, as empresas começam a construir sistemas mais pesados e massivos com o mesmo orçamento.

O que isto significa

TurboQuant não é razão para descontar fabricantes de memória mas um indicador inicial de um novo estágio na corrida de eficiência. Agora vencerão não apenas aqueles que compram mais GPUs mas também aqueles que conseguem comprimir melhor a inferência sem perder qualidade. Para produtos de IA, isto é uma chance de reduzir custos por solicitação, e para o mercado — um lembrete de que software já influencia a capitalização de hardware.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…