TechCrunch→ original

Google apresenta o TurboQuant — algoritmo que comprime em seis vezes a memória de trabalho da AI

A Google anunciou o TurboQuant — um algoritmo de compressão da memória de trabalho de redes neurais com fator declarado de até seis vezes. Por enquanto…

Processado por IA de TechCrunch; editado por Hamidun News
Google apresenta o TurboQuant — algoritmo que comprime em seis vezes a memória de trabalho da AI
Fonte: TechCrunch. Colagem: Hamidun News.
◐ Ouvir artigo

Google anunciou TurboQuant — um novo algoritmo de compressão de memória de trabalho de redes neurais que, segundo a empresa, é capaz de reduzir o consumo de memória até seis vezes. O anúncio imediatamente desencadeou uma onda de piadas na comunidade de tecnologia: usuários em todo o mundo estão comparando o desenvolvimento com Pied Piper — um algoritmo fictício da série HBO "Silicon Valley", que se tornou um símbolo cult do hype tecnológico injustificado. Por enquanto, TurboQuant permanece um experimento de laboratório: a empresa não revelou nem um artigo técnico, nem código público, nem prazos para implantação comercial.

Por que a memória de redes neurais é um problema crítico

Modelos de linguagem grande exigem volumes enormes de memória GPU. Este problema tem duas dimensões. A primeira é estática: os pesos do modelo em si.

Llama 3.1 com 70 bilhões de parâmetros ocupa cerca de 140 gigabytes em precisão total. A segunda dimensão é dinâmica: cálculos intermediários que o modelo realiza ao processar cada solicitação.

Esses dados temporários são chamados ativações, e são eles que se tornam o principal gargalo ao trabalhar com contextos longos. Quando um modelo processa um documento com 100.000 tokens, ele deve manter na memória os resultados de cálculo de cada camada para cada token — o chamado KV-cache.

O volume desses dados cresce linearmente com o comprimento do contexto e pode exceder o volume dos pesos em si com uma entrada suficientemente longa. É exatamente aqui que TurboQuant oferece uma solução radical.

Como TurboQuant Funciona

O algoritmo aplica quantização — uma técnica para reduzir a precisão numérica — diretamente às ativações em tempo real. A quantização padrão tem sido aplicada por décadas aos pesos de modelo estático: usar inteiros de 8 bits ou 4 bits em vez de números de ponto flutuante de 32 bits. Isso funciona bem para pesos imutáveis porque a amplitude de valores é previsível.

Ativações são uma questão completamente diferente. Seus valores variam imprevisivelmente dependendo da solicitação específica, o que torna a quantização padrão ineficaz sem perda de qualidade. Google afirma que TurboQuant resolve este problema usando métodos adaptativos que levam em conta as estatísticas de ativação em tempo real.

De acordo com a empresa, isso permite alcançar compressão seis vezes maior sem degradação significativa da qualidade das respostas.

O que a confirmação dos resultados significaria

Até mesmo resultados práticos mais modestos — compressão duas a três vezes maior — mudaria a economia da infraestrutura de IA. Os maiores provedores de nuvem gastam dezenas de bilhões de dólares anualmente em infraestrutura GPU para atender solicitações para modelos. Uma porção significativa desses custos é impulsionada pelos requisitos de memória durante a inferência.

Comprimir ativações significaria modelos mais poderosos no mesmo hardware, latência menor através da redução de operações de memória e a capacidade de lidar com contextos longos sem degradação de desempenho. Para dispositivos de borda, as consequências são ainda mais significativas. Atualmente, executar modelos no nível de Llama 3.

1 70B requer vários cartões gráficos ou compromissos agressivos na precisão. TurboQuant poderia reduzir significativamente essa barreira — abrindo modelos poderosos para laptops e estações de trabalho com memória limitada.

O Fenômeno Pied Piper e O Que Está Por Trás Disso

A comparação com Pied Piper é mais do que apenas um meme. Na série, uma startup fictícia cria um algoritmo de compressão universal com características fantásticas, baseado no "coeficiente de Weissman" original. Os paralelos com TurboQuant são óbvios: números revolucionários, código fechado, ausência de verificação independente.

A diferença é que Google DeepMind não é uma startup de garagem. A empresa tem um longo histórico de conquistas reais em eficiência: Flash Attention, otimização de KV-cache, algoritmos de destilação. Se TurboQuant passou pela revisão interna e foi anunciado publicamente, muito provavelmente representa um resultado real.

O próximo passo obrigatório é a publicação no arXiv e a reprodução independente dos resultados por pesquisadores de terceiros. Até esse momento, TurboQuant permanece uma promessa. Se os resultados forem confirmados, as piadas sobre Pied Piper se tornarão coisa do passado junto com o problema de memória de redes neurais — e isso seria um bom resultado.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…