MarkTechPost→ original

NVIDIA apresentou o KVTC: tecnologia de compressão de cache de LLM acelerará em 20 vezes o funcionamento das redes neurais

A escalabilidade dos modelos de linguagem modernos (LLM) esbarra em uma séria limitação de memória: o KV-cache, necessário para o funcionamento dos…

Processado por IA de MarkTechPost; editado por Hamidun News
NVIDIA apresentou o KVTC: tecnologia de compressão de cache de LLM acelerará em 20 vezes o funcionamento das redes neurais
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

# NVIDIA Apresentou KVTC: Tecnologia de Compressão de Cache de LLM Acelerará Redes Neurais 20 Vezes

A indústria de inteligência artificial enfrenta um paradoxo: quanto mais poderosos os modelos de linguagem se tornam, mais lentamente funcionam. Pesquisadores da NVIDIA descobriram a fonte dessa desaceleração e propuseram uma solução radical. A nova arquitetura KVTC permite comprimir o cache de dados auxiliares vinte vezes, eliminando o principal gargalo que retarda o processamento de requisições para as redes neurais modernas. Esse desenvolvimento pode transformar a economia da IA em nuvem, permitindo que as empresas sirvam vários usuários a mais em um único servidor.

O problema estava escondido na arquitetura dos próprios transformers — nos quais ChatGPT, Claude, Gemini e outros LLMs são construídos. Quando um modelo processa texto, ele cria um cache especial chamado KV-cache: nele são armazenadas chaves e valores para cada token necessários para calcular a atenção nos estágios subsequentes de geração. Isso soa tecnicamente, mas a essência é simples — são dados intermediários sem os quais o modelo não pode continuar a conversa.

À medida que o modelo cresce e o contexto se expande (a quantidade de palavras que ele se lembra), esse cache cresce exponencialmente. Para LLMs avançados com dezenas de bilhões de parâmetros, o KV-cache pode ocupar dezenas de gigabytes de memória de vídeo da GPU. Ao trabalhar com documentos longos ou em cenários em que um servidor deve servir simultaneamente centenas de usuários, a memória fica completamente saturada e o sistema começa a congelar.

A equipe da NVIDIA propôs usar codificação transformacional para comprimir esse cache sem perder a qualidade das respostas. KVTC funciona como um compressor inteligente: o sistema analisa quais partes do KV-cache são realmente críticas para a precisão e quais podem ser descartadas ou quantizadas com segurança. Em testes práticos, o método consegue uma compressão de 20 vezes com degradação mínima de desempenho do modelo. Isso não é apenas uma redução de memória — é uma reformulação fundamental de como os dados auxiliares dos transformers são armazenados.

O significado dessa conquista é difícil de exagerar. Segundo pesquisas, servir LLMs na nuvem representa até 60% dos custos de centros de dados em memória e computação. Se KVTC permitir que uma empresa encaixe quatro vezes mais requisições simultâneas no mesmo equipamento, isso significa uma redução de quatro vezes no custo por token. Para um serviço como ChatGPT ou Claude que serve milhões de requisições diariamente, isso significa centenas de milhões de dólares em despesas economizadas. Ao mesmo tempo, os usuários receberão geração de texto mais rápida — um cache colocado em memória mais rápida é processado notavelmente mais rápido.

Implementar KVTC também expandirá a acessibilidade da IA. Empresas que não podem se dar ao luxo de clusters enormes com GPUs caras poderão executar modelos poderosos em hardware mais modesto. Isso é particularmente importante para startups e empresas fora dos hubs tecnológicos. Pesquisadores da NVIDIA já compartilharam documentação detalhada do método, permitindo que a comunidade integre rapidamente KVTC em frameworks populares como vLLM e TensorRT-LLM.

Embora KVTC resolva um problema técnico específico, ela aponta para uma tendência mais ampla na indústria de IA: o futuro pertence aos engenheiros que sabem fazer modelos não maiores e mais complexos, mas mais eficientes. Quando o tamanho dos modelos já está atingindo limites físicos e econômicos, a otimização se torna uma vantagem competitiva. NVIDIA demonstra que na vanguarda da IA ainda existem inovações realmente valiosas — não na arquitetura do modelo, mas em como executá-los praticamente no mundo real.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…