AI News→ original

O Fim da IA Cara: Google e NVIDIA Reduzem Drasticamente os Custos de Inferência

Os custos de treinamento de modelos sempre foram eclipsados pela despesa muito maior da inferência diária. Na Google Cloud Next, Google e NVIDIA apresentaram…

Processado por IA de AI News; editado por Hamidun News
O Fim da IA Cara: Google e NVIDIA Reduzem Drasticamente os Custos de Inferência
Fonte: AI News. Colagem: Hamidun News.
◐ Ouvir artigo

A indústria de inteligência artificial tem sido mantida em cativeiro por suas próprias ambições, mascarando problemas econômicos fundamentais por trás de anúncios bombásticos. A atenção do público tradicionalmente se concentrou nos custos colossais do treinamento de novos modelos de linguagem, porém o verdadeiro buraco negro financeiro está em sua operação cotidiana. O processo de geração de respostas a milhões de consultas diárias de usuários, conhecido na indústria como inferência, requer operação contínua de clusters computacionais enormes e incrivelmente intensivos em energia.

Esse fator sozinho tornou a implantação generalizada de IA verdadeiramente avançada e multimodal economicamente inviável para a grande maioria das empresas. Na Google Cloud Next, os gigantes tecnológicos Google e NVIDIA anunciaram o fim dessa era de escassez de infraestrutura, apresentando uma nova arquitetura conjunta que promete reduzir os custos de inferência em dez vezes.

A base desse avanço tecnológico impressionante foram novas instâncias de computação A5X, fornecidas em infraestrutura bare metal. O abandono da virtualização clássica elimina completamente a perda de desempenho em camadas de software intermediárias, entregando toda a potência computacional diretamente aos algoritmos. Essas instâncias se baseiam na arquitetura monumental NVIDIA Vera Rubin—a sucessora geracional tão esperada da arquitetura Blackwell.

O elemento-chave da nova infraestrutura se tornou os sistemas de rack NVL72. Diferentemente da abordagem modular tradicional, onde processadores gráficos individuais são combinados em servidores padrão com gargalos inevitáveis na transmissão de dados, o NVL72 é um sistema de computação monolítico do tamanho de um gabinete inteiro. Dentro desse rack de servidor, setenta e dois processadores gráficos da próxima geração funcionam como um único supercomputador gigante, unificados por links de interconexão óptica ultra-rápida.

Essa abordagem radical para a arquitetura de hardware de servidor resolve o problema principal da inferência moderna—largura de banda de memória. Agora até mesmo os maiores modelos de linguagem com centenas de bilhões de parâmetros podem ser carregados inteiramente na memória compartilhada do sistema. Isso liberta o cluster da movimentação constante, lenta e intensiva em energia de blocos de dados entre nós individuais.

A redução declarada de dez vezes nos custos de geração de tokens é alcançada não apenas pela potência de silício bruto dos chips da arquitetura Rubin, mas também por níveis sem precedentes de co-projeto profundo de hardware e software. Notavelmente, Google, que possui seus próprios processadores tensor poderosos (TPU), realizou tal integração profunda com NVIDIA, reconhecendo a necessidade de uma abordagem híbrida para atender à demanda enorme dos desenvolvedores.

Engenheiros de ambas as empresas literalmente reescreveram a pilha básica de gerenciamento de computação, otimizando-a para as necessidades específicas da geração de conteúdo em larga escala. Novos algoritmos de distribuição de carga no nível de software agora levam em conta a topologia física do rack Vera Rubin, minimizando latência de sinal no nível de microssegundo. Simultaneamente, o uso de resfriamento líquido avançado e novos controladores de energia inteligentes permitiu uma redução radical no consumo de eletricidade por megabyte de dados gerados. Para centros de dados modernos, onde contas de eletricidade frequentemente excedem o custo dos próprios servidores, esse é um fator crítico de lucratividade.

As consequências desse anúncio de infraestrutura para o mercado de tecnologia são difíceis de superestimar, pois quebra a barreira fundamental da economia unitária dos serviços baseados em IA. Até hoje, desenvolvedores independentes e grandes corporações foram forçados a fazer constantemente compromissos. Eles tiveram que limitar artificialmente a funcionalidade de seus produtos usando modelos menos capazes mas mais baratos, ou impor limites rigorosos nas requisições para evitar falência com contas de nuvem. Uma redução de dez vezes nos custos significa que modelos de negócios que pareciam fantasia pura ontem devido às despesas computacionais monstruosas agora são absolutamente lucrativos.

No futuro próximo, a inferência mais barata levará a uma revolução despercebida mas monumental na experiência do usuário. Análise de vídeo complexa em tempo real, geração personalizada de mundos 3D em videogames em tempo real, e agentes de IA inteligentes que trabalham em segundo plano 24/7, analisando todo o fluxo de informações entrantes—tudo isso será capaz de se tornar um padrão em massa, não um serviço premium caro. Para o mercado de provedores em nuvem, a aliança Google-NVIDIA estabelece uma barreira assustadoramente alta para eficiência.

As abordagens tradicionais para construção de data centers estão rapidamente se tornando obsoletas, cedendo lugar a soluções hiper-otimizadas no nível de racks inteiros. Essa parceria marca o shift de paradigma mais importante: a indústria está finalmente transitando de uma corrida para criar a inteligência artificial mais inteligente para uma corrida pragmática por sua entrega mais barata, rápida e eficiente a cada usuário do planeta.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…