NVIDIA Developer Blog→ original

NVIDIA TensorRT agora escala a inferência de AI generativa em várias GPUs

A NVIDIA atualizou o TensorRT: o mecanismo agora suporta inferência em várias GPUs ao mesmo tempo. As otimizações-chave — fusão de kernels, gerenciamento de…

Processado por IA de NVIDIA Developer Blog; editado por Hamidun News
NVIDIA TensorRT agora escala a inferência de AI generativa em várias GPUs
Fonte: NVIDIA Developer Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A NVIDIA atualizou o TensorRT, adicionando suporte nativo para inferência em múltiplas GPUs simultaneamente — grandes modelos generativos agora podem ser executados em produção sem sharding manual e sem perder as otimizações-chave do engine.

Por que uma única GPU já não é suficiente

Os modelos generativos modernos crescem mais rápido do que a capacidade de memória GPU se expande. Redes de difusão para geração de vídeo, LLMs multimodais com contexto estendido e pipelines complexos para conteúdo de mídia há muito ultrapassaram 80 GB — o limite superior do H100 de ponta. Desenvolvedores de sistemas de inferência enfrentavam uma escolha severa: ou dividir manualmente o gráfico computacional e perder otimizações do TensorRT, ou migrar para frameworks de terceiros com menor throughput.

TensorRT é o padrão de fato para implantação em produção em equipamento NVIDIA. O engine otimiza gráficos computacionais no nível do kernel: funde operações, agenda uso de memória, aplica quantização — e assim entrega a menor latência e maior throughput dentre as opções disponíveis. O problema era que todas essas otimizações funcionavam apenas dentro de uma única GPU.

O que a inferência multi-device proporciona

A nova capacidade permite que o TensorRT distribua automaticamente um modelo entre várias GPUs, preservando todo o arsenal de otimizações:

  • Kernel fusion — fusão de operações para minimizar overhead na transferência de dados entre dispositivos
  • Memory planning — gerenciamento inteligente de VRAM entre GPUs sem cópia excessiva de tensores
  • Quantização INT8/FP8 — aplicada ao gráfico computacional inteiro, não apenas partes individuais
  • Tensor parallelism — distribuição automática de pesos do modelo entre dispositivos sem alterações manuais de código
  • Pipeline parallelism — diferentes camadas da rede executam em paralelo em diferentes placas, aumentando o throughput geral

Antes, alcançar resultados semelhantes exigia uma combinação complexa do TensorRT com ferramentas externas — TensorRT-LLM ou Triton Inference Server — e várias semanas de ajuste de engenharia. Agora o suporte multi-device está integrado no engine.

Quem se beneficia hoje

As equipes que constroem pipelines de inferência para geração de conteúdo de mídia se beneficiarão mais dessa nova capacidade: sistemas text-to-video, adaptação de conteúdo em tempo real, avatares interativos, assistentes multimodais. Todas essas tarefas exigem tanto modelos grandes (significando muita memória) quanto latência mínima (significando sem compromissos em otimização).

O novo recurso também muda a economia da inferência em nuvem. Em vez de lidar manualmente com sharding de pesos em um cluster GPU e manter lógica de sincronização customizada, as equipes podem usar a API padrão do TensorRT — e obter o mesmo desempenho com menores custos de desenvolvimento e manutenção.

Vale destacar particularmente o segmento de mercado médio: empresas com duas a quatro GPUs mas sem time dedicado de ML infrastructure. Para elas, remover a barreira de entrada para inferência multi-device representa o maior shift prático.

O que isso significa

Dimensionar inferência de AI em múltiplos dispositivos faz a transição de "uma tarefa para especialistas estreitos" para "um recurso integrado do engine." Quando o TensorRT assume o controle da distribuição, a distância entre um modelo treinado e um serviço de produção escalável se reduz significativamente — e isso impacta diretamente quais produtos de IA as equipes de tamanho médio podem se permitir lançar.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…