Together AI Blog→ original

Together AI: GPT-5.5, Gemini e Opus não conseguem escrever kernels multi-GPU rápidos

A Together AI lançou o ParallelKernelBench, um benchmark com 87 tarefas de geração de kernels CUDA para sistemas multi-GPU extraídas de bases de código…

Processado por IA de Together AI Blog; editado por Hamidun News
Together AI: GPT-5.5, Gemini e Opus não conseguem escrever kernels multi-GPU rápidos
Fonte: Together AI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A Together AI publicou ParallelKernelBench (PKB) — o primeiro benchmark aberto para avaliar a capacidade de modelos de linguagem gerarem kernels CUDA eficientes para ambientes multi-GPU. Após testar mais de 40 modelos em 87 tarefas reais, os pesquisadores descobriram: os melhores modelos frontier resolvem menos de um terço das tarefas corretamente — e apenas uma minoria deles supera uma implementação ingênua em PyTorch.

Por Que Multi-GPU é Mais Difícil

Os modelos de linguagem já aprenderam a escrever código para um único GPU razoavelmente bem, e a maioria dos benchmarks de programação GPU existentes limitam-se exatamente a este cenário. Mas os sistemas de IA de produção reais há muito ultrapassaram este limite: funcionam em dezenas e centenas de GPUs simultaneamente. Nessas configurações, a potência computacional deixa de ser o principal gargalo — esse papel é assumido pela comunicação entre dispositivos.

Segundo a Together AI, a sobrecarga de transferência de dados entre GPUs consome mais de 20% da latência de inferência — e essa lacuna crescerá, pois a potência dos chips continua a superar a largura de banda da interconexão entre chips.

  • Explosão combinatória de opções — você deve escolher entre paralelismo tensor, contexto, expert, dados e outros tipos, cada um criando seu próprio padrão de comunicação
  • Modelo de desempenho diferente — em vez de roofline computacional local, a restrição principal torna-se a largura de banda da interconexão entre chips
  • Novas escolhas arquitetônicas — como mover dados fisicamente entre GPUs: através de copy engine, TMA, SM load/store ou NVLS, e se deve sobrepor transferência de dados com computação

Como o Benchmark Funciona

O PKB inclui 87 tarefas de codebases reais: Megatron-LM, DeepSpeed, DeepEP, TensorRT-LLM e NeMo-RL — bem como cargas de trabalho distribuídas não padronizadas: roteamento em redes neurais de grafos, FFT distribuído e Gaussian splatting. Esta seleção abrange todas as principais abordagens de sharding: tensor, contexto, dados, expert, sequência e FSDP/ZeRO. Cada tarefa começa com uma implementação padrão em PyTorch + NCCL e uma descrição de topologia de hardware.

O modelo deve substituí-la por seu próprio kernel CUDA que transmite dados diretamente entre GPUs sobre NVLink através de memória simétrica, contornando a pilha padrão de operações coletivas. A avaliação é baseada em três critérios: correção de resultado, aceleração wall-clock e alcance do roofline de comunicação — o limite teórico da largura de banda do link.

Resultados e Vitórias Inesperadas

A Together AI testou mais de 40 modelos, incluindo GPT-5.5, Gemini 3 Pro e Opus 4.7 — as variantes flagship atuais da OpenAI, Google e Anthropic. Os resultados foram igualmente decepcionantes para todos:

  • O melhor modelo resolveu corretamente menos de um terço de 87 tarefas
  • Menos de um quarto das soluções corretas superou a implementação ingênua de baseline em PyTorch + NCCL
  • Principais falhas — no gerenciamento de comunicação entre GPUs e escolha do método correto de transferência de dados

Ao mesmo tempo, várias soluções provaram ser inesperadamente fortes: kernels individuais gerados superaram todas as implementações publicamente disponíveis. Particularmente revelador é o caso do treinamento GRPO no NVIDIA NeMo-RL — para essa operação, nenhum código público otimizado existia até agora, e o modelo de linguagem o escreveu antes dos humanos.

"Vários kernels gerados acabaram sendo mais rápidos do que tudo disponível publicamente," — do relatório técnico

ParallelKernelBench.

O Que Isso Significa

O PKB marca a próxima fronteira na evolução do coding com IA: a transição de GPU único para sistemas distribuídos multi-GPU. Por enquanto, modelos frontier não conseguem lidar com isso — mas raros relâmpagos de sucesso sugerem que o progresso é possível com a coleta focada de dados de treinamento especializados. Para equipes que otimizam inferência e treinamento em clusters GPU, este é um benchmark importante: a ferramenta está amadurecendo, mas ainda não está pronta para adoção ampla.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…