Together AI: GPT-5.5, Gemini e Opus não conseguem escrever kernels multi-GPU rápidos
A Together AI lançou o ParallelKernelBench, um benchmark com 87 tarefas de geração de kernels CUDA para sistemas multi-GPU extraídas de bases de código…
Processado por IA de Together AI Blog; editado por Hamidun News
A Together AI publicou ParallelKernelBench (PKB) — o primeiro benchmark aberto para avaliar a capacidade de modelos de linguagem gerarem kernels CUDA eficientes para ambientes multi-GPU. Após testar mais de 40 modelos em 87 tarefas reais, os pesquisadores descobriram: os melhores modelos frontier resolvem menos de um terço das tarefas corretamente — e apenas uma minoria deles supera uma implementação ingênua em PyTorch.
Por Que Multi-GPU é Mais Difícil
Os modelos de linguagem já aprenderam a escrever código para um único GPU razoavelmente bem, e a maioria dos benchmarks de programação GPU existentes limitam-se exatamente a este cenário. Mas os sistemas de IA de produção reais há muito ultrapassaram este limite: funcionam em dezenas e centenas de GPUs simultaneamente. Nessas configurações, a potência computacional deixa de ser o principal gargalo — esse papel é assumido pela comunicação entre dispositivos.
Segundo a Together AI, a sobrecarga de transferência de dados entre GPUs consome mais de 20% da latência de inferência — e essa lacuna crescerá, pois a potência dos chips continua a superar a largura de banda da interconexão entre chips.
- Explosão combinatória de opções — você deve escolher entre paralelismo tensor, contexto, expert, dados e outros tipos, cada um criando seu próprio padrão de comunicação
- Modelo de desempenho diferente — em vez de roofline computacional local, a restrição principal torna-se a largura de banda da interconexão entre chips
- Novas escolhas arquitetônicas — como mover dados fisicamente entre GPUs: através de copy engine, TMA, SM load/store ou NVLS, e se deve sobrepor transferência de dados com computação
Como o Benchmark Funciona
O PKB inclui 87 tarefas de codebases reais: Megatron-LM, DeepSpeed, DeepEP, TensorRT-LLM e NeMo-RL — bem como cargas de trabalho distribuídas não padronizadas: roteamento em redes neurais de grafos, FFT distribuído e Gaussian splatting. Esta seleção abrange todas as principais abordagens de sharding: tensor, contexto, dados, expert, sequência e FSDP/ZeRO. Cada tarefa começa com uma implementação padrão em PyTorch + NCCL e uma descrição de topologia de hardware.
O modelo deve substituí-la por seu próprio kernel CUDA que transmite dados diretamente entre GPUs sobre NVLink através de memória simétrica, contornando a pilha padrão de operações coletivas. A avaliação é baseada em três critérios: correção de resultado, aceleração wall-clock e alcance do roofline de comunicação — o limite teórico da largura de banda do link.
Resultados e Vitórias Inesperadas
A Together AI testou mais de 40 modelos, incluindo GPT-5.5, Gemini 3 Pro e Opus 4.7 — as variantes flagship atuais da OpenAI, Google e Anthropic. Os resultados foram igualmente decepcionantes para todos:
- O melhor modelo resolveu corretamente menos de um terço de 87 tarefas
- Menos de um quarto das soluções corretas superou a implementação ingênua de baseline em PyTorch + NCCL
- Principais falhas — no gerenciamento de comunicação entre GPUs e escolha do método correto de transferência de dados
Ao mesmo tempo, várias soluções provaram ser inesperadamente fortes: kernels individuais gerados superaram todas as implementações publicamente disponíveis. Particularmente revelador é o caso do treinamento GRPO no NVIDIA NeMo-RL — para essa operação, nenhum código público otimizado existia até agora, e o modelo de linguagem o escreveu antes dos humanos.
"Vários kernels gerados acabaram sendo mais rápidos do que tudo disponível publicamente," — do relatório técnico
ParallelKernelBench.
O Que Isso Significa
O PKB marca a próxima fronteira na evolução do coding com IA: a transição de GPU único para sistemas distribuídos multi-GPU. Por enquanto, modelos frontier não conseguem lidar com isso — mas raros relâmpagos de sucesso sugerem que o progresso é possível com a coleta focada de dados de treinamento especializados. Para equipes que otimizam inferência e treinamento em clusters GPU, este é um benchmark importante: a ferramenta está amadurecendo, mas ainda não está pronta para adoção ampla.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.