Together AI Blog→ original

Together AI superou o TensorRT-LLM em 31% em benchmarks para agentes de código

A Together AI publicou os primeiros benchmarks justos para cargas de produção de agentes de código. O Together Inference Engine superou o TensorRT-LLM em 31%…

Processado por IA de Together AI Blog; editado por Hamidun News
Together AI superou o TensorRT-LLM em 31% em benchmarks para agentes de código
Fonte: Together AI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

Together AI publicou os primeiros benchmarks de inference orientados para produção para agentes de código — e os resultados questionam a maioria dos testes convencionais da indústria.

Por Que Benchmarks Padrão São Inúteis

Um benchmark de inference clássico mede um único usuário em um servidor dedicado. Os números parecem impressionantes — e não revelam nada sobre as condições reais de funcionamento. Em produção, dezenas e centenas de requisições competem simultaneamente por um único KV-cache, largura de banda de memória e ciclos de GPU. Quanto mais tráfego, mais o tempo até o primeiro token (TTFT) cresce. Em algum ponto, o sistema se torna inutilizável antes da falha formal. Diferentes engines alcançam esse ponto em níveis muito diferentes de carga — e é exatamente isso que precisa ser medido.

Together AI projetou o teste precisamente para esse cenário: carga de agentes de código, contexto longo, alta concorrência e zero tolerância para degradação de latência.

O Que Torna Agentes de Código uma Carga Especial

Requisições de agentes de código carregam um contexto enorme: o arquivo editado, código circundante, histórico de diálogo, fragmentos da busca vetorial. O comprimento do token de entrada variou de 45 a 200 mil — simulando o crescimento real da sessão durante o desenvolvimento. O comprimento médio da resposta foi de cerca de 450 tokens: o agente escreve uma função, não um romance.

Esse tipo de carga cria três problemas que os testes padrão perdem:

  • Sensibilidade TTFT. O desenvolvedor vê uma tela em branco até a chegada do primeiro token. Nesse intervalo — entre enviar e o início do streaming — a confiança na ferramenta é perdida. A velocidade de geração é secundária: uma vez que os tokens começam a fluir, a experiência parece rápida.
  • Contexto longo concorrente. Dezenas de desenvolvedores com requisições de 80+ mil tokens preenchem o KV-cache simultaneamente. O agendador perde manobrabilidade, TTFT sobe — e o sistema se degrada muito antes da falha formal.
  • Perfil orientado para prefill. A carga aqui é predominantemente em prefill, não em decode. Engines otimizados para geração longa não ganham sua vantagem usual.

O teste foi executado em 4× NVIDIA B200 para cada engine.

Resultados do Together Inference Engine

Together Inference Engine foi comparado ao TensorRT-LLM e outros engines OSS líderes em hardware idêntico. Na carga de produção para agentes de código, os resultados foram:

  • +31% tokens por segundo (TPS) em comparação ao concorrente OSS mais próximo
  • TTFT 2x melhor na saturação de tráfego
  • 76% de custo reduzido em comparação ao Claude Opus 4 do Anthropic
  • Latência estável sob alta concorrência — onde concorrentes já se degradam

Os ganhos vieram de otimização full-stack: tecnologia ThunderMLA, kernels CUDA customizados reescritos e profiling end-to-end em tráfego real.

"A maioria dos benchmarks mede um único usuário em um servidor dedicado.

Os números parecem ótimos. Eles são absolutamente inúteis para raciocinar sobre produção", diz o blog da Together AI.

O Que Isso Significa

A diferença entre engines de inference é enorme precisamente sob carga real — você não a vê em testes sintéticos. Para equipes construindo assistentes IA para desenvolvedores, a escolha do provedor afeta diretamente quantos usuários simultaneamente recebem uma resposta rápida — e quantos veem uma tela em branco. Inference de qualidade produção não é mais um detalhe técnico, mas uma vantagem competitiva.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…