Together AI superou o TensorRT-LLM em 31% em benchmarks para agentes de código
A Together AI publicou os primeiros benchmarks justos para cargas de produção de agentes de código. O Together Inference Engine superou o TensorRT-LLM em 31%…
Processado por IA de Together AI Blog; editado por Hamidun News
Together AI publicou os primeiros benchmarks de inference orientados para produção para agentes de código — e os resultados questionam a maioria dos testes convencionais da indústria.
Por Que Benchmarks Padrão São Inúteis
Um benchmark de inference clássico mede um único usuário em um servidor dedicado. Os números parecem impressionantes — e não revelam nada sobre as condições reais de funcionamento. Em produção, dezenas e centenas de requisições competem simultaneamente por um único KV-cache, largura de banda de memória e ciclos de GPU. Quanto mais tráfego, mais o tempo até o primeiro token (TTFT) cresce. Em algum ponto, o sistema se torna inutilizável antes da falha formal. Diferentes engines alcançam esse ponto em níveis muito diferentes de carga — e é exatamente isso que precisa ser medido.
Together AI projetou o teste precisamente para esse cenário: carga de agentes de código, contexto longo, alta concorrência e zero tolerância para degradação de latência.
O Que Torna Agentes de Código uma Carga Especial
Requisições de agentes de código carregam um contexto enorme: o arquivo editado, código circundante, histórico de diálogo, fragmentos da busca vetorial. O comprimento do token de entrada variou de 45 a 200 mil — simulando o crescimento real da sessão durante o desenvolvimento. O comprimento médio da resposta foi de cerca de 450 tokens: o agente escreve uma função, não um romance.
Esse tipo de carga cria três problemas que os testes padrão perdem:
- Sensibilidade TTFT. O desenvolvedor vê uma tela em branco até a chegada do primeiro token. Nesse intervalo — entre enviar e o início do streaming — a confiança na ferramenta é perdida. A velocidade de geração é secundária: uma vez que os tokens começam a fluir, a experiência parece rápida.
- Contexto longo concorrente. Dezenas de desenvolvedores com requisições de 80+ mil tokens preenchem o KV-cache simultaneamente. O agendador perde manobrabilidade, TTFT sobe — e o sistema se degrada muito antes da falha formal.
- Perfil orientado para prefill. A carga aqui é predominantemente em prefill, não em decode. Engines otimizados para geração longa não ganham sua vantagem usual.
O teste foi executado em 4× NVIDIA B200 para cada engine.
Resultados do Together Inference Engine
Together Inference Engine foi comparado ao TensorRT-LLM e outros engines OSS líderes em hardware idêntico. Na carga de produção para agentes de código, os resultados foram:
- +31% tokens por segundo (TPS) em comparação ao concorrente OSS mais próximo
- TTFT 2x melhor na saturação de tráfego
- 76% de custo reduzido em comparação ao Claude Opus 4 do Anthropic
- Latência estável sob alta concorrência — onde concorrentes já se degradam
Os ganhos vieram de otimização full-stack: tecnologia ThunderMLA, kernels CUDA customizados reescritos e profiling end-to-end em tráfego real.
"A maioria dos benchmarks mede um único usuário em um servidor dedicado.
Os números parecem ótimos. Eles são absolutamente inúteis para raciocinar sobre produção", diz o blog da Together AI.
O Que Isso Significa
A diferença entre engines de inference é enorme precisamente sob carga real — você não a vê em testes sintéticos. Para equipes construindo assistentes IA para desenvolvedores, a escolha do provedor afeta diretamente quantos usuários simultaneamente recebem uma resposta rápida — e quantos veem uma tela em branco. Inference de qualidade produção não é mais um detalhe técnico, mas uma vantagem competitiva.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.