Together AI superou o TensorRT-LLM em 31% em benchmarks para agentes de código

A Together AI publicou os primeiros benchmarks justos para cargas de produção de agentes de código. O Together Inference Engine superou o TensorRT-LLM em 31%…

Redação da Hamidun News

Monitoramento de AI · Together AI Blog

30 de jun. de 2026· 2 min

Processado por IA de Together AI Blog; editado por Hamidun News

Together AI superou o TensorRT-LLM em 31% em benchmarks para agentes de código — Fonte: Together AI Blog. Colagem: Hamidun News.

◐ Ouvir artigo

Together AI publicou os primeiros benchmarks de inference orientados para produção para agentes de código — e os resultados questionam a maioria dos testes convencionais da indústria.

Por Que Benchmarks Padrão São Inúteis

Um benchmark de inference clássico mede um único usuário em um servidor dedicado. Os números parecem impressionantes — e não revelam nada sobre as condições reais de funcionamento. Em produção, dezenas e centenas de requisições competem simultaneamente por um único KV-cache, largura de banda de memória e ciclos de GPU. Quanto mais tráfego, mais o tempo até o primeiro token (TTFT) cresce. Em algum ponto, o sistema se torna inutilizável antes da falha formal. Diferentes engines alcançam esse ponto em níveis muito diferentes de carga — e é exatamente isso que precisa ser medido.

Together AI projetou o teste precisamente para esse cenário: carga de agentes de código, contexto longo, alta concorrência e zero tolerância para degradação de latência.

O Que Torna Agentes de Código uma Carga Especial

Requisições de agentes de código carregam um contexto enorme: o arquivo editado, código circundante, histórico de diálogo, fragmentos da busca vetorial. O comprimento do token de entrada variou de 45 a 200 mil — simulando o crescimento real da sessão durante o desenvolvimento. O comprimento médio da resposta foi de cerca de 450 tokens: o agente escreve uma função, não um romance.

Esse tipo de carga cria três problemas que os testes padrão perdem:

Sensibilidade TTFT. O desenvolvedor vê uma tela em branco até a chegada do primeiro token. Nesse intervalo — entre enviar e o início do streaming — a confiança na ferramenta é perdida. A velocidade de geração é secundária: uma vez que os tokens começam a fluir, a experiência parece rápida.
Contexto longo concorrente. Dezenas de desenvolvedores com requisições de 80+ mil tokens preenchem o KV-cache simultaneamente. O agendador perde manobrabilidade, TTFT sobe — e o sistema se degrada muito antes da falha formal.
Perfil orientado para prefill. A carga aqui é predominantemente em prefill, não em decode. Engines otimizados para geração longa não ganham sua vantagem usual.

O teste foi executado em 4× NVIDIA B200 para cada engine.

Resultados do Together Inference Engine

Together Inference Engine foi comparado ao TensorRT-LLM e outros engines OSS líderes em hardware idêntico. Na carga de produção para agentes de código, os resultados foram:

+31% tokens por segundo (TPS) em comparação ao concorrente OSS mais próximo
TTFT 2x melhor na saturação de tráfego
76% de custo reduzido em comparação ao Claude Opus 4 do Anthropic
Latência estável sob alta concorrência — onde concorrentes já se degradam

Os ganhos vieram de otimização full-stack: tecnologia ThunderMLA, kernels CUDA customizados reescritos e profiling end-to-end em tráfego real.

"A maioria dos benchmarks mede um único usuário em um servidor dedicado.

Os números parecem ótimos. Eles são absolutamente inúteis para raciocinar sobre produção", diz o blog da Together AI.

O Que Isso Significa

A diferença entre engines de inference é enorme precisamente sob carga real — você não a vê em testes sintéticos. Para equipes construindo assistentes IA para desenvolvedores, a escolha do provedor afeta diretamente quantos usuários simultaneamente recebem uma resposta rápida — e quantos veem uma tela em branco. Inference de qualidade produção não é mais um detalhe técnico, mas uma vantagem competitiva.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis