Together AI a dépassé TensorRT-LLM de 31 % sur des benchmarks pour agents de code

Together AI a publié les premiers benchmarks honnêtes pour les charges de production des agents de code. Together Inference Engine a dépassé TensorRT-LLM de…

Rédaction de Hamidun News

Veille IA · Together AI Blog

30 juin 2026· 2 min

Traité par IA depuis Together AI Blog ; édité par Hamidun News

Together AI a dépassé TensorRT-LLM de 31 % sur des benchmarks pour agents de code — Source : Together AI Blog. Collage: Hamidun News.

◐ Écouter l'article

Together AI a publié les premiers benchmarks d'inférence orientés vers la production pour les agents de code — et les résultats remettent en question la plupart des tests conventionnels de l'industrie.

Pourquoi les Benchmarks Standard Sont Inutiles

Un benchmark d'inférence classique mesure un utilisateur unique sur un serveur dédié. Les chiffres semblent impressionnants — et ne révèlent rien sur les conditions réelles de fonctionnement. En production, des dizaines et des centaines de demandes concurrencent simultanément un seul cache KV, la bande passante mémoire et les cycles GPU. Plus le trafic est important, plus le temps jusqu'au premier jeton (TTFT) augmente. À un moment donné, le système devient inutilisable avant la défaillance formelle. Différents moteurs atteignent ce point à des niveaux de charge très différents — et c'est exactement ce qui doit être mesuré.

Together AI a conçu le test précisément pour ce scénario : charge des agents de code, contexte long, concurrence élevée et tolérance zéro à la dégradation de la latence.

Ce Qui Rend les Agents de Code une Charge Particulière

Les demandes des agents de code portent un contexte énorme : le fichier édité, le code environnant, l'historique du dialogue, les fragments de la recherche vectorielle. La longueur du jeton d'entrée a varié de 45 à 200 mille — simulant la croissance réelle de la session pendant le développement. La longueur moyenne de la réponse était d'environ 450 jetons : l'agent écrit une fonction, pas un roman.

Ce type de charge crée trois problèmes que les tests standard manquent :

Sensibilité TTFT. Le développeur voit un écran vierge jusqu'à l'arrivée du premier jeton. Dans cet intervalle — entre l'envoi et le début du streaming — la confiance dans l'outil est perdue. La vitesse de génération est secondaire : une fois que les jetons commencent à affluer, l'expérience semble rapide.
Contexte long concurrent. Des dizaines de développeurs avec des demandes de 80+ mille jetons remplissent le cache KV simultanément. Le planificateur perd de la manœuvrabilité, TTFT monte — et le système se dégrade bien avant la défaillance formelle.
Profil orienté prefill. La charge ici est principalement sur prefill, pas sur decode. Les moteurs optimisés pour la génération longue ne bénéficient pas de leur avantage habituel.

Le test a été exécuté sur 4× NVIDIA B200 pour chaque moteur.

Résultats de Together Inference Engine

Together Inference Engine a été comparé à TensorRT-LLM et à d'autres moteurs OSS leaders sur du matériel identique. Sur la charge de production pour les agents de code, les résultats ont été :

+31% jetons par seconde (TPS) par rapport au concurrent OSS le plus proche
TTFT 2x meilleur à saturation du trafic
76% de coût réduit par rapport à Claude Opus 4 d'Anthropic
Latence stable sous concurrence élevée — où les concurrents se dégradent déjà

Les gains provenaient d'une optimisation full-stack : technologie ThunderMLA, noyaux CUDA personnalisés réécrits et profilage end-to-end sur le trafic réel.

« La plupart des benchmarks mesurent un utilisateur unique sur un serveur dédié.

Les chiffres semblent excellents. Ils sont absolument inutiles pour raisonner sur la production », dit le blog de Together AI.

Ce Que Cela Signifie

L'écart entre les moteurs d'inférence est énorme précisément sous charge réelle — vous ne le voyez pas dans les tests synthétiques. Pour les équipes construisant des assistants IA pour les développeurs, le choix du fournisseur affecte directement le nombre d'utilisateurs qui reçoivent simultanément une réponse rapide — et combien voient un écran vierge. L'inférence de qualité production n'est plus une nuance technique, mais un avantage concurrentiel.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite