Together AI a dépassé TensorRT-LLM de 31 % sur des benchmarks pour agents de code
Together AI a publié les premiers benchmarks honnêtes pour les charges de production des agents de code. Together Inference Engine a dépassé TensorRT-LLM de…
Traité par IA depuis Together AI Blog ; édité par Hamidun News
Together AI a publié les premiers benchmarks d'inférence orientés vers la production pour les agents de code — et les résultats remettent en question la plupart des tests conventionnels de l'industrie.
Pourquoi les Benchmarks Standard Sont Inutiles
Un benchmark d'inférence classique mesure un utilisateur unique sur un serveur dédié. Les chiffres semblent impressionnants — et ne révèlent rien sur les conditions réelles de fonctionnement. En production, des dizaines et des centaines de demandes concurrencent simultanément un seul cache KV, la bande passante mémoire et les cycles GPU. Plus le trafic est important, plus le temps jusqu'au premier jeton (TTFT) augmente. À un moment donné, le système devient inutilisable avant la défaillance formelle. Différents moteurs atteignent ce point à des niveaux de charge très différents — et c'est exactement ce qui doit être mesuré.
Together AI a conçu le test précisément pour ce scénario : charge des agents de code, contexte long, concurrence élevée et tolérance zéro à la dégradation de la latence.
Ce Qui Rend les Agents de Code une Charge Particulière
Les demandes des agents de code portent un contexte énorme : le fichier édité, le code environnant, l'historique du dialogue, les fragments de la recherche vectorielle. La longueur du jeton d'entrée a varié de 45 à 200 mille — simulant la croissance réelle de la session pendant le développement. La longueur moyenne de la réponse était d'environ 450 jetons : l'agent écrit une fonction, pas un roman.
Ce type de charge crée trois problèmes que les tests standard manquent :
- Sensibilité TTFT. Le développeur voit un écran vierge jusqu'à l'arrivée du premier jeton. Dans cet intervalle — entre l'envoi et le début du streaming — la confiance dans l'outil est perdue. La vitesse de génération est secondaire : une fois que les jetons commencent à affluer, l'expérience semble rapide.
- Contexte long concurrent. Des dizaines de développeurs avec des demandes de 80+ mille jetons remplissent le cache KV simultanément. Le planificateur perd de la manœuvrabilité, TTFT monte — et le système se dégrade bien avant la défaillance formelle.
- Profil orienté prefill. La charge ici est principalement sur prefill, pas sur decode. Les moteurs optimisés pour la génération longue ne bénéficient pas de leur avantage habituel.
Le test a été exécuté sur 4× NVIDIA B200 pour chaque moteur.
Résultats de Together Inference Engine
Together Inference Engine a été comparé à TensorRT-LLM et à d'autres moteurs OSS leaders sur du matériel identique. Sur la charge de production pour les agents de code, les résultats ont été :
- +31% jetons par seconde (TPS) par rapport au concurrent OSS le plus proche
- TTFT 2x meilleur à saturation du trafic
- 76% de coût réduit par rapport à Claude Opus 4 d'Anthropic
- Latence stable sous concurrence élevée — où les concurrents se dégradent déjà
Les gains provenaient d'une optimisation full-stack : technologie ThunderMLA, noyaux CUDA personnalisés réécrits et profilage end-to-end sur le trafic réel.
« La plupart des benchmarks mesurent un utilisateur unique sur un serveur dédié.
Les chiffres semblent excellents. Ils sont absolument inutiles pour raisonner sur la production », dit le blog de Together AI.
Ce Que Cela Signifie
L'écart entre les moteurs d'inférence est énorme précisément sous charge réelle — vous ne le voyez pas dans les tests synthétiques. Pour les équipes construisant des assistants IA pour les développeurs, le choix du fournisseur affecte directement le nombre d'utilisateurs qui reçoivent simultanément une réponse rapide — et combien voient un écran vierge. L'inférence de qualité production n'est plus une nuance technique, mais un avantage concurrentiel.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.
L'essentiel de l'IA — une fois par semaine
Sept actus qui ont vraiment compté, choisies à la main. Sans bruit ni communiqués.
C'est fait ! Vérifiez votre boîte mail pour la confirmation.