NVIDIA domine le premier benchmark sectoriel pour agents IA AA-AgentPerf
Artificial Analysis a présenté AA-AgentPerf — le premier benchmark ouvert de l'industrie mesurant la performance des systèmes d'inférence sur des tâches…
Traité par IA depuis NVIDIA Developer Blog ; édité par Hamidun News
NVIDIA a pour la première fois occupé la position de leader dans le benchmark AA-AgentPerf — le premier standard ouvert multi-fournisseurs mesurant la performance des systèmes d'inférence dans les tâches réelles de codification avec agents. Son émergence change la conversation sur la performance d'inférence : il y a maintenant un outil objectif de l'industrie au lieu de déclarations incomparables des fournisseurs.
Pourquoi les Anciens Benchmarks Ne Fonctionnent Pas
Les agents d'IA changent non seulement ce que font les systèmes, mais aussi comment ils chargent l'infrastructure. Les tests de performance standard mesurent la vitesse de réponse à une seule requête — tokens par seconde ou temps jusqu'au premier token. Pour un chatbot c'est suffisant. Pour un agent — c'est fondamentalement pas.
Quand un agent résout une tâche de codification, il passe par des dizaines d'itérations : écrit une fonction, appelle un outil pour exécuter le code, lit la sortie d'erreur, l'analyse, la réécrit — et de nouveau en boucle jusqu'à ce que la tâche soit résolue. Chaque étape crée une requête séparée au système d'inférence. La latence totale de toute la trajectoire affecte de manière critique la productivité de l'agent, et les tests synthétiques monoquery ne peuvent tout simplement pas la mesurer.
Avant l'apparition d'AA-AgentPerf, les entreprises déployant des systèmes d'agents en production étaient obligées de se fier à des métriques internes incomparables des fournisseurs. Artificial Analysis a décidé de combler cette lacune et a lancé le premier standard ouvert pour toute l'industrie.
Comment AA-AgentPerf Fonctionne
AA-AgentPerf (Artificial Analysis AgentPerf) — le premier benchmark ouvert multi-fournisseurs de l'industrie, spécialement développé pour les charges de travail d'agents. Au lieu de requêtes synthétiques, il profile les trajectoires complètes d'exécution des tâches, aussi proches que possible de la codification réelle avec agents — de l'énoncé initial de tâche au résultat final. Le benchmark évalue un ensemble complexe de paramètres critiques spécifiquement pour les scénarios d'agents :
- Latence du premier token dans les interactions multi-étapes
- Débit pendant les longues trajectoires d'agents
- Stabilité de la performance sous requêtes parallèles
- Efficacité de l'interaction avec les outils et l'exécution du code
- Temps total pour résoudre les tâches de codification réalistes
L'ouverture du standard est fondamentalement importante : tout fournisseur peut tester son système et publier des résultats reproductibles. Cela déplace la conversation sur la performance d'inférence du marketing vers l'ingénierie.
La Position de NVIDIA et Ce Qu'il y a Derrière
NVIDIA a démontré une performance de leader sur les métriques clés du nouveau benchmark. Derrière ce résultat se trouvent des années d'investissement de l'entreprise dans l'optimisation spécifiquement pour les scénarios d'agents. L'architecture des microservices NIM et la pile TensorRT-LLM optimisée ont été conçues avec la compréhension que les charges de travail d'agents nécessitent une latence constamment faible pour toute la séquence d'interactions, pas seulement pour une seule réponse.
«
Les agents d'IA ont fondamentalement changé la complexité des charges d'inférence », — NVIDIA Developer Blog.
Il est également à noter que NVIDIA a participé à AA-AgentPerf depuis la toute première version du benchmark. Cela signale au marché : l'entreprise est confiante dans la compétitivité de son infrastructure dans la comparaison ouverte avec d'autres fournisseurs.
Ce Que Cela Signifie
Le premier benchmark d'agents redéfinit le concept de « système d'inférence haute performance » : maintenant ce qui compte n'est pas la vitesse d'une seule réponse, mais l'efficacité de toute la chaîne d'agents de la tâche au résultat. Pour les équipes d'ingénierie construisant des systèmes d'agents en production, AA-AgentPerf devient le premier outil pour la sélection justifiée de l'infrastructure. Pour les fournisseurs — une incitation à s'optimiser pour les scénarios réels, pas la synthétique.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.