NVIDIA a montré la différence entre l’évaluation des modèles et l’évaluation des agents AI
NVIDIA a souligné une différence fondamentale dans l’évaluation des systèmes AI. Un benchmark de modèle vérifie la compréhension du langage et la capacité à rés

◐ Écouter l'article
NVIDIA a souligné une différence fondamentale dans l’évaluation des systèmes AI. Un benchmark de modèle vérifie la compréhension du langage et la capacité à résoudre des tâches statiques. L’évaluation des agents, c’est tout autre chose : il faut tester le comportement end-to-end, avec planification, appel d’outils et fonctionnement en situation d’incertitude.