أظهرت NVIDIA الفرق بين تقييم النماذج وتقييم وكلاء AI
أبرزت NVIDIA فرقًا جوهريًا في تقييم أنظمة AI. يختبر الاختبار المعياري للنموذج فهم اللغة والقدرة على حل المهام الثابتة. أما تقييم الوكلاء فهو شيء مختلف تمامًا: ي

◐ استمع للمقال
أبرزت NVIDIA فرقًا جوهريًا في تقييم أنظمة AI. يختبر الاختبار المعياري للنموذج فهم اللغة والقدرة على حل المهام الثابتة. أما تقييم الوكلاء فهو شيء مختلف تمامًا: يجب اختبار السلوك end-to-end، مع التخطيط، واستدعاء الأدوات، والعمل في ظروف عدم اليقين.