NVIDIA mostró la diferencia entre la evaluación de modelos y la evaluación de agentes de AI
NVIDIA destacó una diferencia fundamental en la evaluación de sistemas de AI. Un benchmark de modelo comprueba la comprensión del lenguaje y la capacidad de res

◐ Escuchar artículo
NVIDIA destacó una diferencia fundamental en la evaluación de sistemas de AI. Un benchmark de modelo comprueba la comprensión del lenguaje y la capacidad de resolver tareas estáticas. La evaluación de agentes es otra cosa: hay que probar el comportamiento end-to-end, con planificación, llamadas a herramientas y funcionamiento en condiciones de incertidumbre.