NVIDIA mostrou a diferença entre a avaliação de modelos e a avaliação de agentes de AI
A NVIDIA destacou uma diferença fundamental na avaliação de sistemas de AI. Um benchmark de modelo verifica a compreensão da linguagem e a capacidade de resolve

◐ Ouvir artigo
A NVIDIA destacou uma diferença fundamental na avaliação de sistemas de AI. Um benchmark de modelo verifica a compreensão da linguagem e a capacidade de resolver tarefas estáticas. A avaliação de agentes é outra coisa: é preciso testar o comportamento end-to-end, com planejamento, chamadas de ferramentas e operação em condições de incerteza.