NVIDIA Developer Blog→ original

NVIDIA lidera primeiro benchmark industrial para agentes de IA AA-AgentPerf

Artificial Analysis apresentou AA-AgentPerf — o primeiro benchmark aberto da indústria que mede o desempenho de sistemas de inferência em tarefas reais de…

Processado por IA de NVIDIA Developer Blog; editado por Hamidun News
NVIDIA lidera primeiro benchmark industrial para agentes de IA AA-AgentPerf
Fonte: NVIDIA Developer Blog. Colagem: Hamidun News.
◐ Ouvir artigo

NVIDIA ocupou pela primeira vez a posição de liderança no benchmark AA-AgentPerf — o primeiro padrão aberto multivendedor que mede o desempenho de sistemas de inferência em tarefas reais de codificação com agentes. Seu surgimento muda a conversa sobre desempenho de inferência: agora há uma ferramenta objetiva da indústria em vez de afirmações incomparáveis dos fornecedores.

Por que os Benchmarks Antigos Não Funcionam

Agentes de IA mudam não apenas o que os sistemas fazem, mas também como carregam a infraestrutura. Testes de desempenho padrão medem a velocidade de resposta a uma única consulta — tokens por segundo ou tempo até o primeiro token. Para um chatbot isso é suficiente. Para um agente — é fundamentalmente não.

Quando um agente resolve uma tarefa de codificação, ele passa por dezenas de iterações: escreve uma função, chama uma ferramenta para executar o código, lê a saída de erro, a analisa, reescreve — e novamente em círculo até que a tarefa seja resolvida. Cada etapa cria uma solicitação separada para o sistema de inferência. A latência total de toda a trajetória afeta criticamente a produtividade do agente, e testes sintéticos de consulta única simplesmente não conseguem medi-la.

Antes do AA-AgentPerf aparecer, as empresas implantando sistemas de agentes em produção eram forçadas a confiar em métricas internas incomparáveis dos fornecedores. A Artificial Analysis decidiu fechar essa lacuna e lançou o primeiro padrão aberto para toda a indústria.

Como o AA-AgentPerf Funciona

AA-AgentPerf (Artificial Analysis AgentPerf) — o primeiro benchmark aberto multivendedor da indústria, desenvolvido especialmente para cargas de trabalho de agentes. Em vez de solicitações sintéticas, ele perfila trajetórias completas de execução de tarefas, o mais próximo possível da codificação real com agentes — da declaração inicial de tarefa ao resultado final. O benchmark avalia um conjunto complexo de parâmetros críticos especificamente para cenários de agentes:

  • Latência do primeiro token em interações multi-etapas
  • Throughput durante longas trajetórias de agentes
  • Estabilidade do desempenho em solicitações paralelas
  • Eficiência da interação com ferramentas e execução de código
  • Tempo total para resolver tarefas de codificação realistas

A abertura do padrão é fundamentalmente importante: qualquer fornecedor pode testar seu sistema e publicar resultados reproduzíveis. Isso desloca a conversa sobre desempenho de inferência do marketing para a engenharia.

A Posição da NVIDIA e o que Está por Trás Disso

NVIDIA demonstrou desempenho de liderança nas principais métricas do novo benchmark. Por trás desse resultado estão anos de investimento da empresa em otimização especificamente para cenários de agentes. A arquitetura de microsserviços NIM e a pilha TensorRT-LLM otimizada foram projetadas com o entendimento de que cargas de trabalho de agentes requerem latência consistentemente baixa para toda a sequência de interações, não apenas para uma única resposta.

"Agentes de IA fundamentalmente mudaram a complexidade das cargas de inferência," — NVIDIA

Developer Blog.

Vale também notar que NVIDIA participou do AA-AgentPerf desde o primeiro lançamento do benchmark. Isso sinaliza ao mercado: a empresa está confiante na competitividade de sua infraestrutura em comparação aberta com outros fornecedores.

O que Isso Significa

O primeiro benchmark de agentes redefine o conceito de "sistema de inferência de alto desempenho": agora o que importa é não a velocidade de uma única resposta, mas a eficiência de toda a cadeia de agentes da tarefa ao resultado. Para equipes de engenharia construindo sistemas de agentes em produção, AA-AgentPerf se torna a primeira ferramenta para seleção justificada de infraestrutura. Para fornecedores — um incentivo para otimizar para cenários reais, não sintéticos.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…