NVIDIA лидирует в первом отраслевом бенчмарке для AI-агентов AA-AgentPerf
Artificial Analysis представила AA-AgentPerf — первый в отрасли открытый бенчмарк, измеряющий производительность инференс-систем в реальных задачах агентного…
AI-обработка оригинала NVIDIA Developer Blog; редакция Hamidun News
NVIDIA впервые заняла лидирующую позицию в бенчмарке AA-AgentPerf — первом открытом многовендорном стандарте, измеряющем производительность инференс-систем в реальных задачах агентного кодирования. Его появление меняет разговор об инференс-производительности: теперь есть объективный отраслевой инструмент вместо несопоставимых заявлений вендоров.
Почему старые бенчмарки не работают AI-агенты меняют не только то, что
делают системы, но и то, как они нагружают инфраструктуру. Обычные тесты производительности замеряют скорость ответа на единичный запрос — токены в секунду или время до первого токена. Для чат-бота этого достаточно.
Для агента — принципиально нет. Когда агент решает задачу кодирования, он проходит десятки итераций: пишет функцию, вызывает инструмент для запуска кода, читает вывод ошибки, анализирует его, переписывает — и снова по кругу, пока задача не решена. Каждый шаг создаёт отдельный запрос к инференс-системе.
Суммарная задержка всей траектории критически влияет на продуктивность агента, и синтетические однозапросные тесты просто не способны её измерить. До появления AA-AgentPerf компании, развёртывающие агентные системы в продакшене, были вынуждены ориентироваться на несопоставимые внутренние показатели вендоров. Artificial Analysis решила закрыть этот пробел и выпустила первый открытый стандарт для всей отрасли.
Как работает AA-AgentPerf AA-AgentPerf (Artificial
Analysis AgentPerf) — первый в отрасли открытый многовендорный бенчмарк, специально разработанный под агентные рабочие нагрузки. Вместо синтетических запросов он профилирует полные траектории выполнения задач, максимально приближённых к реальному агентному кодированию — от начальной постановки до финального результата. Бенчмарк оценивает комплекс параметров, критичных именно для агентных сценариев: Латентность первого токена при многошаговых взаимодействиях Пропускную способность в ходе длинных агентных траекторий Стабильность производительности при параллельных запросах Эффективность взаимодействия с инструментами и выполнения кода * Суммарное время решения реалистичных задач кодирования Открытость стандарта принципиально важна: любой производитель может протестировать свою систему и опубликовать воспроизводимые результаты. Это переводит разговор об инференс-производительности из маркетинга в инженерию.
Позиция NVIDIA и что за ней стоит NVIDIA показала лидирующую
производительность по ключевым метрикам нового бенчмарка. За этим результатом стоят многолетние инвестиции компании в оптимизацию именно под агентные сценарии. Архитектура NIM-микросервисов и оптимизированный стек TensorRT-LLM проектировались с расчётом на то, что агентные рабочие нагрузки требуют устойчиво низкой латентности для всей последовательности взаимодействий, а не только для единичного ответа.
«AI-агенты принципиально изменили сложность инференс-нагрузок», — NVIDIA Developer Blog.
Немаловажно, что NVIDIA участвует в AA-AgentPerf с самого первого релиза бенчмарка. Это сигнал рынку: компания уверена в конкурентоспособности своей инфраструктуры в открытом сравнении с другими вендорами.
Что это значит
Первый агентный бенчмарк переопределяет понятие «высокопроизводительная инференс-система»: теперь важна не скорость одного ответа, а эффективность всей агентной цепочки от задачи до результата. Для инженерных команд, строящих агентные системы в продакшене, AA-AgentPerf становится первым инструментом для обоснованного выбора инфраструктуры. Для вендоров — стимулом оптимизироваться под реальные сценарии, а не под синтетику.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.