NVIDIA Developer Blog→ оригинал

NVIDIA лидирует в первом отраслевом бенчмарке для AI-агентов AA-AgentPerf

Artificial Analysis представила AA-AgentPerf — первый в отрасли открытый бенчмарк, измеряющий производительность инференс-систем в реальных задачах агентного…

AI-обработка оригинала NVIDIA Developer Blog; редакция Hamidun News
NVIDIA лидирует в первом отраслевом бенчмарке для AI-агентов AA-AgentPerf
Источник: NVIDIA Developer Blog. Коллаж: Hamidun News.
◐ Слушать статью

NVIDIA впервые заняла лидирующую позицию в бенчмарке AA-AgentPerf — первом открытом многовендорном стандарте, измеряющем производительность инференс-систем в реальных задачах агентного кодирования. Его появление меняет разговор об инференс-производительности: теперь есть объективный отраслевой инструмент вместо несопоставимых заявлений вендоров.

Почему старые бенчмарки не работают AI-агенты меняют не только то, что

делают системы, но и то, как они нагружают инфраструктуру. Обычные тесты производительности замеряют скорость ответа на единичный запрос — токены в секунду или время до первого токена. Для чат-бота этого достаточно.

Для агента — принципиально нет. Когда агент решает задачу кодирования, он проходит десятки итераций: пишет функцию, вызывает инструмент для запуска кода, читает вывод ошибки, анализирует его, переписывает — и снова по кругу, пока задача не решена. Каждый шаг создаёт отдельный запрос к инференс-системе.

Суммарная задержка всей траектории критически влияет на продуктивность агента, и синтетические однозапросные тесты просто не способны её измерить. До появления AA-AgentPerf компании, развёртывающие агентные системы в продакшене, были вынуждены ориентироваться на несопоставимые внутренние показатели вендоров. Artificial Analysis решила закрыть этот пробел и выпустила первый открытый стандарт для всей отрасли.

Как работает AA-AgentPerf AA-AgentPerf (Artificial

Analysis AgentPerf) — первый в отрасли открытый многовендорный бенчмарк, специально разработанный под агентные рабочие нагрузки. Вместо синтетических запросов он профилирует полные траектории выполнения задач, максимально приближённых к реальному агентному кодированию — от начальной постановки до финального результата. Бенчмарк оценивает комплекс параметров, критичных именно для агентных сценариев: Латентность первого токена при многошаговых взаимодействиях Пропускную способность в ходе длинных агентных траекторий Стабильность производительности при параллельных запросах Эффективность взаимодействия с инструментами и выполнения кода * Суммарное время решения реалистичных задач кодирования Открытость стандарта принципиально важна: любой производитель может протестировать свою систему и опубликовать воспроизводимые результаты. Это переводит разговор об инференс-производительности из маркетинга в инженерию.

Позиция NVIDIA и что за ней стоит NVIDIA показала лидирующую

производительность по ключевым метрикам нового бенчмарка. За этим результатом стоят многолетние инвестиции компании в оптимизацию именно под агентные сценарии. Архитектура NIM-микросервисов и оптимизированный стек TensorRT-LLM проектировались с расчётом на то, что агентные рабочие нагрузки требуют устойчиво низкой латентности для всей последовательности взаимодействий, а не только для единичного ответа.

«AI-агенты принципиально изменили сложность инференс-нагрузок», — NVIDIA Developer Blog.

Немаловажно, что NVIDIA участвует в AA-AgentPerf с самого первого релиза бенчмарка. Это сигнал рынку: компания уверена в конкурентоспособности своей инфраструктуры в открытом сравнении с другими вендорами.

Что это значит

Первый агентный бенчмарк переопределяет понятие «высокопроизводительная инференс-система»: теперь важна не скорость одного ответа, а эффективность всей агентной цепочки от задачи до результата. Для инженерных команд, строящих агентные системы в продакшене, AA-AgentPerf становится первым инструментом для обоснованного выбора инфраструктуры. Для вендоров — стимулом оптимизироваться под реальные сценарии, а не под синтетику.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…