Hugging Face Blog→ оригинал

AI Model Evaluation Now Costs More Than Training — A New Barrier for Researchers

Running a comprehensive AI-benchmark in 2026 costs between $2,800 and $40,000 per run — no longer a line item next to training, but a standalone financial barri

AI Model Evaluation Now Costs More Than Training — A New Barrier for Researchers
Источник: Hugging Face Blog. Коллаж: Hamidun News.

Запустить полноценную оценку AI-агента в 2026 году стоит от $2 800 до $40 000 за один прогон. EvalEval Coalition опубликовала обширный доклад: бенчмаркинг перестал быть строкой в смете рядом с обучением модели и превратился в самостоятельный вычислительный и финансовый барьер — со всеми вытекающими для независимости оценки.

Цифры по бенчмаркам

Исследователи собрали конкретные данные по восьми широко используемым системам оценки: HAL (комплексный агентский лидерборд) — $40 000 за 21 730 прогонов по 9 моделям и 9 бенчмаркам GAIA — до $2 829 за один прогон без кеширования PaperBench — от $4 200 до $9 500 в зависимости от протокола The Well (ML для задач физики) — ~$2 400 за архитектуру, ~$9 600 за полный sweep * MLE-Bench — ~$5 500 за один seed (75 задач Kaggle × 24 часа на GPU + API) Один прогон GAIA сопоставим с типичным годовым командировочным бюджетом аспиранта. Сравнение трёх seed-запусков шести моделей обходится примерно в $150 000. Часть бенчмарков требует реального обучения — и там вычислительная стоимость оценки превышает стоимость самого обучения примерно в сто раз.

Почему агентские тесты нельзя сжать

Для статических языковых бенчмарков компрессия давно работает: Flash-HELM ужимает тест в 100–200 раз без потери точности ранжирования, а tinyBenchmarks сократил MMLU с 14 000 примеров до 100 при погрешности около 2%. Агентские бенчмарки сопротивляются тем же техникам. Стоимость задач внутри одного агентского теста варьируется в 10 000 раз.

При этом дорогие задачи не дают пропорционально точных результатов: на Mind2Web разница в цене 9× соответствует разнице в точности всего на 2%. Максимальный эффект компрессии — 2–3,5 раза, что на два порядка хуже, чем для статических бенчмарков. Дополнительный множитель — надёжность.

Одна и та же модель на τ-bench показала 60% при одном прогоне и лишь 25% при восьми. Статистически достоверное измерение требует минимум k=8 повторений, автоматически умножая стоимость на 8: тест за $10 000 превращается в $80 000.

«Принято считать, что главный ограничитель — возможности модели.

Но оценка указывает: настоящий узкий момент — надёжность», — EvalEval Coalition.

Независимая проверка становится привилегией

Когда три seed-запуска для шести моделей стоят $150 000, академические группы физически выбывают из игры. Бюджетами для статистически достоверной оценки располагают только крупные лаборатории — те самые, что создают оцениваемые системы. Это структурный конфликт интересов: внешняя верификация исчезает не потому, что её не хотят, а потому что её некому оплатить. EvalEval Coalition предлагает прагматичный ответ: перестать прогонять одни и те же тесты снова и снова. Сейчас каждая группа начинает с нуля, потому что результаты других похоронены в PDF-статьях без машиночитаемых данных. Коалиция запустила проект Every Eval Ever — репозиторий на Hugging Face, куда сдаются результаты с полными метаданными, логами и параметрами. Подсчитано: даже двукратное переиспользование данных сэкономит больше, чем все техники компрессии вместе взятые.

Что это значит

Экономика AI-оценки перевернулась: эвалюация — больше не мелкая строка в смете, а первостепенная операционная статья и инструмент влияния. Кто может заплатить за бенчмарк — тот и пишет лидерборд. Если независимая проверка продолжит дорожать, внешний контроль над AI-системами рискует полностью сосредоточиться в руках лабораторий, которые эти системы создают.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…