Безопасность

Бенчмарк

Бенчмарк в контексте ИИ — стандартизированный набор задач и метрик, на котором сравниваются возможности разных моделей. Единый протокол тестирования позволяет воспроизводимо измерять прогресс и сопоставлять системы от разных разработчиков.

Бенчмарк — фиксированный датасет задач с известными правильными ответами и стандартизированным способом подсчёта баллов. В отличие от произвольных демонстраций, бенчмарк обеспечивает воспроизводимость: любой разработчик может запустить свою модель на том же наборе и получить сопоставимый результат.

Широко используемые бенчмарки охватывают разные аспекты интеллекта: MMLU (Massive Multitask Language Understanding) проверяет знания в 57 академических дисциплинах; HumanEval и SWE-Bench оценивают способность писать и исправлять код; GPQA (Graduate-Level Google-Proof Q&A) тестирует PhD-уровень в физике, химии и биологии; ARC-AGI от Франсуа Шолле проверяет способность к абстрактному обобщению на задачах, намеренно исключённых из типичных обучающих данных. Ни один тест не является универсальным.

Проблема «насыщения» бенчмарков — хронический вызов отрасли: как только тест становится популярным, модели начинают показывать на нём результаты, близкие к человеческому потолку, нередко потому что похожие задачи попадали в обучающие данные. Это ведёт к постоянному созданию более сложных и закрытых наборов.

К 2026 году frontier-модели от OpenAI, Anthropic и Google соревнуются преимущественно на закрытых внутренних тестах и наборах вроде Humanity's Last Exam и LiveBench, разработанных с учётом защиты от утечки данных в обучение. Ни одна модель не достигла уверенного превосходства над человеком во всех категориях; многошаговое планирование и решение принципиально новых математических задач остаются существенным барьером.

Пример

Компания публикует технический отчёт о новой модели и сопровождает его результатами на MMLU, SWE-Bench Verified и GPQA Diamond — это позволяет разработчикам напрямую сопоставить её с GPT-4o и Gemini 2.0 Pro по единым воспроизводимым метрикам.

Связанные термины

Оценка моделей (эвалы)Законы масштабирования Фронтирная модель

← Глоссарий