Бенчмарк
Бенчмарк в контексте ИИ — стандартизированный набор задач и метрик, на котором сравниваются возможности разных моделей. Единый протокол тестирования позволяет воспроизводимо измерять прогресс и сопоставлять системы от разных разработчиков.
Бенчмарк — фиксированный датасет задач с известными правильными ответами и стандартизированным способом подсчёта баллов. В отличие от произвольных демонстраций, бенчмарк обеспечивает воспроизводимость: любой разработчик может запустить свою модель на том же наборе и получить сопоставимый результат.
Широко используемые бенчмарки охватывают разные аспекты интеллекта: MMLU (Massive Multitask Language Understanding) проверяет знания в 57 академических дисциплинах; HumanEval и SWE-Bench оценивают способность писать и исправлять код; GPQA (Graduate-Level Google-Proof Q&A) тестирует PhD-уровень в физике, химии и биологии; ARC-AGI от Франсуа Шолле проверяет способность к абстрактному обобщению на задачах, намеренно исключённых из типичных обучающих данных. Ни один тест не является универсальным.
Проблема «насыщения» бенчмарков — хронический вызов отрасли: как только тест становится популярным, модели начинают показывать на нём результаты, близкие к человеческому потолку, нередко потому что похожие задачи попадали в обучающие данные. Это ведёт к постоянному созданию более сложных и закрытых наборов.
К 2026 году frontier-модели от OpenAI, Anthropic и Google соревнуются преимущественно на закрытых внутренних тестах и наборах вроде Humanity's Last Exam и LiveBench, разработанных с учётом защиты от утечки данных в обучение. Ни одна модель не достигла уверенного превосходства над человеком во всех категориях; многошаговое планирование и решение принципиально новых математических задач остаются существенным барьером.