Бизнес

MMLU

MMLU (Massive Multitask Language Understanding) — академический бенчмарк для языковых моделей, включающий около 15 000 вопросов с выбором одного из четырёх ответов по 57 дисциплинам: STEM, медицина, право, история и другие; служит стандартным измерителем широты знаний модели.

MMLU (Massive Multitask Language Understanding) — бенчмарк, созданный Дэном Хендриксом и коллегами из Калифорнийского университета Беркли и опубликованный в 2020 году. Датасет содержит около 15 908 вопросов с четырьмя вариантами ответа, охватывающих 57 дисциплин: от элементарной математики и информатики до медицинской лицензионной экзаменации, юриспруденции, истории и профессиональной психологии. Вопросы взяты из реальных академических учебников и аттестационных материалов.

Оценка вычисляется как доля правильных ответов; при случайном выборе ожидаемый результат составляет 25%. Среднее значение по всем 57 предметам принято как итоговый балл. Для сравнения: специалисты с высшим образованием в профильных областях набирают в среднем около 89%, а люди без профильного образования — существенно ниже. Бенчмарк специально охватывает широкий спектр дисциплин, чтобы оценить не глубину в одной области, а именно многопредметную компетентность.

MMLU быстро стал одним из основных ориентиров при выпуске новых моделей. GPT-3 (2020) показывал около 43%; GPT-4 при анонсе в 2023 году — около 86%; модели поколения 2024–2025 годов (Claude 3.5, Gemini 1.5 Pro, GPT-4o и их преемники) превысили 90%, вплотную приблизившись к среднему уровню экспертов.

К 2025–2026 годам MMLU считается практически насыщенным: прирост результатов на нём уже слабо коррелирует с реальным улучшением моделей. В ответ сообщество разработало более сложные вариации — MMLU-Pro (с десятью вариантами ответа и усложнёнными вопросами) и MMLU-Redux (с исправленными ошибками оригинала). Тем не менее MMLU остаётся стандартным пунктом в технических отчётах и используется как базовая линия для сравнения архивных и новых моделей.

Пример

При выпуске технического отчёта по Claude 3.5 Sonnet компания Anthropic приводит результат модели на MMLU как стандартный индикатор широты знаний, сопоставляя его с показателями предыдущих версий и конкурирующих систем.

Связанные термины

Бенчмарк Оценка моделей (эвалы)Большая языковая модель (LLM)GPQA

← Глоссарий