Безопасность

Оценка моделей (эвалы)

Оценка моделей (эвалы) — систематическое тестирование ИИ-моделей на стандартизированных наборах задач для измерения их способностей, безопасности и надёжности. Результаты эвалов служат основой для решений о выпуске модели и её дополнительной настройке.

Эвалы (от англ. evaluations) — наборы тестов и протоколов для объективного измерения способностей ИИ-модели и её поведения в критических сценариях. Оцениваться может широкий спектр свойств: фактическая точность, математика, знание кода, следование инструкциям, отказ от вредоносных запросов и устойчивость к jailbreak-атакам.

Методически эвалы делятся на автоматические (сравнение вывода с эталоном или запуск кода на тестовых наборах) и с участием человека (оценщики ранжируют ответы модели). Крупные лаборатории — Anthropic, OpenAI, Google DeepMind — проводят оценки возможностей перед каждым выпуском, чтобы убедиться, что модель не приобрела опасных способностей: автономного компрометирования инфраструктуры или помощи в синтезе биологического оружия. Организация METR (ранее ARC Evals) специализируется на независимых оценках такого рода.

Без эвалов разработчики не могут обоснованно утверждать, что модель безопасна для широкого применения. Ключевая проблема — переобучение под тест: модели, обученные на данных, близких к тестовым наборам, показывают высокие баллы, не отражающие реальную компетентность, что ведёт к постоянному созданию более сложных и закрытых задач.

К 2026 году эвалы вошли в регуляторный процесс: Великобритания, ЕС и США требуют от компаний документировать результаты тестирования безопасности перед выпуском frontier-моделей. UK AI Safety Institute и US AI Safety Institute проводят независимые оценки моделей, превышающих определённые пороговые характеристики производительности.

Пример

Перед выпуском новой версии модели Anthropic провела оценку автономных возможностей по протоколу METR, чтобы убедиться, что система не способна самостоятельно реплицировать свои веса или проводить кибератаки без явного разрешения оператора.

Связанные термины

Бенчмарк Ред-тиминг Галлюцинация Перплексия

← Глоссарий