حددت Positive Technologies أفضل المعايير لتقييم LLM في الأمن السيبراني
أطلقت Positive Technologies نظرة عامة شاملة على معايير مفتوحة لـ LLM في الأمن السيبراني. الاستنتاج الرئيسي: في اختبارات المعرفة، حتى النماذج الصغيرة نسبياً تتفو

Positive Technologies выпустила подробный разбор открытых бенчмарков для оценки больших языковых моделей в задачах кибербезопасности и пришла к простому выводу: проверять LLM только на знание терминов, стандартов и CVE уже почти бессмысленно. В этой зоне даже сравнительно небольшие модели стабильно обходят людей, тогда как реальная разница между системами проявляется в задачах, где нужно не вспоминать определения, а действовать: расследовать инциденты, решать CTF, искать уязвимости и писать патчи. Автор обзора предлагает делить такие тесты на два класса.
Первый — энциклопедические бенчмарки, где модель отвечает на вопросы по криптографии, сетевой безопасности, комплаенсу, MITRE ATT&CK, CVE и другим темам. Второй — скиловые, или action-бенчмарки, где от модели ждут уже практического результата. Наиболее показательный пример из первой группы — CyberMetric.
В нем 10 тысяч вопросов по семи доменам, и даже старые модели уровня gpt-3.5-turbo набирали около 85%, тогда как опытные специалисты показывали примерно 75%. По оценке автора, такой тест сегодня полезен в основном для маленьких моделей, доменной квантизации и быстрых sanity-check сценариев.
Чуть сложнее устроен SECURE, собранный по материалам MITRE ATT&CK, CVE, CWE и CISA. Там проверяется не только знание фактов, но и способность оценивать риск, определять корректность утверждений о конкретных уязвимостях и считать CVSS. Еще выше по практической ценности в обзоре ставится AthenaBench — обновленная версия популярного CTIBench для задач cyber threat intelligence.
Этот бенч проверяет, может ли модель извлекать техники атак, сопоставлять CVE и CWE, прогнозировать severity и предлагать стратегию снижения риска. Лидером там названа GPT-5 с результатом 66,1%, а подключение веб-поиска дало ей дополнительный прирост в сложных сценариях. Это важное наблюдение: даже сильным моделям нужен внешний контекст, и в прикладной безопасности такой режим ближе к работе реального аналитика, чем чистый offline-тест.
В action-категории автор выделяет CyBench как один из самых сильных открытых тестов. Он разворачивает полноценные CTF-задачи в изолированной среде и оценивает не только финальный флаг, но и то, насколько агент вообще приблизился к правильному решению. В открытом лидерборде на момент обзора лидировал Claude Opus 4.
6 с 93%, за ним шли Claude 4.5 Sonnet и Grok 4. Важен не только абсолютный результат, но и скорость прогресса: всего за несколько поколений моделей доля решенных задач выросла с примерно 20% до более чем 80%.
Это уже не демонстрация общих способностей, а сигнал, что агентные LLM начинают входить в зону практической полезности для offensive и research-сценариев. Для оценки прикладной пользы в уязвимостях автор отдельно рекомендует BountyBench. В нем задачи измеряются через потенциальную ценность на багбаунти-платформах: модель должна находить уязвимость, строить эксплойт или писать патч, а исследователи параллельно считают и экономику запуска в токенах.
На этой выборке заметно, что патчинг дается LLM легче, чем само обнаружение багов. Еще ближе к реальной защите оказывается ExCyTIn-Bench, где агент получает доступ к логам и шаг за шагом расследует атаку через SQL-запросы. Лидеры там — Claude Opus 4.
5, GPT-5.1 и GPT-5, но важнее другое: архитектура агента и паттерны вроде ReAct заметно поднимают результат даже у более слабых моделей. Иными словами, в SOC-задачах многое решает не только базовая модель, но и то, как именно вокруг нее собран рабочий контур.
При этом обзор не пытается представить рынок аккуратной и зрелой системой. Наоборот, одна из главных претензий — хаос в самом ландшафте бенчмарков. Одни наборы данных быстро устаревают, другие слишком завязаны на конкретный язык или аудиторию, как SecBench с сильным китайским перекосом, третьи страдают от слабой подготовки исходных материалов.
В качестве примера такого спорного подхода приводится CyberSOCEval: как полноценный бенчмарк он выглядит неубедительно, хотя часть с реальными sandbox-трейсами вредоносного ПО может быть полезной как датасет для EDR, антивирусных и аналитических команд. Практический вывод из обзора такой: если нужно быстро и внятно сравнивать LLM для кибербезопасности, минимальный набор стоит собирать из CyberMetric и AthenaBench для проверки знаний, CyBench и ExCyTIn-Bench для оценки практических навыков, а BountyBench — когда важен экономический эффект. Главная смена рамки уже произошла: вопрос больше не в том, знает ли модель базовые вещи из учебника, а в том, насколько хорошо она умеет работать в среде, где есть шумные логи, многошаговые атаки, неоднозначные данные и цена ошибки.
Именно там и будет определяться реальная ценность LLM для кибербезопасности.