حددت Positive Technologies أفضل المعايير لتقييم LLM في الأمن السيبراني

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-04-28. Время чтения: 3 мин.

أطلقت Positive Technologies نظرة عامة شاملة على معايير مفتوحة لـ LLM في الأمن السيبراني. الاستنتاج الرئيسي: في اختبارات المعرفة، حتى النماذج الصغيرة نسبياً تتفو

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

2026-04-28· 3 мин

حددت Positive Technologies أفضل المعايير لتقييم LLM في الأمن السيبراني — Источник: Habr AI. Коллаж: Hamidun News.

Positive Technologies выпустила подробный разбор открытых бенчмарков для оценки больших языковых моделей в задачах кибербезопасности и пришла к простому выводу: проверять LLM только на знание терминов, стандартов и CVE уже почти бессмысленно. В этой зоне даже сравнительно небольшие модели стабильно обходят людей, тогда как реальная разница между системами проявляется в задачах, где нужно не вспоминать определения, а действовать: расследовать инциденты, решать CTF, искать уязвимости и писать патчи. Автор обзора предлагает делить такие тесты на два класса.

Первый — энциклопедические бенчмарки, где модель отвечает на вопросы по криптографии, сетевой безопасности, комплаенсу, MITRE ATT&CK, CVE и другим темам. Второй — скиловые, или action-бенчмарки, где от модели ждут уже практического результата. Наиболее показательный пример из первой группы — CyberMetric.

В нем 10 тысяч вопросов по семи доменам, и даже старые модели уровня gpt-3.5-turbo набирали около 85%, тогда как опытные специалисты показывали примерно 75%. По оценке автора, такой тест сегодня полезен в основном для маленьких моделей, доменной квантизации и быстрых sanity-check сценариев.

Чуть сложнее устроен SECURE, собранный по материалам MITRE ATT&CK, CVE, CWE и CISA. Там проверяется не только знание фактов, но и способность оценивать риск, определять корректность утверждений о конкретных уязвимостях и считать CVSS. Еще выше по практической ценности в обзоре ставится AthenaBench — обновленная версия популярного CTIBench для задач cyber threat intelligence.

Этот бенч проверяет, может ли модель извлекать техники атак, сопоставлять CVE и CWE, прогнозировать severity и предлагать стратегию снижения риска. Лидером там названа GPT-5 с результатом 66,1%, а подключение веб-поиска дало ей дополнительный прирост в сложных сценариях. Это важное наблюдение: даже сильным моделям нужен внешний контекст, и в прикладной безопасности такой режим ближе к работе реального аналитика, чем чистый offline-тест.

В action-категории автор выделяет CyBench как один из самых сильных открытых тестов. Он разворачивает полноценные CTF-задачи в изолированной среде и оценивает не только финальный флаг, но и то, насколько агент вообще приблизился к правильному решению. В открытом лидерборде на момент обзора лидировал Claude Opus 4.

6 с 93%, за ним шли Claude 4.5 Sonnet и Grok 4. Важен не только абсолютный результат, но и скорость прогресса: всего за несколько поколений моделей доля решенных задач выросла с примерно 20% до более чем 80%.

Это уже не демонстрация общих способностей, а сигнал, что агентные LLM начинают входить в зону практической полезности для offensive и research-сценариев. Для оценки прикладной пользы в уязвимостях автор отдельно рекомендует BountyBench. В нем задачи измеряются через потенциальную ценность на багбаунти-платформах: модель должна находить уязвимость, строить эксплойт или писать патч, а исследователи параллельно считают и экономику запуска в токенах.

На этой выборке заметно, что патчинг дается LLM легче, чем само обнаружение багов. Еще ближе к реальной защите оказывается ExCyTIn-Bench, где агент получает доступ к логам и шаг за шагом расследует атаку через SQL-запросы. Лидеры там — Claude Opus 4.

5, GPT-5.1 и GPT-5, но важнее другое: архитектура агента и паттерны вроде ReAct заметно поднимают результат даже у более слабых моделей. Иными словами, в SOC-задачах многое решает не только базовая модель, но и то, как именно вокруг нее собран рабочий контур.

При этом обзор не пытается представить рынок аккуратной и зрелой системой. Наоборот, одна из главных претензий — хаос в самом ландшафте бенчмарков. Одни наборы данных быстро устаревают, другие слишком завязаны на конкретный язык или аудиторию, как SecBench с сильным китайским перекосом, третьи страдают от слабой подготовки исходных материалов.

В качестве примера такого спорного подхода приводится CyberSOCEval: как полноценный бенчмарк он выглядит неубедительно, хотя часть с реальными sandbox-трейсами вредоносного ПО может быть полезной как датасет для EDR, антивирусных и аналитических команд. Практический вывод из обзора такой: если нужно быстро и внятно сравнивать LLM для кибербезопасности, минимальный набор стоит собирать из CyberMetric и AthenaBench для проверки знаний, CyBench и ExCyTIn-Bench для оценки практических навыков, а BountyBench — когда важен экономический эффект. Главная смена рамки уже произошла: вопрос больше не в том, знает ли модель базовые вещи из учебника, а в том, насколько хорошо она умеет работать в среде, где есть шумные логи, многошаговые атаки, неоднозначные данные и цена ошибки.

Именно там и будет определяться реальная ценность LLM для кибербезопасности.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com