Habr AI→ оригинал

أظهرت Suricata كيفية تدريب أنظمة كشف الهجمات المعتمدة على ML على حركة مرور حقيقية

اختبر مؤلفو الدراسة، بالاعتماد على Suricata وأداتهم الخاصة session_analyzer، ما إذا كان بالإمكان تدريب أنظمة IDS المعتمدة على ML ليس على هجمات مخبرية بل على حرك

◐ Слушать статью

Сигнатурная IDS Suricata может быть не только инструментом детекта, но и источником разметки для ML-модели обнаружения атак. Авторы исследования проверили эту идею на реальном корпоративном трафике и получили рабочий, хотя и не универсальный, сценарий обучения ML IDS без постановки искусственных атак на защищаемый ресурс.

Как ставили эксперимент Эксперимент развернули на стенде компании Ideco.

Один сервер получал боевой трафик компании и прогонял его через NGFW с модифицированной IDS Suricata и актуальными сигнатурами. Второй сервер анализировал тот же поток собственной утилитой session_analyzer, которая собирала признаки для каждой сетевой сессии. Авторы сознательно не строили лабораторную инфраструктуру с синтетическими атаками: задача была в том, чтобы понять, можно ли обучать модель прямо на уже работающей сети и на реальных событиях безопасности.

Сбор шел две недели — с 26 июня по 10 июля 2025 года. После фильтрации остались 55 548 971 сетевое соединение. Из 118 исходных признаков для обучения взяли адресную информацию и 10 наиболее информативных характеристик сессии, а затем сопоставили их с срабатываниями Suricata и присвоили метки Benign или Attack.

На выходе получился бинарный датасет, где роль «учителя» для модели играли не люди и не ручная разметка, а уже настроенная сигнатурная IDS.

Где ломается схема Главная проблема оказалась не в выборе алгоритма, а в качестве разметки.

Время события в Suricata не совпадает со временем начала сетевого соединения: срабатывание может относиться к пакету, который приходит через секунды после старта сессии, а для медленных атак разрыв превышал 20 секунд. Дополнительно один и тот же поток мог наблюдаться до и после шлюза, то есть одной атаке соответствовали сразу два соединения с разной адресной информацией. Если такие случаи не учесть, в датасет попадает шум, а модель начинает учиться на противоречивых примерах.

не все SID Suricata годятся для разметки, особенно правила, завязанные только на IP, SNI или конкретные URL; для части атак, включая разные виды сканирования портов, текущего набора признаков просто недостаточно; обучающая выборка должна покрывать хотя бы неделю реального трафика, включая рабочие и выходные дни; модель нужно переобучать при появлении новых типов атак, изменении сигнатур, сетевой инфраструктуры или профиля работы сотрудников. Отсюда появился и ключевой вывод про «плохие» векторы: если у двух соединений признаки совпадают или почти совпадают, а метки разные, качество классификации резко падает. Даже сильный градиентный бустинг вроде CatBoost в таком случае не спасает.

Часть событий Suricata помогает модели, а часть только добавляет ложные срабатывания. Некоторые сигнатуры в итоге логичнее исключать из разметки и возвращать соответствующие соединения в класс Benign, иначе ML IDS наследует ошибки базового сигнатурного слоя.

Что показал результат

Несмотря на все ограничения, гипотеза в целом подтвердилась: ML IDS сетевого уровня можно строить на уже эксплуатируемой сети, используя события Suricata как источник меток. Это удобно тем, что тонко настроенные сигнатурные правила заранее отсекают значительную долю мусорных алертов, на которые операторы все равно не реагируют. В таком режиме Suricata становится не только системой детекта, но и фильтром качества для обучающего набора.

Лучший практический результат в исследовании — F1-мера до 0,98 при корректной разметке датасета. Но авторы честно фиксируют и пределы подхода. Во-первых, они решали задачу бинарной классификации, а для реального NGFW этого мало: бизнесу важно понимать, какой именно класс атаки обнаружен и как на него реагировать.

Во-вторых, эксперимент проводили на пользовательской сети компании, а не на конкретном защищаемом сервисе вроде веб-сервера, поэтому перенос выводов на другие контуры требует отдельной проверки.

Что это значит

Исследование показывает практичный путь от сигнатурной защиты к ML-модели без дорогостоящего полигона и ручной разметки миллионов сессий. Но оно же напоминает о главном: в кибербезопасности качество ML начинается не с выбора алгоритма, а с того, насколько аккуратно ты связываешь реальные алерты, сетевые признаки и контекст инфраструктуры.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…