Защита LLM от атак на семантике: почему традиционный firewall неэффективен
Защита LLM-систем требует нового подхода. Традиционные firewall-ы работают на уровне протокола, а AI/LLM Firewall — на уровне семантики, понимая контекст и знач

LLM-системы представляют собой принципиально новую атакуемую поверхность. Защита теперь работает не на уровне протоколов (HTTP-инъекции, XSS), а на уровне семантики — понимания смысла и контекста каждого запроса к модели.
Традиционный firewall уже не спасает
Классический WAF (Web Application Firewall) создан для защиты от эксплуатации веб-протоколов: он отлавливает известные паттерны вроде SQL-инъекций, XSS, path traversal. Его задача простая — заблокировать синтаксически вредоносный запрос на уровне HTTP. Но LLM-системы работают по другим правилам. Вредоносный запрос может быть синтаксически идеален и пройти любой традиционный экран, потому что его опасность — не в форме, а в смысле. Нейросеть поймет, что её просят сделать что-то вредное, и выполнит. Cloud Security Alliance в отчёте на саммите RSAC 2025 прямо подчеркнула: «защита промптов — это лишь часть проблемы, а не её решение». Полагаться только на валидацию входных данных уже неэффективно.
Масштаб угроз: фреймворк MITRE ATLAS
Фреймворк MITRE ATLAS каталогизирует более 80 техник атак, направленных именно против ИИ-систем. Это не просто адаптация классических кибератак — это совершенно новый класс угроз: Prompt injection — подмена инструкций для модели внутри запроса Data poisoning — загрязнение обучающих данных для смещения поведения модели Model extraction — кража архитектуры, весов и логики работы модели Supply chain attacks — компрометация зависимостей и данных на этапе разработки * Adversarial inputs — враждебные примеры, специально разработанные для сбивания нейросети Каждая из этих техник требует специального подхода к защите. Игнорировать такой объём специализированных угроз — значит рисковать не просто пользовательскими данными, но и целостностью самой модели.
Как работает AI/LLM
Firewall AI/LLM Firewall работает на совершенно другом уровне, чем традиционные экраны. Вместо поиска известных вредоносных паттернов в синтаксисе он анализирует контекст и семантику каждого запроса. Система понимает, что именно пользователь просит модель сделать, и может блокировать опасные инструкции в реальном времени.
«Защита промптов — это лишь часть проблемы, а не её решение» —
Cloud Security Alliance, RSAC 2025 Такое решение встраивается в существующую инфраструктуру SOC (Security Operations Center) без полного переделки. Решение позволяет реализовать около 70% необходимых мер защиты, работая промежуточным слоем между пользователем и LLM-моделью. Это критично — полная переработка систем защиты невозможна, поэтому AI/LLM Firewall работает как дополнительный уровень контроля.
Что это значит LLM-системы больше не могут опираться только на традиционную безопасность.
Специализированные фильтры нового поколения становятся обязательной частью инфраструктуры. Компаниям, которые используют LLM в production, необходимо переосмыслить весь подход к защите — от защиты протоколов и синтаксиса к защите семантики и смысла.