Habr AI→ оригинал

Защита LLM от атак на семантике: почему традиционный firewall неэффективен

Защита LLM-систем требует нового подхода. Традиционные firewall-ы работают на уровне протокола, а AI/LLM Firewall — на уровне семантики, понимая контекст и знач

Защита LLM от атак на семантике: почему традиционный firewall неэффективен
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

LLM-системы представляют собой принципиально новую атакуемую поверхность. Защита теперь работает не на уровне протоколов (HTTP-инъекции, XSS), а на уровне семантики — понимания смысла и контекста каждого запроса к модели.

Традиционный firewall уже не спасает

Классический WAF (Web Application Firewall) создан для защиты от эксплуатации веб-протоколов: он отлавливает известные паттерны вроде SQL-инъекций, XSS, path traversal. Его задача простая — заблокировать синтаксически вредоносный запрос на уровне HTTP. Но LLM-системы работают по другим правилам. Вредоносный запрос может быть синтаксически идеален и пройти любой традиционный экран, потому что его опасность — не в форме, а в смысле. Нейросеть поймет, что её просят сделать что-то вредное, и выполнит. Cloud Security Alliance в отчёте на саммите RSAC 2025 прямо подчеркнула: «защита промптов — это лишь часть проблемы, а не её решение». Полагаться только на валидацию входных данных уже неэффективно.

Масштаб угроз: фреймворк MITRE ATLAS

Фреймворк MITRE ATLAS каталогизирует более 80 техник атак, направленных именно против ИИ-систем. Это не просто адаптация классических кибератак — это совершенно новый класс угроз: Prompt injection — подмена инструкций для модели внутри запроса Data poisoning — загрязнение обучающих данных для смещения поведения модели Model extraction — кража архитектуры, весов и логики работы модели Supply chain attacks — компрометация зависимостей и данных на этапе разработки * Adversarial inputs — враждебные примеры, специально разработанные для сбивания нейросети Каждая из этих техник требует специального подхода к защите. Игнорировать такой объём специализированных угроз — значит рисковать не просто пользовательскими данными, но и целостностью самой модели.

Как работает AI/LLM

Firewall AI/LLM Firewall работает на совершенно другом уровне, чем традиционные экраны. Вместо поиска известных вредоносных паттернов в синтаксисе он анализирует контекст и семантику каждого запроса. Система понимает, что именно пользователь просит модель сделать, и может блокировать опасные инструкции в реальном времени.

«Защита промптов — это лишь часть проблемы, а не её решение» —

Cloud Security Alliance, RSAC 2025 Такое решение встраивается в существующую инфраструктуру SOC (Security Operations Center) без полного переделки. Решение позволяет реализовать около 70% необходимых мер защиты, работая промежуточным слоем между пользователем и LLM-моделью. Это критично — полная переработка систем защиты невозможна, поэтому AI/LLM Firewall работает как дополнительный уровень контроля.

Что это значит LLM-системы больше не могут опираться только на традиционную безопасность.

Специализированные фильтры нового поколения становятся обязательной частью инфраструктуры. Компаниям, которые используют LLM в production, необходимо переосмыслить весь подход к защите — от защиты протоколов и синтаксиса к защите семантики и смысла.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…