Как хакеры превращают ИИ-агентов в оружие против пользователей
Новое исследование на Хабре систематизирует угрозы кибербезопасности, связанные с современными ИИ-системами. Ключевой вывод: переход от простых чат-ботов к авто

Каждый раз, когда индустрия искусственного интеллекта делает шаг вперёд, злоумышленники делают свой. Новый аналитический материал, опубликованный на Хабре, прослеживает эволюцию ИИ-систем от первых языковых моделей до мультимодальных агентов и показывает, как на каждом этапе этого пути появлялись принципиально новые угрозы кибербезопасности. Главный тезис авторов тревожен, но предсказуем: чем больше самостоятельности получает ИИ, тем опаснее становятся его уязвимости.
История начиналась относительно безобидно. Когда большие языковые модели только появились, основной проблемой считались галлюцинации и утечки данных из обучающих выборок. Пользователи волновались, что чат-бот выдаст чужую персональную информацию или сгенерирует вредоносный код. Эти риски никуда не делись, но на их фоне выросло нечто куда более серьёзное. Современные ИИ-системы перестали быть простыми генераторами текста. Они обрабатывают изображения и речь, взаимодействуют с внешними сервисами, принимают решения и выполняют цепочки действий без участия человека. Именно эта автономность превратила их в привлекательную мишень для кибератак нового поколения.
Авторы исследования приводят конкретные примеры, которые заставляют задуматься. ИИ-агент Deep Research от OpenAI, предназначенный для глубокого анализа информации в интернете, оказался уязвим для атак, позволяющих незаметно получить доступ к электронной почте пользователя. Механизм атаки эксплуатирует саму природу агента: он умеет переходить по ссылкам, обрабатывать контент веб-страниц и взаимодействовать с сервисами. Злоумышленнику достаточно подготовить специально сконструированную страницу с вредоносными инструкциями, замаскированными в контенте, и агент, обрабатывая её, может выполнить действия, выгодные атакующему, а не пользователю.
Ещё более тревожная ситуация складывается вокруг ИИ-браузеров, то есть систем, которые способны самостоятельно навигировать по интернету, заполнять формы и совершать транзакции. Исследователи демонстрируют, что такие системы подвержены уязвимостям, позволяющим выполнять произвольные действия на веб-страницах от имени пользователя. На практике это означает, что атакующий может заставить ИИ-браузер перейти по фишинговой ссылке, ввести данные на поддельном сайте или даже совершить оплату в фейковом интернет-магазине. Пользователь при этом может ничего не заподозрить, ведь он доверил рутинные задачи агенту именно для того, чтобы не контролировать каждый шаг.
Корень проблемы лежит в архитектуре трансформеров и способе, которым современные модели обрабатывают входные данные. Трансформеры не различают доверенные и недоверенные источники информации. Для модели инструкция от пользователя и текст на вредоносной веб-странице обрабатываются одним и тем же механизмом внимания. Эта особенность делает возможными так называемые prompt injection атаки, когда злоумышленник встраивает вредоносные инструкции в контент, который агент обрабатывает в ходе выполнения задачи. Модель воспринимает эти инструкции как легитимные и следует им, что фактически передаёт контроль над агентом атакующему.
Последствия для индустрии трудно переоценить. Компании массово внедряют ИИ-агентов в бизнес-процессы, предоставляя им доступ к корпоративной почте, CRM-системам, финансовым инструментам. Если агент может быть скомпрометирован через обработку внешнего контента, под угрозой оказываются не отдельные пользователи, а целые организации. При этом традиционные средства защиты, такие как антивирусы и файрволы, не рассчитаны на этот класс атак, потому что вредоносная активность исходит не от внешнего программного обеспечения, а от доверенного ИИ-инструмента, действующего в рамках своих штатных полномочий.
Разработчики ИИ-систем, разумеется, осознают эти риски. OpenAI, Google и Anthropic инвестируют в механизмы защиты: фильтрацию промптов, разграничение уровней доступа, подтверждение критических действий пользователем. Однако гонка между возможностями агентов и методами их защиты пока складывается не в пользу безопасности. Рынок требует всё более автономных и функциональных агентов, а каждая новая возможность — это потенциальный вектор атаки.
Индустрия подошла к принципиальному моменту. Прежде чем давать ИИ-агентам ключи от своей цифровой жизни, стоит убедиться, что замки надёжны. Пока этой уверенности нет ни у исследователей, ни у разработчиков, ни тем более у пользователей, которые в погоне за удобством рискуют стать жертвами атак, о существовании которых даже не подозревают.