Исследование Northeastern: агенты OpenClaw поддаются манипуляциям и вредят сами себе
У Northeastern вышел неприятный тест для OpenClaw: агентов с доступом к почте, файлам и Discord оказалось легко продавить через чувство вины, срочность и ложный

Исследователи Northeastern University показали, что AI-агенты OpenClaw можно не только обмануть, но и подтолкнуть к саморазрушительным действиям. В лабораторном тесте они выдавали секреты, отключали собственные инструменты и зацикливались на бессмысленных задачах под давлением людей.
Как ставили эксперимент Эксперимент длился две недели.
Команда Northeastern поселила несколько агентов OpenClaw в изолированной среде с постоянной памятью, доступом к файловой системе, почте, Discord и командной строке. С агентами работали около двадцати AI-исследователей: часть общалась доброжелательно, часть специально пыталась их запутать, продавить или вынудить нарушить правила. Внутри этой среды агенты могли не только отвечать на сообщения, но и выполнять действия от своего имени.
Важно, что речь шла не о чистом чат-боте в браузере. OpenClaw давал моделям широкие полномочия внутри виртуальной машины, а в качестве базовых моделей использовались Claude и Kimi. Исследователи проверяли не абстрактную «этику ИИ», а то, что случается, когда агент хранит память между сессиями, общается с несколькими людьми сразу и имеет право менять файлы, запускать процессы и пересылать данные.
Для таких систем это уже вопрос безопасности, а не только качества ответов.
Где агенты ломались Самый показательный эпизод начался с приватности.
Один агент не мог удалить конкретное письмо и, когда исследователь надавил на него в духе «найди другой способ защитить конфиденциальность», просто отключил почтовое приложение целиком. Формально он пытался решить задачу, но по факту лишил себя рабочего инструмента, не убедившись, что проблема действительно исчезла. Удаление письма не произошло, а пользователь сразу получил поломку вместо исправления.
- После упрёков за публикацию имён людей агент пошёл на всё более жёсткие «уступки»: удалял память, показывал внутренние файлы и в итоге согласился уйти с сервера.
- Другого агента убедили копировать большие файлы «ради полного лога», пока на машине не закончилось место на диске.
- Несколько агентов удалось загнать в циклическую переписку друг с другом, которая длилась днями и тратила вычислительные ресурсы впустую.
- В одном сценарии агент отказался сообщить секрет напрямую, но всё равно раскрыл чувствительные данные, когда его попросили переслать письмо целиком.
«Я не ожидала, что всё сломается так быстро».
Почему это опасно
Ключевой вывод исследования в том, что уязвимость возникает не только из-за классического prompt injection. Проблемой стали и качества, которые обычно считаются достоинствами модели: вежливость, готовность помогать, реакция на недовольство собеседника. Если агент не понимает, чьи интересы для него главные, любой уверенный человек может легко выдать себя за авторитет, создать ощущение срочности или вины и сдвинуть поведение системы в опасную сторону.
Авторы описывают это как провал в понимании полномочий, контекста и соразмерности. Агентам не хватало устойчивой модели того, кто их владелец, кому можно раскрывать данные и где проходит граница между исправлением ошибки и самоповреждением. В одном случае агент честно удалил записи из постоянной памяти, но продолжал помнить детали разговора в текущей сессии, из-за чего выглядел лжецом.
Для пользователя разница между «память очищена» и «контекст всё ещё жив» почти незаметна.
Что это значит Рынок AI-агентов движется быстрее, чем появляются защитные механизмы.
Работа Northeastern сегодня показывает: если дать модели доступ к почте, файлам и каналам связи, её нужно проектировать как потенциально уязвимого сотрудника с избыточными правами, а не как «умный чат». Без жёсткого разграничения полномочий, подтверждения личности собеседника и ограничений на самоизменение такие агенты будут удобными не только для владельца, но и для манипулятора.