OpenAI Blog→ оригинал

OpenAI запускает Safety Bug Bounty против уязвимостей агентных ИИ-систем

OpenAI запустила Safety Bug Bounty — программу вознаграждений для исследователей безопасности, которые найдут уязвимости, специфичные для ИИ-систем. Под прицел

OpenAI запускает Safety Bug Bounty против уязвимостей агентных ИИ-систем
Источник: OpenAI Blog. Коллаж: Hamidun News.

OpenAI анонсировала программу Safety Bug Bounty — специализированный трек в своей существующей системе вознаграждений за уязвимости, ориентированный не на классические баги в программном обеспечении, а на риски, уникальные для ИИ-систем. Исследователи безопасности, которые обнаружат и задокументируют уязвимости в продуктах компании, смогут получить денежное вознаграждение через платформу Bugcrowd. Принципиальное отличие Safety Bug Bounty от стандартных программ — предмет поиска.

Традиционные bug bounty ищут SQL-инъекции, уязвимости аутентификации или проблемы в серверной инфраструктуре. Новая программа сосредоточена на трёх векторах, специфичных для языковых моделей: злоупотреблении возможностями ИИ (обход фильтров безопасности, использование модели для запрещённых задач), инъекциях промптов и утечках данных из контекста разговора или системных инструкций. Особое внимание привлекает фокус на агентных уязвимостях.

В последние полтора года OpenAI активно разворачивает агентные продукты — Operator, Deep Research, Responses API с инструментами для браузера и работы с файлами. Агент, который самостоятельно посещает сайты, выполняет поиск и запускает код, имеет принципиально большую поверхность атаки, чем чат-бот. Специально подготовленная веб-страница или документ может содержать скрытые инструкции, которые модель воспримет как команды от пользователя — и выполнит их.

Этот класс атак называется indirect prompt injection. Суть: злоумышленник не обращается к модели напрямую, а встраивает вредоносные инструкции в контент, который агент обрабатывает как данные. Например, посещение заражённого сайта может заставить агента отправить письмо от имени пользователя, скопировать конфиденциальные данные или изменить настройки подключённых сервисов.

Атака работает именно потому, что многие модели не разграничивают доверенные системные инструкции и недоверенный внешний контент. Проблема утечки данных в контексте LLM тоже требует специфических методов тестирования. Речь не о взломе серверов, а о ситуациях, когда модель непреднамеренно раскрывает содержимое системного промпта, воспроизводит данные других пользователей через механизмы памяти или позволяет реконструировать фрагменты обучающей выборки через целенаправленные запросы.

Традиционные инструменты пентестинга для таких задач не приспособлены — нужна специализированная экспертиза. Создавая отдельный трек с собственными правилами оценки и выплат, OpenAI де-факто признаёт, что ИИ-специфические угрозы требуют отдельной методологии. Это согласуется с позицией ведущих лабораторий: Anthropic регулярно проводит red-teaming до выпуска новых моделей, Google DeepMind публикует исследования по безопасности агентных систем, а регуляторы в США и ЕС начинают требовать доказательств систематических проверок.

Практическое значение программы — в масштабировании. Внутренние команды безопасности ограничены численно и склонны к слепым пятнам. Внешнее сообщество исследователей способно обнаружить векторы атак, которые пропустили инсайдеры, особенно при нестандартных входных данных.

Для пользователей агентных продуктов это означает более систематическое тестирование систем, которым они доверяют доступ к своим браузерам, файлам и аккаунтам.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…