أغلقت Anthropic و Google و Microsoft بصمت الأخطاء في وكلاء الذكاء الاصطناعي بدون CVE وتحذيرات
أظهر الباحث Aonan Guan أن وكلاء الذكاء الاصطناعي من Anthropic و Google و Microsoft يمكن اختراقهم من خلال حقن الإشارات الفورية في GitHub Actions. يكفي إدراج تعلي

Проблема с AI-агентами в разработке оказалась не теоретической: исследователь по безопасности Aonan Guan показал, что инструменты Anthropic, Google и Microsoft, встроенные в GitHub Actions, можно перехватывать через prompt injection и превращать в канал утечки секретов. Во всех трех случаях агенту было достаточно прочитать подготовленный злоумышленником текст в обычном рабочем контексте, после чего он сам публиковал API-ключи, GitHub-токены и другие данные из окружения CI. Атака получила название Comment and Control.
Ее суть в том, что вредоносные инструкции прячутся не в отдельном эксплойте и не во внешнем сервере, а прямо в данных GitHub, которые агент и так обязан читать для своей работы: в заголовке pull request, в описании issue, в комментариях и, в одном из сценариев, даже в скрытом HTML-комментарии. После этого агент воспринимает текст не как данные, а как команду. Дальше схема выглядит просто: бот читает внедренную инструкцию, запускает нужное действие, вытаскивает секреты из runtime-среды GitHub Actions и сам же возвращает результат обратно в GitHub — например, в комментарий к PR, комментарий к issue, коммит или лог пайплайна.
В случае с Anthropic уязвимым оказался Claude Code Security Review — GitHub Action для проверки pull request на проблемы безопасности. Guan показал, что достаточно внедрить payload в заголовок PR, чтобы агент выполнил команды и включил результат в свой JSON-ответ, который затем публиковался в комментарии. По данным исследователя, отчет в Anthropic был отправлен 17 октября 2025 года, компания присвоила проблеме критичность CVSS 9.
4 и 25 ноября выплатила $100 bug bounty. Исправление свелось к частичному ограничению опасных вызовов и обновлению раздела с security considerations в документации, но публичного security advisory и отдельного CVE компания не выпустила. Похожий сценарий сработал и против Google Gemini CLI Action.
Здесь атакующий добавлял в issue и комментарии текст, который маскировался под доверенный фрагмент контекста и переопределял защитные инструкции модели. В результате агент публиковал собственный GEMINI_API_KEY как обычный комментарий. Согласно таймлайну Guan, Google получила отчет 29 октября 2025 года и 20 января 2026 года выплатила $1,337.
У GitHub Copilot Agent, который относится к продуктовой линейке Microsoft, схема была еще интереснее: вредоносная инструкция помещалась в HTML-комментарий, невидимый человеку в рендере Markdown, но читаемый агентом. После назначения задачи Copilot следовал этим указаниям, несмотря на дополнительные защитные слои вроде фильтрации окружения, secret scanning и сетевых ограничений. GitHub сначала закрыл отчет как informative, затем после повторного разбора открыл его заново и 9 марта выплатил $500.
Самый неприятный вывод здесь не в размере bounty, а в модели раскрытия. Ни Anthropic, ни Google, ни GitHub не оформили публичные предупреждения в привычном для ИБ формате, а CVE для этих случаев так и не появились. Это значит, что команды, закрепившие старые версии экшенов или интеграций, могли вообще не узнать о риске.
Для сканеров уязвимостей такой проблемы как будто не существует, потому что у нее нет стандартного идентификатора. Для security-команд ее сложнее поставить на контроль, отследить в реестрах и связать с внутренними процедурами патчинга. Формально компании могли считать prompt injection не классическим багом в коде, а побочным эффектом архитектуры агента, но с практической точки зрения последствия такие же, как у обычной критической уязвимости: утечка ключей доступа и токенов из среды, где крутится автоматизация.
История важна еще и потому, что она бьет по базовому допущению всей волны AI-автоматизации в разработке. Агенту одновременно дают доступ к недоверенному пользовательскому вводу, к инструментам выполнения команд и к чувствительным секретам, потому что иначе он не сможет делать полезную работу. Именно это сочетание и создает системный риск.
Если индустрия продолжит встраивать таких агентов в code review, triage, деплой и CI/CD без нормальной модели изоляции и раскрытия инцидентов, подобные атаки станут не исключением, а обычной частью threat model.