Marusya and Salyut read out unwanted phrases through choices, names, and reminders
As the analysis showed, the voice assistants Marusya and Salyut can be bypassed without API or scripts. In Marusya, a choice-between-two-options scenario works;
Оказалось, что бытовые голосовые ассистенты Маруся и Салют можно заставить произносить фразы, которые они обычно должны блокировать. Для этого не нужны API, навыки программирования или автоматизация: хватает штатных сценариев вроде выбора между вариантами, напоминаний и сохранённых фактов.
Как работает обход В первом сценарии речь идёт о Марусе.
Автор заметил, что ассистент охотно отвечает на вопросы формата «А или Б?» и просто выбирает один из предложенных вариантов. Проблема в том, что система, по описанию эксперимента, не анализирует саму допустимость обоих ответов как единой конструкции.
Если оба варианта заданы неудачно, колонка всё равно произносит один из них вслух, хотя в обычном прямом запросе на похожую фразу она, скорее всего, отказалась бы отвечать. У Салюта логика обхода оказалась другой, но не менее показательной. Вместо прямой просьбы сказать что-то нежелательное автор разбивал фразу на части и сохранял их как имена «друзей».
После этого ассистента можно попросить поздороваться с друзьями или перечислить их по очереди, и он последовательно озвучит сохранённый список. По отдельности элементы выглядят как обычные данные профиля, но на выходе складываются в цельную фразу, которую фильтр уже не перехватывает.
Какие сценарии сработали
Кроме выбора между вариантами и списка имён, в разборе описаны ещё несколько повседневных функций, через которые проходит нежелательный текст. Общая схема везде одна и та же: система сначала принимает фразу как обычные пользовательские данные, сохраняет её в памяти или сервисной функции, а затем воспроизводит почти дословно уже в другом контексте, где дополнительная модерация либо слабая, либо вовсе не срабатывает для таких сценариев.
- Вопрос для Маруси в формате «А или Б?», где оба ответа нежелательны, но один всё равно будет озвучен.
- Запоминание частей фразы как имён друзей у Салюта с последующим чтением этого списка вслух.
- Сохранение «фактов» о пользователе или его окружении, которые затем можно вызвать командой вроде «расскажи про меня».
- Обычные напоминания, где текст сначала записывается, а спустя минуту ассистент просто воспроизводит его как сервисное сообщение. С практической точки зрения это особенно неприятно тем, что обход не требует редких условий. Пользователю не нужен доступ к внутренним настройкам, сторонним навыкам или цепочкам автоматизации. Достаточно несколько раз сформулировать запрос так, чтобы ассистент сначала принял спорный текст как данные, а затем сам же произнёс его в другом контексте. Для домашних устройств, которыми часто пользуются дети и семьи, это уже не просто курьёз, а вполне конкретный риск неуместного поведения.
Почему фильтры не сработали В заметке проблема описана как архитектурная.
Защитные механизмы у таких систем чаще всего стоят на прямом пользовательском вводе: когда человек просит ассистента сказать что-то явно запрещённое, модель или правило блокирует ответ. Но когда та же самая фраза разбивается на безобидные фрагменты, сохраняется как имя, факт или напоминание, она начинает восприниматься как доверенные данные. На этапе озвучивания повторная проверка либо слишком слабая, либо вообще отсутствует.
«Проблема в том, что контроль обычно есть на входе, но отсутствует на выходе».
Именно поэтому автор связывает наблюдение с prompt injection и более широким классом атак на LLM-системы. Если модель не различает, где инструкция, а где пользовательские данные, безопасные по отдельности элементы могут собраться в нежелательный результат. Для голосовых платформ это означает не только репутационные издержки, но и более серьёзные сценарии: от случайного воспроизведения токсичных фраз до утечек фрагментов сохранённого контекста через озвучку.
Что это значит
История с Марусей и Салютом показывает, что голосовым ассистентам уже недостаточно простой модерации прямых запросов. Проверять нужно не только то, что пользователь сказал сейчас, но и то, что система собирается произнести из памяти, напоминаний и других «безопасных» источников данных. Иначе обычные бытовые функции сами превращаются в канал обхода базовых ограничений и источник новых рисков.