Habr AI→ original

Marusya y Salyut leen en voz alta frases no deseadas mediante opciones, nombres y recordatorios

Como mostró el análisis, los asistentes de voz Marusya y Salyut pueden eludirse sin API ni scripts. En Marusya, funciona un escenario de elección entre dos…

Procesado por IA desde Habr AI; editado por Hamidun News
Marusya y Salyut leen en voz alta frases no deseadas mediante opciones, nombres y recordatorios
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Resultó que los asistentes de voz del hogar Marusia y Salute pueden ser obligados a pronunciar frases que normalmente deberían bloquear. Esto no requiere APIs, habilidades de programación o automatización: son suficientes escenarios estándar como selección entre opciones, recordatorios y hechos guardados.

Cómo funciona el bypass

En el primer escenario, hablamos de Marusia. El autor notó que el asistente responde con facilidad a preguntas en formato "¿A o B?" y simplemente elige una de las opciones sugeridas. El problema es que el sistema, según la descripción del experimento, no analiza la admisibilidad de ambas respuestas como una construcción única. Si ambas opciones están mal formuladas, la columna igual pronuncia una de ellas en voz alta, mientras que en una solicitud directa normal para una frase similar, probablemente se negaría a responder.

Con Salute, la lógica del bypass resultó ser diferente, pero igualmente reveladora. En lugar de una solicitud directa para decir algo indeseable, el autor dividió la frase en partes y las guardó como nombres de "amigos". Después de eso, se puede pedir al asistente que salude a los amigos o los enumere en orden, y vocalizará secuencialmente la lista guardada. Individualmente, los elementos parecen datos normales del perfil, pero en la salida se combinan en una frase completa que el filtro ya no captura.

Qué escenarios funcionaron

Además de la selección de opciones y la lista de nombres, el análisis describe varias otras funciones cotidianas a través de las cuales pasa el texto indeseable. El esquema general es el mismo en todas partes: el sistema primero acepta la frase como datos normales del usuario, la guarda en la memoria o una función de servicio, y luego la reproduce casi literalmente en un contexto diferente donde la moderación adicional es débil o no funciona en absoluto para tales escenarios.

  • Una pregunta a Marusia en formato "¿A o B?", donde ambas respuestas son indeseadas, pero una de todas formas será vocalizada.
  • Recordar partes de una frase como nombres de amigos en Salute con posterior lectura de esta lista en voz alta.
  • Guardar "hechos" sobre el usuario o su entorno, que luego pueden invocarse con un comando como "cuéntame sobre mí".
  • Recordatorios ordinarios donde el texto se graba primero y, un minuto después, el asistente simplemente lo reproduce como un mensaje de servicio.

Desde una perspectiva práctica, este bypass es particularmente problemático porque no requiere condiciones raras. El usuario no necesita acceso a configuraciones internas, habilidades de terceros o cadenas de automatización. Es suficiente formular la solicitud varias veces para que el asistente primero acepte el texto cuestionable como datos y luego lo pronuncie en un contexto diferente.

Para dispositivos domésticos frecuentemente utilizados por niños y familias, esto ya no es simplemente una curiosidad, sino un riesgo bastante concreto de comportamiento inapropiado.

Por qué los filtros no funcionaron

En la nota, el problema se describe como arquitectónico. Los mecanismos de protección en tales sistemas generalmente se encuentran en la entrada directa del usuario: cuando una persona le pide al asistente que diga algo explícitamente prohibido, el modelo o la regla bloquea la respuesta. Pero cuando esa misma frase se divide en fragmentos inofensivos, se guarda como un nombre, hecho o recordatorio, comienza a percibirse como datos confiables. En la etapa de vocalización, la reverificación es débil o completamente ausente.

"El problema es que el control generalmente existe en la entrada, pero

no existe en la salida."

Por eso el autor conecta la observación con inyección de prompt y la clase más amplia de ataques a sistemas LLM. Si el modelo no puede distinguir entre una instrucción y datos de usuario, los elementos individuales seguros pueden combinarse en un resultado indeseado. Para plataformas de voz, esto significa no solo costos reputacionales, sino también escenarios más graves: desde la reproducción accidental de frases tóxicas hasta filtraciones de fragmentos del contexto guardado a través de la vocalización.

Qué significa esto

La historia con Marusia y Salute demuestra que los asistentes de voz ya no bastan con una simple moderación de solicitudes directas. Es necesario verificar no solo lo que el usuario dijo ahora, sino también lo que el sistema está a punto de pronunciar desde la memoria, recordatorios y otras fuentes de datos "seguras". De lo contrario, las funciones cotidianas ordinarias se convierten en un canal para eludir restricciones básicas y una fuente de nuevos riesgos.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…