Marusya e Salyut leem frases indesejadas em voz alta por meio de escolhas, nomes e lembretes
Como mostrou a análise, os assistentes de voz Marusya e Salyut podem ser contornados sem API nem scripts. Em Marusya, funciona um cenário de escolha entre…
Processado por IA de Habr AI; editado por Hamidun News
Descobriu-se que os assistentes de voz residenciais Marusia e Salute podem ser forçados a pronunciar frases que normalmente deveriam bloquear. Isso não requer APIs, habilidades de programação ou automação: são suficientes cenários padrão como seleção entre opções, lembretes e fatos salvos.
Como o contorno funciona
No primeiro cenário, falamos sobre Marusia. O autor notou que o assistente responde prontamente a perguntas no formato "A ou B?" e simplesmente escolhe uma das opções sugeridas. O problema é que o sistema, segundo a descrição do experimento, não analisa a admissibilidade de ambas as respostas como uma construção única. Se ambas as opções forem mal formuladas, a coluna ainda assim pronuncia uma delas em voz alta, enquanto em uma solicitação direta normal para uma frase similar, provavelmente se recusaria a responder.
Com Salute, a lógica do contorno foi diferente, mas igualmente reveladora. Em vez de uma solicitação direta para dizer algo indesejado, o autor dividiu a frase em partes e as salvou como nomes de "amigos". Depois disso, é possível pedir ao assistente para cumprimentar os amigos ou listá-los em sequência, e ele verbalizará sequencialmente a lista salva. Individualmente, os elementos parecem dados normais do perfil, mas na saída se combinam em uma frase completa que o filtro não captura mais.
Quais cenários funcionaram
Além da seleção entre opções e lista de nomes, a análise descreve várias outras funções cotidianas pelas quais o texto indesejado passa. O esquema geral é o mesmo em todos os lugares: o sistema primeiro aceita a frase como dados normais do usuário, a salva na memória ou em uma função de serviço, e depois a reproduz quase literalmente em um contexto diferente onde a moderação adicional é fraca ou não funciona para tais cenários.
- Uma pergunta para Marusia no formato "A ou B?", onde ambas as respostas são indesejadas, mas uma ainda será verbalizada.
- Memorização de partes da frase como nomes de amigos em Salute com leitura subsequente dessa lista em voz alta.
- Salvamento de "fatos" sobre o usuário ou seu entorno, que podem ser invocados com um comando como "conte-me sobre mim".
- Lembretes comuns onde o texto é primeiro registrado e, um minuto depois, o assistente simplesmente o reproduz como uma mensagem de serviço.
De um ponto de vista prático, esse contorno é particularmente problemático porque não requer condições raras. O usuário não precisa de acesso às configurações internas, habilidades de terceiros ou cadeias de automação. Basta formular a solicitação várias vezes para que o assistente primeiro aceite o texto questionável como dados e depois o pronuncie num contexto diferente.
Para dispositivos residenciais frequentemente usados por crianças e famílias, isso deixa de ser apenas uma curiosidade para se tornar um risco concreto de comportamento inapropriado.
Por que os filtros não funcionaram
Na nota, o problema é descrito como arquitetônico. Os mecanismos de proteção em tais sistemas geralmente estão na entrada direta do usuário: quando uma pessoa pede ao assistente para dizer algo explicitamente proibido, o modelo ou regra bloqueia a resposta. Mas quando essa mesma frase é dividida em fragmentos inofensivos, salva como um nome, fato ou lembrete, passa a ser percebida como dados confiáveis. No estágio de verbalização, a reverificação é fraca ou completamente ausente.
"O problema é que o controle geralmente existe na entrada, mas não
existe na saída."
É por isso que o autor conecta a observação a injeção de prompt e à classe mais ampla de ataques em sistemas LLM. Se o modelo não conseguir distinguir entre uma instrução e dados do usuário, elementos individuais seguros podem se combinar em um resultado indesejado. Para plataformas de voz, isso significa não apenas custos reputacionais, mas também cenários mais sérios: desde a reprodução acidental de frases tóxicas até vazamentos de fragmentos do contexto salvo através da verbalização.
O que isso significa
A história com Marusia e Salute demonstra que assistentes de voz não mais bastam com simples moderação de solicitações diretas. É necessário verificar não apenas o que o usuário disse agora, mas também o que o sistema está prestes a pronunciar da memória, lembretes e outras fontes de dados "seguras". Caso contrário, funções domésticas comuns se tornam um canal para contornar restrições básicas e uma fonte de novos riscos.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.