Habr AI→ original

Marusya e Salyut leem frases indesejadas em voz alta por meio de escolhas, nomes e lembretes

Como mostrou a análise, os assistentes de voz Marusya e Salyut podem ser contornados sem API nem scripts. Em Marusya, funciona um cenário de escolha entre…

Processado por IA de Habr AI; editado por Hamidun News
Marusya e Salyut leem frases indesejadas em voz alta por meio de escolhas, nomes e lembretes
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Descobriu-se que os assistentes de voz residenciais Marusia e Salute podem ser forçados a pronunciar frases que normalmente deveriam bloquear. Isso não requer APIs, habilidades de programação ou automação: são suficientes cenários padrão como seleção entre opções, lembretes e fatos salvos.

Como o contorno funciona

No primeiro cenário, falamos sobre Marusia. O autor notou que o assistente responde prontamente a perguntas no formato "A ou B?" e simplesmente escolhe uma das opções sugeridas. O problema é que o sistema, segundo a descrição do experimento, não analisa a admissibilidade de ambas as respostas como uma construção única. Se ambas as opções forem mal formuladas, a coluna ainda assim pronuncia uma delas em voz alta, enquanto em uma solicitação direta normal para uma frase similar, provavelmente se recusaria a responder.

Com Salute, a lógica do contorno foi diferente, mas igualmente reveladora. Em vez de uma solicitação direta para dizer algo indesejado, o autor dividiu a frase em partes e as salvou como nomes de "amigos". Depois disso, é possível pedir ao assistente para cumprimentar os amigos ou listá-los em sequência, e ele verbalizará sequencialmente a lista salva. Individualmente, os elementos parecem dados normais do perfil, mas na saída se combinam em uma frase completa que o filtro não captura mais.

Quais cenários funcionaram

Além da seleção entre opções e lista de nomes, a análise descreve várias outras funções cotidianas pelas quais o texto indesejado passa. O esquema geral é o mesmo em todos os lugares: o sistema primeiro aceita a frase como dados normais do usuário, a salva na memória ou em uma função de serviço, e depois a reproduz quase literalmente em um contexto diferente onde a moderação adicional é fraca ou não funciona para tais cenários.

  • Uma pergunta para Marusia no formato "A ou B?", onde ambas as respostas são indesejadas, mas uma ainda será verbalizada.
  • Memorização de partes da frase como nomes de amigos em Salute com leitura subsequente dessa lista em voz alta.
  • Salvamento de "fatos" sobre o usuário ou seu entorno, que podem ser invocados com um comando como "conte-me sobre mim".
  • Lembretes comuns onde o texto é primeiro registrado e, um minuto depois, o assistente simplesmente o reproduz como uma mensagem de serviço.

De um ponto de vista prático, esse contorno é particularmente problemático porque não requer condições raras. O usuário não precisa de acesso às configurações internas, habilidades de terceiros ou cadeias de automação. Basta formular a solicitação várias vezes para que o assistente primeiro aceite o texto questionável como dados e depois o pronuncie num contexto diferente.

Para dispositivos residenciais frequentemente usados por crianças e famílias, isso deixa de ser apenas uma curiosidade para se tornar um risco concreto de comportamento inapropriado.

Por que os filtros não funcionaram

Na nota, o problema é descrito como arquitetônico. Os mecanismos de proteção em tais sistemas geralmente estão na entrada direta do usuário: quando uma pessoa pede ao assistente para dizer algo explicitamente proibido, o modelo ou regra bloqueia a resposta. Mas quando essa mesma frase é dividida em fragmentos inofensivos, salva como um nome, fato ou lembrete, passa a ser percebida como dados confiáveis. No estágio de verbalização, a reverificação é fraca ou completamente ausente.

"O problema é que o controle geralmente existe na entrada, mas não

existe na saída."

É por isso que o autor conecta a observação a injeção de prompt e à classe mais ampla de ataques em sistemas LLM. Se o modelo não conseguir distinguir entre uma instrução e dados do usuário, elementos individuais seguros podem se combinar em um resultado indesejado. Para plataformas de voz, isso significa não apenas custos reputacionais, mas também cenários mais sérios: desde a reprodução acidental de frases tóxicas até vazamentos de fragmentos do contexto salvo através da verbalização.

O que isso significa

A história com Marusia e Salute demonstra que assistentes de voz não mais bastam com simples moderação de solicitações diretas. É necessário verificar não apenas o que o usuário disse agora, mas também o que o sistema está prestes a pronunciar da memória, lembretes e outras fontes de dados "seguras". Caso contrário, funções domésticas comuns se tornam um canal para contornar restrições básicas e uma fonte de novos riscos.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…