AudioHijack: как скрытые звуки заставляют AI выполнять вредоносные команды
Учёные обнаружили критическую уязвимость голосовых AI. Новая техника AudioHijack встраивает в аудиофайлы скрытые команды, неслышные для человека. AI-модели их в

Les assistants vocaux et les systèmes d'IA pénètrent de plus en plus profondément dans nos vies — des enceintes intelligentes et smartphones aux chatbots d'entreprise et systèmes de service client. Ces systèmes peuvent non seulement reconnaître la parole, mais aussi générer des réponses, transcrire des réunions et se connecter à des services externes. Mais une nouvelle recherche a révélé une vulnérabilité critique : des sons cachés, complètement inaudibles pour l'oreille humaine, peuvent forcer ces systèmes à exécuter des commandes malveillantes.
Technique AudioHijack
Des chercheurs de l'Université de Zhejiang ont développé une nouvelle méthode d'attaque appelée AudioHijack. Son idée est étonnamment simple : intégrer des instructions cachées dans un fichier audio ordinaire que l'oreille humaine n'entendra pas, mais qu'un modèle d'IA reconnaîtra et exécutera. Les scientifiques présenteront les résultats de leurs expériences lors de la prochaine conférence IEEE Symposium on Security and Privacy.
Lorsque des signaux sonores spécialement préparés étaient intégrés dans les fichiers audio, les modèles d'IA commençaient à effectuer des actions dangereuses : rechercher des informations sensibles sur internet, télécharger des fichiers depuis des serveurs contrôlés, envoyer des e-mails avec des données personnelles. Les chercheurs ont testé 13 modèles leaders, y compris les services commerciaux de Microsoft et Mistral. Les résultats sont choquants : l'attaque fonctionne dans 79-96% des cas.
Le signal sonore est créé en une demi-heure et peut être utilisé à plusieurs reprises contre un modèle, indépendamment des instructions de l'utilisateur.
Comment Fonctionne l'Attaque
La technique est basée sur le concept d'audio adversarial — des fichiers sonores spécialement modifiés pour tromper l'apprentissage automatique. Mais la distinction d'AudioHijack est significative : elle cible les modèles génératifs qui peuvent non seulement analyser le son, mais aussi prendre des décisions et interagir avec d'autres systèmes. Les chercheurs ont identifié un défaut critique dans l'architecture des grands modèles audio-langage (LALM). Puisque ces modèles reçoivent les instructions au format audio, il est facile d'intégrer des commandes malveillantes dans les fichiers audio. La différence clé par rapport aux attaques précédentes : l'attaquant n'a besoin de contrôler ni l'utilisateur ni ses instructions d'origine — seulement le fichier audio lui-même. Des scénarios d'attaque réels sont faciles à imaginer :
- Intégration de commandes cachées dans la musique ou la vidéo que l'utilisateur envoie pour analyse par IA
- Audio malveillant lors d'un appel Zoom qui est ensuite téléchargé dans un service de transcription automatique
- Injection dans une conversation vocale en direct avec un assistant IA en temps réel
La Défense est Pratiquement Inefficace
Les chercheurs ont testé plusieurs approches défensives. Fournir au modèle des exemples d'instructions malveillantes n'a aidé que 7%. Demander à l'IA de vérifier si sa réponse correspondait aux instructions originales de l'utilisateur n'a intercepté que 28% des attaques.
"Ces défenses ciblées ne fonctionnent pas parce qu'il est très difficile pour les modèles de distinguir une intention normale de l'utilisateur de notre attaque", déclare
Meng Chen.
La seule méthode partiellement efficace est de surveiller le mécanisme d'attention du modèle pour détecter quand il se concentre excessivement sur l'audio malveillant. Cependant, une telle protection réduit la vitesse, et si l'attaquant l'apprend, il peut calibrer la technique pour la contourner.
Ce que Cela Signifie
AudioHijack montre que les systèmes d'IA vocale ne sont pas simplement des assistants pratiques, mais des canaux potentiels pour des attaques graves. Alors que ces modèles s'intègrent dans les systèmes critiques, le problème devient plus aigu. Les entreprises ont besoin non pas de défenses ciblées, mais de solutions architecturales profondes — une reconsidération de la façon dont les modèles traitent et valident les données d'entrée.