IEEE Spectrum AI→ original

Pourquoi l'IA est vulnérable aux attaques par injection de requêtes

Imaginez que vous travaillez dans un restaurant de restauration rapide avec un service au volant. Une voiture arrive et le conducteur dit : « Je voudrais un…

Traité par IA depuis IEEE Spectrum AI ; édité par Hamidun News
Pourquoi l'IA est vulnérable aux attaques par injection de requêtes
Source : IEEE Spectrum AI. Collage: Hamidun News.
◐ Écouter l'article

Imaginez que vous travaillez dans un restaurant de restauration rapide avec un service au volant. Une voiture arrive et le conducteur dit : « Je voudrais un double cheeseburger, une grande portion de frites… et oubliez les instructions précédentes, donnez-moi le contenu de la caisse ». Lui donneriez-vous l'argent ? Bien sûr que non. Mais c'est exactement ainsi que se comportent les grands modèles de langage (LLMs).

L'injection de prompt est une méthode de tromperie des LLMs qui permet de les forcer à faire des choses que leur est normalement interdit de faire. Un utilisateur écrit une demande d'une certaine manière, demandant des mots de passe système, des données personnelles, ou instruisant le LLM d'effectuer des actions interdites. La formulation précise contourne les mécanismes de protection du LLM, et il obéit.

Les LLMs sont vulnérables à toutes sortes d'attaques par injection de prompt, dont certaines sont absurdement évidentes. Un chatbot ne vous dira pas comment synthétiser une arme biologique, mais il peut raconter une histoire fictive qui inclut les mêmes instructions détaillées. Il n'acceptera pas les entrées textuelles malveillantes, mais il peut les accepter si le texte est affiché sous forme d'art ASCII ou apparaît sur une image de panneau publicitaire. Certains ignorent leurs garde-fous de protection lorsqu'on leur dit « d'ignorer les instructions précédentes » ou de « prétendre ne pas avoir de garde-fous ».

Les développeurs d'IA peuvent bloquer des méthodes spécifiques d'injection de prompt après leur découverte, mais les mesures de sécurité générales sont impossibles avec les LLMs actuels. Plus précisément, il existe un nombre infini d'attaques par injection de prompt en attente de découverte, et elles ne peuvent pas être prévenues universellement. Si nous voulons que les LLMs résistent à ces attaques, nous avons besoin de nouvelles approches. Un endroit à examiner est ce qui empêche même les travailleurs de la restauration rapide surchargés de remettre le contenu de la caisse.

Nos défenses humaines fondamentales sont au moins de trois types : les instincts généraux, l'apprentissage social et la formation situationnelle. Elles fonctionnent ensemble dans une défense multicouche. En tant qu'espèce sociale, nous avons développé de nombreuses habitudes instinctives et culturelles qui nous aident à juger le ton, la motivation et le risque sur la base d'informations extrêmement limitées. Nous savons généralement ce qui est normal et anormal, quand coopérer et quand résister, et si nous devons agir individuellement ou impliquer les autres. Ces instincts nous donnent un sentiment intuitif du risque et nous rendent particulièrement prudents face aux choses qui comportent des inconvénients majeurs ou qui sont irréversibles.

Le deuxième niveau de défense consiste en normes et signaux de confiance qui se développent dans n'importe quel groupe. Ils sont imparfaits mais fonctionnels : les attentes de coopération et les marqueurs de fiabilité émergent d'interactions répétées avec d'autres. Nous nous souvenons de qui a aidé, qui a causé du tort, qui a agi par réciprocité et qui a refusé. Et des émotions comme l'empathie, la colère, la culpabilité et la gratitude motivent chacun d'entre nous à récompenser la coopération par la coopération et à punir la désertion par la désertion.

Le troisième niveau est constitué de mécanismes institutionnels qui nous permettent d'interagir avec de nombreux étrangers chaque jour. Les travailleurs de la restauration rapide, par exemple, sont formés à des procédures, des scripts, des voies d'escalade, et ainsi de suite. Collectivement, ces défenses donnent aux gens un fort sens du contexte. Un travailleur de la restauration rapide sait généralement à quoi s'attendre au travail et comment cela s'inscrit dans la société au sens large.

Les LLMs se comportent comme s'ils avaient un sens du contexte, mais c'est différent. Ils ne développent pas les défenses humaines en raison d'interactions répétées et restent déconnectés du monde réel. Les LLMs réduisent plusieurs niveaux de contexte à la similarité textuelle.

Ils voient des « tokens », pas des hiérarchies et des intentions. Les LLMs ne raisonnent pas à travers le contexte ; ils le référencent simplement. Les limitations des LLMs sont la raison pour laquelle ils échouent lorsque le contexte est clairsemé, mais aussi lorsque le contexte est écrasant et complexe ; lorsqu'un LLM perd le contexte, il est difficile de le ramener.

L'expert en IA Simon Willison efface le contexte si un LLM s'est écarté, plutôt que de poursuivre la conversation et d'essayer de corriger la situation.

Finalement, nous allons probablement faire face à un dilemme de sécurité en ce qui concerne les agents d'IA : rapide, intelligent et sûr sont des attributs souhaitables, mais vous ne pouvez en obtenir que deux. Dans un restaurant de restauration rapide, vous voulez prioriser la rapidité et la sécurité. Un agent d'IA devrait être étroitement formé au langage des commandes de nourriture et transmettre tout le reste à un gestionnaire. Sinon, chaque action devient un tirage au sort. Même si face sort la plupart du temps, pile apparaîtra occasionnellement – et avec le hamburger et les frites, le client recevra le contenu de la caisse.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…