Habr AI→ original

Un Seul Suffixe Casse N'Importe Quel LLM : Les Chercheurs Ont Trouvé Un Vecteur de Refus Universel

Les chercheurs ont découvert que différentes méthodes contournant les défenses des LLMs — GCG (ajoute des suffixes aberrants) et AutoDAN (ajoute du texte…

Traité par IA depuis Habr AI ; édité par Hamidun News
Un Seul Suffixe Casse N'Importe Quel LLM : Les Chercheurs Ont Trouvé Un Vecteur de Refus Universel
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Les chercheurs montrent : malgré la diversité apparente des attaques adversariales contre les modèles de langage, elles exploitent tous une unique faiblesse structurelle — un vecteur unifié de « direction de refus » dans l'espace des activations. Un seul suffixe bien choisi est capable de débloquer n'importe quel modèle, même si l'attaque ne l'a jamais vu auparavant.

Deux attaques, un point de vulnérabilité

Les méthodes les plus connues pour contourner les défenses des LLM — GCG (Greedy Coordinate Gradient) et AutoDAN — fonctionnent selon des principes fondamentalement différents. GCG ajoute un suffixe de tokens aléatoirement optimisés à une requête malveillante : extérieurement, cela ressemble à du charabia, mais la chaîne est ajustée par descente de gradient pour que le modèle se déplace vers l'exécution de la requête. AutoDAN fonctionne différemment — il génère un texte lisible et grammaticalement correct en tant que complément par recherche évolutive ou un modèle de langage auxiliaire. Bruit contre sens, chaos de tokens contre prose cohérente. Pourtant, sous le capot, les deux méthodes effectuent la même action au même endroit.

  • GCG optimise les tokens directement via le gradient de la fonction de perte
  • AutoDAN utilise la recherche évolutive ou un LLM auxiliaire pour la génération
  • Les deux ajoutent un suffixe à la requête malveillante originale
  • Les deux se transfèrent tout aussi bien aux modèles que l'attaque n'a jamais vus

Qu'est-ce que la direction de refus

Quand un modèle de langage refuse une requête malveillante, ce n'est pas le fonctionnement d'un système complexe et ramifié de filtres thématiques. Dans l'espace des activations internes du modèle, existe un unique vecteur — une « direction de refus ». Quand les représentations de la requête se projettent selon lui — le modèle refuse.

Quand les activations se déplacent dans la direction opposée — le modèle exécute la requête. Il est important de comprendre que ce n'est pas une métaphore, mais un objet mathématique concret. Les chercheurs le trouvent en utilisant une méthode de différence moyenne d'activations : ils comparent comment le modèle représente une requête « normale » et « malveillante », et la différence entre ces moyennes est la direction de refus.

Des années d'entraînement avec rétroaction de préférence humaine (RLHF) n'ont pas créé une défense multicouche. Ils ont concentré toute la « volonté de refuser » sur un unique axe géométrique de l'espace des activations. Le fait que différentes attaques indépendantes, développées par différentes équipes, aient finalement trouvé le même objet en dit long sur la nature structurelle du phénomène.

« Toute la robustesse de la sécurité repose sur un unique vecteur.

Ce n'est pas un bug dans une implémentation spécifique — c'est une propriété structurelle de la façon dont l'alignement par RLHF fonctionne. »

Pourquoi l'universalité des attaques n'est pas un hasard

Si un suffixe déplace les activations loin de la direction de refus, il fonctionne contre n'importe quel modèle avec un entraînement similaire — même si l'attaquant ne l'a jamais vu. Cela explique un phénomène observé depuis longtemps : les suffixes trouvés sur les modèles ouverts (Llama, Mistral) contournent les systèmes commerciaux fermés. Les suffixes de GPT-3.5 fonctionnaient contre GPT-4. La raison n'est pas dans la fuite des poids ou des données identiques — c'est que tous les modèles RLHF modernes codent le refus dans un objet géométrique similaire.

  • L'attaquant n'a pas besoin d'accès direct au modèle cible — n'importe quel proxy avec un entraînement similaire suffit
  • Le suffixe peut être des ordures illisibles ou du texte cohérent — les deux variantes ciblent le même point
  • Les attaques publiques sur les modèles ouverts deviennent automatiquement une menace pour les systèmes propriétaires

Qu'est-ce que cela signifie

Si toute la défense contre les résultats malveillants dépend d'un unique objet géométrique dans l'espace latent, la question se pose : est-il suffisant de « corriger » ce vecteur lors du fine-tuning — ou faut-il une architecture d'entraînement fondamentalement différente ? Certains chercheurs proposent la suppression chirurgicale de la direction du modèle au moment de l'inférence, mais cela dégrade la qualité globale. Le fait que les attaques indépendantes de différents types aient convergé vers la direction de refus indique une propriété structurelle des LLM modernes — et c'est la frontière où la sécurité de l'IA n'a pas encore trouvé de réponse.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…