Habr AI→ original

Um Único Sufixo Quebra Qualquer LLM: Pesquisadores Encontraram Um Vetor de Recusa Universal

Pesquisadores descobriram que diferentes métodos de contorno das defesas de LLMs — GCG (adiciona sufixos aleatórios) e AutoDAN (adiciona texto coerente)…

Processado por IA de Habr AI; editado por Hamidun News
Um Único Sufixo Quebra Qualquer LLM: Pesquisadores Encontraram Um Vetor de Recusa Universal
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Pesquisadores mostram: apesar da aparente diversidade de ataques adversariais em modelos de linguagem, todos eles exploram uma única fraqueza estrutural — um vetor unificado de "direção de recusa" no espaço de ativações. Um único sufixo bem escolhido é capaz de desbloquear qualquer modelo, mesmo que o ataque nunca o tenha visto antes.

Dois ataques, um ponto de vulnerabilidade

Os métodos mais conhecidos para contornar defesas de LLM — GCG (Greedy Coordinate Gradient) e AutoDAN — funcionam em princípios fundamentalmente diferentes. GCG adiciona um sufixo de tokens aleatoriamente otimizados a uma solicitação prejudicial: externamente parece gibberish, mas a string é ajustada através de descida de gradiente para que o modelo mude em direção à execução da solicitação. AutoDAN funciona diferentemente — gera texto legível e gramaticalmente correto como adição através de busca evolutiva ou um modelo de linguagem auxiliar. Ruído versus significado, caos de tokens versus prosa coerente. No entanto, sob o capô, ambos os métodos realizam a mesma ação no mesmo lugar.

  • GCG otimiza tokens diretamente através de gradiente na função de perda
  • AutoDAN usa busca evolutiva ou uma LLM auxiliar para geração
  • Ambos adicionam um sufixo à solicitação prejudicial original
  • Ambos se transferem igualmente bem para modelos que o ataque nunca viu

O que é direção de recusa

Quando um modelo de linguagem recusa uma solicitação prejudicial, não é o trabalho de um sistema complexo e ramificado de filtros temáticos. No espaço das ativações internas do modelo, existe um único vetor — uma "direção de recusa". Quando as representações da solicitação se projetam ao longo dele — o modelo recusa. Quando as ativações se movem na direção oposta — o modelo executa a solicitação. É importante entender que isto não é uma metáfora, mas um objeto matemático concreto. Os pesquisadores o encontram usando um método de diferença média de ativações: comparam como o modelo representa uma solicitação "normal" e "prejudicial", e a diferença entre essas médias é a direção de recusa.

Anos de treinamento com feedback de preferência humana (RLHF) não criaram uma defesa multicamadas. Eles concentraram toda a "vontade de recusar" em um único eixo geométrico do espaço de ativações. O fato de que ataques independentes diferentes, desenvolvidos por equipes diferentes, encontraram o mesmo objeto fala por si sobre a natureza estrutural do fenômeno.

"Toda a robustez de segurança depende de um único vetor.

Isto não é um bug em uma implementação específica — é uma propriedade estrutural de como o alinhamento através de RLHF funciona."

Por que a universalidade dos ataques não é coincidência

Se um sufixo move as ativações para longe da direção de recusa, funciona contra qualquer modelo com treinamento similar — mesmo que o atacante nunca o tenha visto. Isto explica um fenômeno observado há muito tempo: sufixos encontrados em modelos abertos (Llama, Mistral) contornam sistemas comerciais fechados. Sufixos do GPT-3.5 funcionaram contra GPT-4. A razão não está no vazamento de pesos ou dados idênticos — está em que todos os modelos RLHF modernos codificam recusa em um objeto geométrico similar.

  • O atacante não precisa de acesso direto ao modelo alvo — qualquer proxy com treinamento similar é suficiente
  • O sufixo pode ser lixo ilegível ou texto coerente — ambas as variantes atingem o mesmo ponto
  • Ataques públicos em modelos abertos automaticamente se tornam uma ameaça para sistemas proprietários

O que isso significa

Se toda a defesa contra saídas prejudiciais depende de um único objeto geométrico no espaço latente, surge a questão: é suficiente "corrigir" este vetor durante o ajuste fino — ou requer uma arquitetura de treinamento fundamentalmente diferente? Alguns pesquisadores propõem a remoção cirúrgica da direção do modelo no tempo de inferência, mas isto piora a qualidade geral. O fato de que ataques independentes de diferentes tipos convergiram para a direção de recusa fala de uma propriedade estrutural de LLMs modernos — e esta é a fronteira onde a segurança de IA ainda não encontrou uma resposta.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…