Um Único Sufixo Quebra Qualquer LLM: Pesquisadores Encontraram Um Vetor de Recusa Universal
Pesquisadores descobriram que diferentes métodos de contorno das defesas de LLMs — GCG (adiciona sufixos aleatórios) e AutoDAN (adiciona texto coerente)…
Processado por IA de Habr AI; editado por Hamidun News
Pesquisadores mostram: apesar da aparente diversidade de ataques adversariais em modelos de linguagem, todos eles exploram uma única fraqueza estrutural — um vetor unificado de "direção de recusa" no espaço de ativações. Um único sufixo bem escolhido é capaz de desbloquear qualquer modelo, mesmo que o ataque nunca o tenha visto antes.
Dois ataques, um ponto de vulnerabilidade
Os métodos mais conhecidos para contornar defesas de LLM — GCG (Greedy Coordinate Gradient) e AutoDAN — funcionam em princípios fundamentalmente diferentes. GCG adiciona um sufixo de tokens aleatoriamente otimizados a uma solicitação prejudicial: externamente parece gibberish, mas a string é ajustada através de descida de gradiente para que o modelo mude em direção à execução da solicitação. AutoDAN funciona diferentemente — gera texto legível e gramaticalmente correto como adição através de busca evolutiva ou um modelo de linguagem auxiliar. Ruído versus significado, caos de tokens versus prosa coerente. No entanto, sob o capô, ambos os métodos realizam a mesma ação no mesmo lugar.
- GCG otimiza tokens diretamente através de gradiente na função de perda
- AutoDAN usa busca evolutiva ou uma LLM auxiliar para geração
- Ambos adicionam um sufixo à solicitação prejudicial original
- Ambos se transferem igualmente bem para modelos que o ataque nunca viu
O que é direção de recusa
Quando um modelo de linguagem recusa uma solicitação prejudicial, não é o trabalho de um sistema complexo e ramificado de filtros temáticos. No espaço das ativações internas do modelo, existe um único vetor — uma "direção de recusa". Quando as representações da solicitação se projetam ao longo dele — o modelo recusa. Quando as ativações se movem na direção oposta — o modelo executa a solicitação. É importante entender que isto não é uma metáfora, mas um objeto matemático concreto. Os pesquisadores o encontram usando um método de diferença média de ativações: comparam como o modelo representa uma solicitação "normal" e "prejudicial", e a diferença entre essas médias é a direção de recusa.
Anos de treinamento com feedback de preferência humana (RLHF) não criaram uma defesa multicamadas. Eles concentraram toda a "vontade de recusar" em um único eixo geométrico do espaço de ativações. O fato de que ataques independentes diferentes, desenvolvidos por equipes diferentes, encontraram o mesmo objeto fala por si sobre a natureza estrutural do fenômeno.
"Toda a robustez de segurança depende de um único vetor.
Isto não é um bug em uma implementação específica — é uma propriedade estrutural de como o alinhamento através de RLHF funciona."
Por que a universalidade dos ataques não é coincidência
Se um sufixo move as ativações para longe da direção de recusa, funciona contra qualquer modelo com treinamento similar — mesmo que o atacante nunca o tenha visto. Isto explica um fenômeno observado há muito tempo: sufixos encontrados em modelos abertos (Llama, Mistral) contornam sistemas comerciais fechados. Sufixos do GPT-3.5 funcionaram contra GPT-4. A razão não está no vazamento de pesos ou dados idênticos — está em que todos os modelos RLHF modernos codificam recusa em um objeto geométrico similar.
- O atacante não precisa de acesso direto ao modelo alvo — qualquer proxy com treinamento similar é suficiente
- O sufixo pode ser lixo ilegível ou texto coerente — ambas as variantes atingem o mesmo ponto
- Ataques públicos em modelos abertos automaticamente se tornam uma ameaça para sistemas proprietários
O que isso significa
Se toda a defesa contra saídas prejudiciais depende de um único objeto geométrico no espaço latente, surge a questão: é suficiente "corrigir" este vetor durante o ajuste fino — ou requer uma arquitetura de treinamento fundamentalmente diferente? Alguns pesquisadores propõem a remoção cirúrgica da direção do modelo no tempo de inferência, mas isto piora a qualidade geral. O fato de que ataques independentes de diferentes tipos convergiram para a direção de recusa fala de uma propriedade estrutural de LLMs modernos — e esta é a fronteira onde a segurança de IA ainda não encontrou uma resposta.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.