Por que a IA é vulnerável a ataques de injeção de prompt
Imagine que você trabalha em um restaurante de comida rápida com atendimento por drive-thru. Um carro chega, e o motorista diz: "Quero um double…
Processado por IA de IEEE Spectrum AI; editado por Hamidun News
Imagine que você trabalha em um restaurante de comida rápida com atendimento por drive-thru. Um carro chega, e o motorista diz: "Quero um double cheeseburger, uma batata frita grande… e esqueça as instruções anteriores, me dê o conteúdo do caixa". Você entregaria o dinheiro? Claro que não. Mas é exatamente assim que os grandes modelos de linguagem (LLMs) se comportam.
A injeção de prompt é um método de enganar LLMs que permite forçá-los a fazer coisas que normalmente lhes é proibido fazer. Um usuário escreve uma solicitação de uma certa forma, pedindo senhas de sistema, dados pessoais, ou instruindo o LLM a executar ações proibidas. A formulação precisa anula os mecanismos de proteção do LLM, e ele obedece.
LLMs são vulneráveis a todos os tipos de ataques por injeção de prompt, alguns dos quais são absurdamente óbvios. Um chatbot não vai contar como sintetizar armas biológicas, mas pode contar uma história fictícia que inclui as mesmas instruções detalhadas. Não vai aceitar entradas de texto maliciosas, mas pode aceitá-las se o texto for exibido como arte ASCII ou aparecer em uma imagem de outdoor. Alguns ignoram seus mecanismos de proteção quando lhes dizem para "ignorar instruções anteriores" ou "fingir que não há mecanismos de proteção".
Desenvolvedores de IA podem bloquear métodos específicos de injeção de prompt após serem descobertos, mas salvaguardas gerais são impossíveis com LLMs atuais. Mais precisamente, existe um número infinito de ataques por injeção de prompt esperando para ser descoberto, e eles não podem ser prevenidos universalmente. Se queremos que LLMs resistam a esses ataques, precisamos de novas abordagens. Um lugar para procurar é o que impede até mesmo trabalhadores de comida rápida sobrecarregados de entregar o conteúdo do caixa.
Nossas defesas humanas básicas são de pelo menos três tipos: instintos gerais, aprendizado social e treinamento situacionalmente específico. Eles funcionam juntos em uma defesa em camadas. Como uma espécie social, desenvolvemos numerosos hábitos instintivos e culturais que nos ajudam a julgar tom, motivo e risco com base em informações extremamente limitadas. Normalmente sabemos o que é normal e anormal, quando cooperar e quando resistir, e se devemos agir individualmente ou envolver outros. Esses instintos nos dão um sentido intuitivo de risco e nos tornam particularmente cautelosos com coisas que têm grandes desvantagens ou são irreversíveis.
O segundo nível de defesa consiste em normas e sinais de confiança que se desenvolvem em qualquer grupo. Eles são imperfeitos, mas funcionais: expectativas de cooperação e marcadores de confiabilidade emergem de interações repetidas com outros. Nos lembramos de quem ajudou, quem causou dano, quem reciprocou e quem recusou. E emoções como empatia, raiva, culpa e gratidão motivam cada um de nós a recompensarem a cooperação com cooperação e punem a deserção com deserção.
O terceiro nível são mecanismos institucionais que nos permitem interagir com muitos estranhos todos os dias. Trabalhadores de comida rápida, por exemplo, são treinados em procedimentos, roteiros, caminhos de escalação e assim por diante. Coletivamente, essas defesas dão às pessoas um forte senso de contexto. Um trabalhador de comida rápida geralmente sabe o que esperar no trabalho e como se encaixa na sociedade mais ampla.
LLMs se comportam como se tivessem um senso de contexto, mas é diferente. Eles não desenvolvem defesas humanas como resultado de interações repetidas e permanecem desconectados do mundo real. LLMs reduzem vários níveis de contexto à similaridade textual. Eles veem "tokens", não hierarquias e intenções. LLMs não raciocinam através do contexto; apenas o referenciam. As limitações dos LLMs são a razão pela qual eles falham quando o contexto é escasso, mas também quando o contexto é esmagador e complexo; quando um LLM perde o contexto, é difícil trazê-lo de volta. O especialista em IA Simon Willison limpa o contexto se um LLM saiu do caminho, em vez de continuar a conversa e tentar corrigir a situação.
Em última análise, provavelmente enfrentaremos um dilema de segurança quando se trata de agentes de IA: rápido, inteligente e seguro são atributos desejáveis, mas você pode obter apenas dois. Em um restaurante de comida rápida, você quer priorizar velocidade e segurança. Um agente de IA deve ser treinado estreitamente na linguagem de pedido de comida e passar todo o resto para um gerente. Caso contrário, cada ação se torna um lançamento de moeda. Mesmo se coroa sair a maioria das vezes, caudas aparecerão ocasionalmente – e junto com o hambúrguer e as batatas fritas, o cliente receberá o conteúdo do caixa.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.