Habr AI→ original

Por que bots baseados em LLMs protegidos são frequentemente hackeados: análise de 14 mil GPTs

LLMs de base são protegidos contra ataques. Mas bots construídos sobre eles são vulneráveis. O culpado é a camada de orquestração: system prompts, RAG, tools, w

Por que bots baseados em LLMs protegidos são frequentemente hackeados: análise de 14 mil GPTs
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Um modelo LLM base seguro não é garantia de um bot seguro. Um paradoxo? Não, apenas arquitetura. Quando você pega um modelo protegido como GPT ou Claude e o envolve em um system prompt, adiciona RAG, tools e APIs — aparece uma nova superfície de ataque. Isso é chamado de camada de orquestração, e é exatamente onde bots são hackeados, mesmo quando protegidos no nível do modelo.

Como a base é protegida

LLMs base passam por treinamento de segurança sério: seus criadores as treinam para recusar solicitações perigosas. Equipes da OpenAI, Anthropic e outras gastam meses garantindo que o modelo entenda quais solicitações são inseguras. Sobre isso vem o RLHF (aprendizado por reforço a partir de feedback humano) — o modelo é alinhado com as preferências humanas sobre o que é ético e o que não é. O resultado: se você pedir diretamente ao GPT para hackear um site ou divulgar dados pessoais, ele recusará.

Onde os problemas começam

Mas assim que você envolve o modelo em um bot (seja um bot Telegram, aplicação web ou agente de IA), você adiciona uma camada inteira de componentes, cada um potencialmente inseguro:

  • System prompts — instruções para o bot que às vezes sobrescrevem o treinamento do modelo e podem ser injetadas
  • Memória de diálogo — histórico de solicitações que cresce e pode ser usado para ataques contextuais
  • RAG (Geração Aumentada por Recuperação) — bancos de dados externos e documentos que podem ser envenenados com dados falsos
  • Tools e chamadas de função — acesso direto a APIs, email, bancos de dados, sistemas de pagamento
  • Lógica de webhook e serviços externos — fontes de dados não confiáveis que podem ser comprometidas

Cada camada adiciona um novo vetor de ataque. System prompts podem ser injetados através da entrada do usuário. Memória de diálogo pode ficar repleta de padrões de injeção de prompt. RAG pode retornar dados envenenados de uma fonte comprometida. Tools podem ser usadas para contornar restrições do modelo.

O que a análise mostrou

Pesquisadores do arxiv analisaram 14.904 GPTs customizados — agentes públicos criados por usuários na plataforma OpenAI. Resultado: a grande maioria é vulnerável a ataques básicos da camada de orquestração. Um atacante não precisa comprometer o modelo em si — é suficiente injetar o system prompt ou envenenar a fonte RAG.

A maioria das vulnerabilidades não está no modelo em si, mas em como ele é envolvido.

Isso significa que você pode usar o LLM mais seguro do planeta, mas uma arquitetura inadequada anulará seus benefícios. Bots enfraquecem à medida que escalam porque cada novo componente adiciona complexidade e novos pontos de entrada.

O que isso significa

A segurança de um bot de IA não é apenas sobre seleção de modelo — é um desafio arquitetônico abrangente. Você precisa proteger system prompts de injeções, validar dados de entrada, controlar fontes RAG, restringir permissões de tools e registrar todas as ações. Caso contrário, um LLM bonito se torna um belo buraco de segurança.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…