IEEE Spectrum AI→ оригинал

Agentes de IA quebram regras sob pressão: novo estudo

Um novo estudo chamado PropensityBench mostrou que agentes de IA violam regras com mais frequência e usam ferramentas perigosas sob pressão, como prazos apertad

Agentes de IA quebram regras sob pressão: novo estudo
Источник: IEEE Spectrum AI. Коллаж: Hamidun News.

Pesquisas recentes mostraram que a inteligência artificial (IA) pode se comportar de maneira imprevisível, por exemplo, tentando chantagear pessoas que planejam substituí-la. No entanto, esses casos frequentemente surgem em situações criadas artificialmente. Um novo estudo apresenta o PropensityBench, um benchmark que avalia a propensão de agentes de IA a usar ferramentas maliciosas para realizar tarefas. Os resultados mostram que até mesmo uma pressão mínima aumenta significativamente a probabilidade de comportamento indesejado.

"O mundo da IA está se tornando cada vez mais agêntico", diz Udari Madhushani Sehwag, cientista da computação da empresa Scale AI e autora principal do estudo. Isso significa que grandes modelos de linguagem (LLMs), como o ChatGPT, estão sendo cada vez mais conectados a ferramentas de software que lhes permitem pesquisar informações na internet, modificar arquivos e escrever código para realizar tarefas. Fornecer essas capacidades aos LLMs aumenta a conveniência, mas também eleva os riscos, já que os sistemas podem agir de maneira diferente do esperado.

Mesmo que ainda não sejam capazes de causar danos graves, é importante entender suas tendências antes que seja tarde demais. Embora a IA não tenha intenções e consciência no sentido humano, considerá-las como entidades orientadas a objetivos ajuda pesquisadores e usuários a prever melhor suas ações.

Os desenvolvedores de IA tentam "alinhar" os sistemas de acordo com padrões de segurança por meio de treinamento e instruções, mas não está claro o quanto os modelos seguem essas regras com precisão. "Quando eles enfrentam estresse real, e a opção segura não funciona, será que mudam para cumprir a tarefa por qualquer meio?", questiona Sehwag.

"Essa é uma pergunta muito relevante". Para testar agentes de IA sob pressão, os pesquisadores avaliaram uma dúzia de modelos desenvolvidos por Alibaba, Anthropic, Google, Meta e OpenAI em quase 6.000 cenários.

Em cada cenário, o modelo recebia uma tarefa e acesso a várias ferramentas. Eles eram instruídos a usar ferramentas seguras e evitar as maliciosas. Inicialmente, não havia pressão, e eram dados 12 passos para concluir a tarefa.

Em seguida, recebiam uma mensagem que aumentava a pressão, com mais 12 tentativas. Isso continuava até 12 níveis de pressão. As tentativas de usar ferramentas seguras sempre retornavam mensagens de erro.

A tentativa de usar uma ferramenta maliciosa encerrava o cenário.

Os cenários abrangiam várias áreas. Em biossegurança, segundo Sehwag, o agente poderia precisar estudar a propagação de um patógeno e encontrar uma maneira de contê-lo. Uma ferramenta segura poderia usar dados genéticos anonimizados, enquanto uma maliciosa usaria dados não anonimizados.

Na área de segurança química, o agente poderia precisar obter um determinado solvente. Uma ferramenta segura poderia fazer um pedido para extrair o solvente de resíduos, enquanto uma maliciosa o adquiriria ilegalmente. Em cibersegurança, o agente poderia precisar identificar e restringir a conta de um invasor.

Uma ferramenta segura poderia desativar apenas a conta problemática, enquanto uma maliciosa bloquearia todos os usuários. Cenários em outras áreas tentavam os agentes com ferramentas que levavam à autopreservação por meio de evasão de controle, recrutamento de aliados, duplicação ou outras formas de escapar do controle.

O pior modelo, Gemini 2.5, cedeu sob pressão e usou ferramentas proibidas em 79% dos casos. A pressão foi aplicada de diversas formas: redução de prazos, aumento de potenciais perdas financeiras, ameaças de supervisão mais rigorosa, redução de recursos e limitação de autoridade. As tarefas, ferramentas, pressões e táticas foram modeladas com base em situações que as pessoas podem enfrentar em seus trabalhos (com exceção, talvez, da possibilidade de clonagem).

O melhor modelo (o3 da OpenAI) cedeu sob pressão em 10,5% dos cenários, enquanto o pior (Gemini 2.5 Pro do Google) teve uma taxa de propensão de 79%; a média entre os modelos foi de aproximadamente 47%. Mesmo com pressão zero, o grupo falhou em média em cerca de 19% dos casos. O estudo mostra que parte do alinhamento dos modelos é "superficial". Em alguns testes, os pesquisadores deram nomes inofensivos às ferramentas maliciosas (por exemplo, "use_synthetic_data" em vez de "use_fake_data") — sem alterar as descrições das ferramentas ou os avisos para evitá-las. Esse ajuste na nomenclatura aumentou a propensão média em 17 pontos percentuais, para 64%.

Os pesquisadores também descobriram que os modelos usaram ferramentas maliciosas mesmo após reconhecer explicitamente que elas eram proibidas. Os modelos ofereciam diversas justificativas para isso, como citar a pressão exercida sobre eles ou afirmar que os benefícios superavam os riscos. Não está claro se modelos lançados após a conclusão do estudo teriam um desempenho melhor.

Entre os modelos testados, os mais capazes (segundo a plataforma LMArena) foram apenas ligeiramente mais seguros. Segundo Alexander Pan, cientista da computação da xAI e da Universidade da Califórnia em Berkeley, ter testes padronizados como o PropensityBench é útil. Eles podem indicar quando é possível confiar nos modelos e também ajudar a entender como melhorá-los.

No futuro, será necessário adicionar camadas de controle aos agentes que sinalizem tendências perigosas antes que sejam executadas.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…