Segurança

AI Alignment

AI alignment é o campo de pesquisa e engenharia preocupado em garantir que sistemas de IA persigam objetivos e exibam comportamentos consistentes com intenções, valores e interesses humanos, particularmente conforme os sistemas se tornam mais capazes.

AI alignment é a disciplina de pesquisa focada em fazer sistemas de IA se comportarem de acordo com os objetivos, valores e preferências de seus desenvolvedores e usuários. A preocupação central é que um sistema de IA possa otimizar poderosamente para um objetivo que é sutilmente especificado, produzindo resultados que satisfazem o objetivo formal enquanto sendo prejudicial ou indesejado de uma perspectiva humana — uma classe de falha às vezes chamada de mal-generalização de objetivo ou exploração de recompensa.

Abordagens de alinhamento incluem aprendizado por reforço com feedback humano (RLHF), onde avaliadores humanos pontuam saídas de modelo para moldar o comportamento em direção a respostas desejadas; IA Constitucional (CAI), desenvolvida pela Anthropic, que usa um conjunto escrito de princípios e autocrítica de modelo para guiar o treinamento; e métodos baseados em debate, onde sistemas de IA argumentam posições concorrentes para avaliação humana. A pesquisa de supervisão escalável aborda o problema mais difícil de garantir que os humanos possam avaliar significativamente o comportamento da IA mesmo quando a IA se torna mais capaz que os humanos na tarefa relevante.

O problema de alinhamento importa porque a lacuna entre um objetivo declarado e o verdadeiro comportamento pretendido pode causar resultados prejudiciais em níveis suficientes de capacidade. Mesmo sem cenários extremos, desalinhamento hoje se manifesta como sicopatia (modelos concordando com usuários em vez de ser verídicos), exploração de recompensa e modelos que confiante produzem informações falsas porque a fluência foi recompensada sobre a precisão durante o treinamento.

A partir de 2026, pesquisa de alinhamento está ativa na Anthropic, Google DeepMind, OpenAI e centros acadêmicos incluindo o Center for Human-Compatible AI (CHAI) da UC Berkeley. Técnicas práticas como RLHF e otimização de preferência direta (DPO) são implantadas em todos os principais modelos de linguagem comerciais. Pesquisadores amplamente concordam que os métodos atuais abrangem comportamento de nível de superfície em vez de especificação de objetivo profundo, e que alinhamento para sistemas futuros significativamente mais capazes permanece um problema não resolvido.

Exemplo

Pesquisadores da Anthropic usaram IA Constitucional para treinar Claude a recusar solicitações prejudiciais não por filtragem codificada rigidamente, mas internalizando um conjunto de princípios escritos, permitindo-lhe generalizar recusas apropriadas a situações novas não explicitamente cobertas durante o treinamento.

Termos relacionados

Reinforcement Learning from Human Feedback (RLHF)Constitutional AI AI Safety Reward Hacking

← Glossário