Segurança

AI Safety

AI safety é o campo interdisciplinar voltado para garantir que sistemas de inteligência artificial funcionem de maneira confiável, previsível e sem causar danos não intencionais, abrangendo pesquisa técnica, política e governança.

AI safety é o campo amplo preocupado com identificação, medição e mitigação de riscos decorrentes de sistemas de IA. Abrange questões de curto prazo — como robustez de modelo, viés e uso indevido para fraude ou desinformação — e preocupações de longo prazo sobre sistemas de IA altamente capazes agindo de maneiras prejudiciais à humanidade em escala. O campo se baseia em aprendizado de máquina, ciência cognitiva, filosofia e política pública, e é distinto mas estreitamente relacionado ao AI alignment.

A pesquisa técnica de AI safety inclui interpretabilidade (compreender quais computações os modelos executam internamente e por quê), robustez (garantir que os modelos se comportem corretamente sob mudança de distribuição e entradas adversárias), alinhamento (garantir que os sistemas persigam objetivos pretendidos) e avaliações de capacidade — protocolos estruturados de red-teaming que revelam capacidades perigosas como assistência de ataques cibernéticos ou orientação de síntese de bioarmas antes da implantação. No lado da governança, o trabalho de segurança inclui fichas de modelo, auditorias de terceiros, políticas de implantação e marcos de coordenação internacional.

AI safety ganhou impulso institucional após o lançamento de grandes modelos de linguagem como GPT-3 (2020) e ChatGPT (2022), que demonstraram que IA capaz poderia ser usada indevidamente para fraude, desinformação e geração de conteúdo prejudicial em escala. Governos dos EUA, UE e Reino Unido começaram a exigir avaliações de segurança para sistemas de IA de fronteira entre 2023 e 2025, citando tanto riscos de uso indevido de curto prazo quanto cenários de risco catastrófico de longo prazo.

Até 2026, equipes dedicadas de AI safety operam em todos os laboratórios principais de IA. O UK AI Safety Institute e o US AI Safety Institute (AISI) conduzem avaliações de terceiros de modelos de fronteira antes e depois da implantação. Consórcios de pesquisa aberta publicam suites de avaliação compartilhadas, e avaliações de segurança formais são necessárias antes de implantar IA de alta capacidade em setores de infraestrutura crítica incluindo saúde, energia e finanças em múltiplas jurisdições.

Exemplo

Antes de lançar uma atualização de modelo importante, um laboratório a executa por meio de uma suite de avaliação estruturada testando capacidades perigosas — como a capacidade de fornecer elevação significativa para sintetizar armas químicas — e publica um relatório de segurança resumindo achados e mitigações tomadas.

Termos relacionados

AI Alignment Red Teaming Interpretability

← Glossário