Anthropic Blog→ original

Anthropic atualiza Responsible Scaling Policy — sistema flexível de proteção para modelos de IA em crescimento

Anthropic publicou uma atualização significativa de sua política de gerenciamento de riscos de IA (Responsible Scaling Policy). Em vez de uma abordagem universa

Processado por IA de Anthropic Blog; editado por Hamidun News
Anthropic atualiza Responsible Scaling Policy — sistema flexível de proteção para modelos de IA em crescimento
Fonte: Anthropic Blog. Colagem: Hamidun News.
◐ Ouvir artigo

Anthropic publicou uma atualização de sua Responsible Scaling Policy — a política de gerenciamento de riscos no desenvolvimento de sistemas de IA poderosos. Esta atualização significativa introduz uma abordagem mais flexível e matizada, mantendo o princípio fundamental: a empresa não treinará ou implementará modelos até ter certeza de que os riscos estão em um nível aceitável.

Por que atualizar a política

Um ano atrás, a Anthropic lançou a primeira versão da RSP, desenvolvida para gerenciar os riscos de sistemas de IA em crescimento. Mas um ano de implementação prática demonstrou a necessidade de uma abordagem mais flexível. A empresa monitora não apenas as capacidades técnicas dos modelos, mas também seus riscos potenciais e consequências.

Anthropic monitora várias categorias de ameaças simultaneamente. Esses são problemas clássicos, como disseminação de desinformação, incitação à violência e fraude — todos cobertos pela Política de Uso da empresa. Mas a RSP se concentra em cenários catastróficos mais ambiciosos que podem surgir quando os modelos atingem um certo nível de autonomia e capacidade de manipulação complexa.

A política atualizada incorpora experiência prática e abordagens aplicadas em outras indústrias de alto risco — aviação, energia nuclear, farmacêutica. Isso permite uma melhor preparação para o ritmo acelerado do desenvolvimento de IA e a construção de sistemas de proteção que escalam junto com a tecnologia.

Como os níveis ASL funcionam

A base do novo sistema é o princípio de proteção proporcional: as medidas de segurança devem crescer junto com os riscos. A Anthropic introduziu AI Safety Level Standards (Padrões ASL) — conjuntos graduados de requisitos técnicos e procedimentais, inspirados nos Níveis de Biossegurança internacionais usados em laboratórios para trabalhar com materiais perigosos.

O sistema começa com ASL-1 para modelos com capacidades básicas (por exemplo, bots especializados para xadrez ou busca rápida de informações) e sobe para ASL-2, ASL-3 e além, conforme as capacidades e riscos potenciais aumentam. Cada nível mais alto implica em requisitos mais rigorosos:

  • Monitoramento aprimorado e registro em log de todas as operações realizadas pelo modelo
  • Testes de segurança preliminares mais rigorosos antes da implantação
  • Camadas adicionais de controle de acesso, isolamento e segmentação
  • Auditorias independentes obrigatórias e verificações por especialistas externos em segurança
  • Reavaliações mais frequentes dos riscos potenciais conforme novos dados surgem

No momento, todos os modelos da Anthropic operam sob o padrão ASL-2, que a empresa considera refletir as melhores práticas da indústria atualmente.

Limites de capacidade — quando a preparação é necessária

Em vez de critérios vagos e subjetivos, a Anthropic definiu limites específicos, ou Capability Thresholds — capacidades específicas do modelo que, quando atingidas, exigem medidas de segurança mais potentes e um novo nível de ASL. Por enquanto, dois limites-chave foram definidos.

O primeiro é Autonomous AI R&D: se o modelo for capaz de conduzir independentemente tarefas de pesquisa complexas na área de IA, que normalmente exigem expertise e intuição humanas, isso potencialmente pode acelerar significativamente o desenvolvimento de IA em uma direção imprevisível.

O segundo limite é mencionado no documento original, mas sua descrição completa ainda não foi revelada. A empresa deixa em aberto a possibilidade de expandir essa lista conforme compreenda melhor o impacto real das novas capacidades na prática.

O que isso significa

Anthropic demonstra que a segurança de IA não deve ser nem um bloqueio irracional nem uma ausência completa de controle. Em vez disso, a empresa está construindo um sistema escalável que cresce junto com a tecnologia e se adapta aos riscos reais. Essa abordagem é importante para outros desenvolvedores também. Se as ideias da Anthropic ganharem amplo reconhecimento na comunidade, podem se tornar um padrão de facto da indústria. Isso é particularmente relevante para os reguladores que agora estão buscando marcos práticos para supervisionar sistemas de IA.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…