OpenAI Blog→ original

OpenAI e Paradigm criaram um teste para auditoria de smart contracts com AI

A OpenAI, em parceria com a firma de capital de risco cripto Paradigm, apresentou o EVMbench — um benchmark especializado para avaliar as capacidades de…

Processado por IA de OpenAI Blog; editado por Hamidun News
OpenAI e Paradigm criaram um teste para auditoria de smart contracts com AI
Fonte: OpenAI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

OpenAI e Paradigm, uma empresa de capital de risco de criptomoedas, anunciaram o lançamento do EVMbench — um benchmark especializado projetado para medir o quão bem agentes de IA se saem na auditoria de contratos inteligentes. A ferramenta testa três habilidades específicas: identificação de vulnerabilidades de alta severidade, criação de patches para corrigi-las e exploração prática das falhas descobertas. Em um contexto onde a indústria de blockchain perde centenas de milhões de dólares anualmente devido a vulnerabilidades em contratos inteligentes, o surgimento de uma ferramenta de avaliação de IA padronizada não é um exercício acadêmico, mas uma necessidade urgente.

Para entender por que EVMbench surgiu neste momento particular, é preciso olhar para o estado do mercado de segurança no espaço blockchain. Contratos inteligentes são código auto-executável implantado na blockchain que gerencia bilhões de dólares em protocolos de finanças descentralizadas. O problema é que, uma vez publicado na rede, um contrato é praticamente impossível de alterar — qualquer erro se torna permanente e potencialmente devastador.

A auditoria tradicional requer especialistas altamente qualificados, que estão em falta crítica: a demanda por auditores de contratos inteligentes há muito tempo excede a oferta, e os prazos de verificação se estendem por semanas. É precisamente essa lacuna que agentes de IA teoricamente podem preencher — se, é claro, suas capacidades puderem ser medidas e comparadas.

EVMbench visa a máquina virtual Ethereum — a EVM, o padrão de execução de contratos inteligentes que está por trás não apenas da Ethereum, mas de dezenas de blockchains compatíveis: BNB Chain, Polygon, Arbitrum e outros. Isso torna o benchmark significativo para todo o ecossistema, não apenas para uma única rede. O teste é construído em torno de cenários do mundo real: um agente de IA recebe código de contrato e não deve simplesmente relatar uma "vulnerabilidade possível" abstrata, mas localizar com precisão uma falha crítica, propor um patch funcional e demonstrar a exploração — ou seja, mostrar como um atacante poderia explorar o problema na prática.

Esta abordagem de três níveis distingue fundamentalmente EVMbench de testes generalizados de escrita de código: avalia não habilidades sintáticas do modelo, mas compreensão da lógica de segurança.

A parceria entre OpenAI e Paradigm parece lógica, mas é bastante não-trivial. Paradigm não é apenas um fundo investindo em startups de criptomoedas: a empresa é conhecida por profunda experiência técnica e conduz suas próprias pesquisas em segurança de blockchain. Para OpenAI, essa colaboração abre a oportunidade de demonstrar o valor aplicado de seus agentes além de cenários familiares como escrita de texto ou geração de código. De forma significativa, o desenvolvimento do benchmark foi conduzido em conjunto — isso significa que EVMbench reflete a experiência de especialistas em segurança praticantes, não apenas engenheiros treinados para criar testes.

Para a indústria de segurança de IA, o surgimento do EVMbench significa uma transição de conversas para resultados mensuráveis. Até agora, reclamações sobre a eficácia de auditores de IA para contratos inteligentes eram difíceis de verificar: cada empresa usava seus próprios testes, incompatíveis entre si. Um benchmark padronizado cria uma linguagem comum — agora os desenvolvedores podem comparar modelos objetivamente, e os clientes de auditoria terão orientação ao selecionar ferramentas. Isso muda a dinâmica competitiva: o vencedor não é quem grita mais alto sobre suas capacidades, mas aquele cujo modelo realmente demonstra resultados em tarefas idênticas.

Para usuários e projetos trabalhando com blockchain, as consequências de longo prazo podem se mostrar bastante tangíveis. Se agentes de IA aprenderem a encontrar de forma confiável vulnerabilidades críticas, o custo e cronograma de auditorias de contratos inteligentes diminuirão significativamente — significando que protocolos menores, que hoje não podem se dar ao luxo de revisões completas de segurança, ganharão acesso à proteção. Isso não elimina auditorias humanas, mas muda seu papel: especialistas podem se concentrar em vulnerabilidades lógicas complexas, delegando buscas rotineiras por padrões conhecidos às máquinas.

EVMbench é um reconhecimento de que auditoria de segurança automatizada está se tornando um campo sério que requer ferramentas de avaliação sérias. Que OpenAI e Paradigm empreenderam o desenvolvimento juntas fala sobre a maturidade do momento: a indústria está pronta para fazer a transição de experimentos para padrões. A próxima questão é qual pontuação os modelos existentes mostrarão e com que rapidez os concorrentes começarão a se otimizar para o novo teste. A história com outros benchmarks sugere: uma vez que um objetivo mensurável aparece, o progresso se acelera muitas vezes.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…