OpenAI e Paradigm criaram um teste para auditoria de smart contracts com AI
A OpenAI, em parceria com a firma de capital de risco cripto Paradigm, apresentou o EVMbench — um benchmark especializado para avaliar as capacidades de…
Processado por IA de OpenAI Blog; editado por Hamidun News
OpenAI e Paradigm, uma empresa de capital de risco de criptomoedas, anunciaram o lançamento do EVMbench — um benchmark especializado projetado para medir o quão bem agentes de IA se saem na auditoria de contratos inteligentes. A ferramenta testa três habilidades específicas: identificação de vulnerabilidades de alta severidade, criação de patches para corrigi-las e exploração prática das falhas descobertas. Em um contexto onde a indústria de blockchain perde centenas de milhões de dólares anualmente devido a vulnerabilidades em contratos inteligentes, o surgimento de uma ferramenta de avaliação de IA padronizada não é um exercício acadêmico, mas uma necessidade urgente.
Para entender por que EVMbench surgiu neste momento particular, é preciso olhar para o estado do mercado de segurança no espaço blockchain. Contratos inteligentes são código auto-executável implantado na blockchain que gerencia bilhões de dólares em protocolos de finanças descentralizadas. O problema é que, uma vez publicado na rede, um contrato é praticamente impossível de alterar — qualquer erro se torna permanente e potencialmente devastador.
A auditoria tradicional requer especialistas altamente qualificados, que estão em falta crítica: a demanda por auditores de contratos inteligentes há muito tempo excede a oferta, e os prazos de verificação se estendem por semanas. É precisamente essa lacuna que agentes de IA teoricamente podem preencher — se, é claro, suas capacidades puderem ser medidas e comparadas.
EVMbench visa a máquina virtual Ethereum — a EVM, o padrão de execução de contratos inteligentes que está por trás não apenas da Ethereum, mas de dezenas de blockchains compatíveis: BNB Chain, Polygon, Arbitrum e outros. Isso torna o benchmark significativo para todo o ecossistema, não apenas para uma única rede. O teste é construído em torno de cenários do mundo real: um agente de IA recebe código de contrato e não deve simplesmente relatar uma "vulnerabilidade possível" abstrata, mas localizar com precisão uma falha crítica, propor um patch funcional e demonstrar a exploração — ou seja, mostrar como um atacante poderia explorar o problema na prática.
Esta abordagem de três níveis distingue fundamentalmente EVMbench de testes generalizados de escrita de código: avalia não habilidades sintáticas do modelo, mas compreensão da lógica de segurança.
A parceria entre OpenAI e Paradigm parece lógica, mas é bastante não-trivial. Paradigm não é apenas um fundo investindo em startups de criptomoedas: a empresa é conhecida por profunda experiência técnica e conduz suas próprias pesquisas em segurança de blockchain. Para OpenAI, essa colaboração abre a oportunidade de demonstrar o valor aplicado de seus agentes além de cenários familiares como escrita de texto ou geração de código. De forma significativa, o desenvolvimento do benchmark foi conduzido em conjunto — isso significa que EVMbench reflete a experiência de especialistas em segurança praticantes, não apenas engenheiros treinados para criar testes.
Para a indústria de segurança de IA, o surgimento do EVMbench significa uma transição de conversas para resultados mensuráveis. Até agora, reclamações sobre a eficácia de auditores de IA para contratos inteligentes eram difíceis de verificar: cada empresa usava seus próprios testes, incompatíveis entre si. Um benchmark padronizado cria uma linguagem comum — agora os desenvolvedores podem comparar modelos objetivamente, e os clientes de auditoria terão orientação ao selecionar ferramentas. Isso muda a dinâmica competitiva: o vencedor não é quem grita mais alto sobre suas capacidades, mas aquele cujo modelo realmente demonstra resultados em tarefas idênticas.
Para usuários e projetos trabalhando com blockchain, as consequências de longo prazo podem se mostrar bastante tangíveis. Se agentes de IA aprenderem a encontrar de forma confiável vulnerabilidades críticas, o custo e cronograma de auditorias de contratos inteligentes diminuirão significativamente — significando que protocolos menores, que hoje não podem se dar ao luxo de revisões completas de segurança, ganharão acesso à proteção. Isso não elimina auditorias humanas, mas muda seu papel: especialistas podem se concentrar em vulnerabilidades lógicas complexas, delegando buscas rotineiras por padrões conhecidos às máquinas.
EVMbench é um reconhecimento de que auditoria de segurança automatizada está se tornando um campo sério que requer ferramentas de avaliação sérias. Que OpenAI e Paradigm empreenderam o desenvolvimento juntas fala sobre a maturidade do momento: a indústria está pronta para fazer a transição de experimentos para padrões. A próxima questão é qual pontuação os modelos existentes mostrarão e com que rapidez os concorrentes começarão a se otimizar para o novo teste. A história com outros benchmarks sugere: uma vez que um objetivo mensurável aparece, o progresso se acelera muitas vezes.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.