OpenAI Blog→ original

OpenAI y Paradigm crearon una prueba para la auditoría de smart contracts con AI

OpenAI, junto con la firma de capital de riesgo cripto Paradigm, presentó EVMbench, un benchmark especializado para evaluar las capacidades de los agentes de…

Procesado por IA desde OpenAI Blog; editado por Hamidun News
OpenAI y Paradigm crearon una prueba para la auditoría de smart contracts con AI
Fuente: OpenAI Blog. Collage: Hamidun News.
◐ Escuchar artículo

OpenAI y Paradigm, una empresa de capital de riesgo de criptomonedas, anunciaron el lanzamiento de EVMbench — un benchmark especializado diseñado para medir qué tan bien los agentes de IA se desempeñan en la auditoría de contratos inteligentes. La herramienta prueba tres habilidades específicas: identificación de vulnerabilidades de alta severidad, creación de parches para corregirlas y explotación práctica de fallos descubiertos. En un contexto donde la industria de blockchain pierde cientos de millones de dólares anualmente debido a vulnerabilidades en contratos inteligentes, el surgimiento de una herramienta de evaluación de IA estandarizada no es un ejercicio académico, sino una necesidad urgente.

Para entender por qué EVMbench surgió en este momento particular, hay que observar el estado del mercado de seguridad en el espacio blockchain. Los contratos inteligentes son código auto-ejecutable desplegado en la blockchain que gestiona miles de millones de dólares en protocolos de finanzas descentralizadas. El problema es que una vez publicado en la red, un contrato es prácticamente imposible de cambiar — cualquier error se vuelve permanente y potencialmente devastador.

La auditoría tradicional requiere especialistas altamente calificados, que están críticamente escasos: la demanda de auditores de contratos inteligentes ha superado largo tiempo la oferta, y los plazos de verificación se extienden durante semanas. Es precisamente esta brecha que los agentes de IA teóricamente pueden cerrar — si, por supuesto, sus capacidades pueden medirse y compararse.

EVMbench se dirige a la máquina virtual Ethereum — la EVM, el estándar de ejecución de contratos inteligentes que subyace no solo a Ethereum, sino a docenas de blockchains compatibles: BNB Chain, Polygon, Arbitrum y otros. Esto hace que el benchmark sea significativo para todo el ecosistema, no solo para una única red. La prueba se construye en torno a escenarios del mundo real: un agente de IA recibe código de contrato y no debe simplemente informar de una "posible vulnerabilidad" abstracta, sino localizar con precisión una falla crítica, proponer un parche funcional y demostrar la explotación — es decir, mostrar cómo un atacante podría explotar el problema en la práctica.

Este enfoque de tres niveles distingue fundamentalmente EVMbench de las pruebas generalizadas de escritura de código: evalúa no las capacidades sintáticas del modelo, sino la comprensión de la lógica de seguridad.

La asociación entre OpenAI y Paradigm parece lógica, pero es bastante no trivial. Paradigm no es simplemente un fondo que invierte en startups de criptomonedas: la empresa es conocida por su profunda experiencia técnica y realiza su propia investigación en seguridad de blockchain. Para OpenAI, esta colaboración abre la oportunidad de demostrar el valor aplicado de sus agentes más allá de escenarios familiares como escritura de texto o generación de código. De manera significativa, el desarrollo del benchmark se llevó a cabo conjuntamente — esto significa que EVMbench refleja la experiencia de especialistas en seguridad practicantes, no solo ingenieros entrenados para crear pruebas.

Para la industria de seguridad de IA, el surgimiento de EVMbench significa una transición de conversaciones a resultados medibles. Hasta ahora, las afirmaciones sobre la efectividad de auditores de IA para contratos inteligentes eran difíciles de verificar: cada empresa usaba sus propias pruebas, incompatibles entre sí. Un benchmark estandarizado crea un lenguaje común — ahora los desarrolladores pueden comparar modelos objetivamente, y los clientes de auditoría tendrán orientación al seleccionar herramientas. Esto cambia la dinámica competitiva: el ganador no es quien grita más fuerte sobre sus capacidades, sino aquel cuyo modelo realmente demuestra resultados en tareas idénticas.

Para usuarios y proyectos que trabajan con blockchain, las consecuencias a largo plazo podrían ser bastante tangibles. Si los agentes de IA aprenden a encontrar de manera confiable vulnerabilidades críticas, el costo y plazo de las auditorías de contratos inteligentes disminuirán significativamente — lo que significa que protocolos más pequeños, que hoy no pueden permitirse revisiones completas de seguridad, obtendrán acceso a protección. Esto no elimina las auditorías humanas, pero cambia su papel: los especialistas podrán concentrarse en vulnerabilidades lógicas complejas, delegando búsquedas rutinarias de patrones conocidos a las máquinas.

EVMbench es un reconocimiento de que la auditoría de seguridad automatizada está convirtiéndose en un campo serio que requiere herramientas de evaluación serias. Que OpenAI y Paradigm asumieran el desarrollo conjuntamente habla de la madurez del momento: la industria está lista para hacer la transición de experimentos a estándares. La siguiente pregunta es qué puntuación mostrarán los modelos existentes y qué tan rápido los competidores comenzarán a optimizarse para la nueva prueba. La historia con otros benchmarks sugiere: una vez que aparece un objetivo medible, el progreso se acelera múltiples veces.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…