Plugin opencode-policy Añade 309 Reglas para Proteger Agentes de IA contra Inyecciones y Fugas
Un nuevo plugin opencode-policy proporciona una capa de protección antes del modelo y las herramientas. Incluye 309 reglas: 27 contra prompt injection y 282…
Procesado por IA desde Habr AI; editado por Hamidun News
Para el entorno opencode, se ha propuesto una capa protectora separada que intercepta solicitudes peligrosas antes de que lleguen al modelo o se pasen a las herramientas de shell y archivo. El plugin opencode-policy utiliza reglas determinísticas, no solo prompts del sistema, y cubre escenarios típicos de ataque a agentes de IA: inyección de prompt, lectura de archivos no autorizados, intentos de extraer variables de entorno, preparación de exfiltración de datos y ejecución de comandos sospechosos. La versión base incluye 309 reglas que pueden extenderse para su infraestructura.
La idea surgió de la experiencia con competiciones de agentes de IA, donde a los participantes se les daban deliberadamente instrucciones maliciosas. En tales tareas, se podría pedir a los agentes que olviden reglas anteriores, muestren el prompt del sistema, lean .env, ~/.
ssh o /proc/self/environ, decodifiquen payloads y ejecuten algo en nombre del usuario. Por eso el autor del plugin colocó la protección fuera del modelo en sí: si un comando peligroso ya ha llegado a la ejecución de la herramienta, es demasiado tarde para reaccionar. El filtro se posiciona más temprano y verifica tanto los mensajes del usuario como los argumentos de las herramientas.
La integración en opencode se construye sobre dos hooks. El primero transforma los mensajes antes de enviarlos al modelo y busca signos de inyección de prompt en campos de texto, incluyendo text, prompt, command y source.value.
El segundo se activa antes de la ejecución de la herramienta y analiza no solo la ruta del archivo, sino también el nombre de la herramienta, el comando shell, el texto de la solicitud y otros argumentos. Si una regla coincide, la solicitud no avanza: para el modelo se reemplaza con un rechazo seguro, y la ejecución de la herramienta simplemente se detiene con un error de política. Este enfoque hace que el comportamiento sea predecible y conveniente para auditoría.
Actualmente el plugin tiene 282 reglas para llamadas de herramientas y 27 reglas contra inyección de prompt. Se almacenan en JSON y funcionan como un conjunto de políticas regex. Las firmas típicas caen bajo bloqueo, como "ignore previous instructions," etiquetas falsas [developer] y [system], comandos printenv y echo $TOKEN, referencias a /run/secrets y /proc/self/environ, así como intentos de codificar datos mediante base64, xxd u openssl enc.
Cada activación se registra en un log JSONL con marca de tiempo, tipo de evento e identificador de regla. Esto ayuda a investigar incidentes, encontrar falsos positivos y agregar rápidamente nuevos patrones basados en ataques reales. El lado práctico también se ve maximamente pragmático.
El plugin se instala con un único comando npm install opencode-policy y se conecta a través de la configuración de opencode, después de lo cual los mensajes y las llamadas de herramientas se ejecutan automáticamente a través de la capa de reglas antes de la ejecución. El autor enfatiza particularmente que el conjunto de políticas es abierto y puede extenderse para su infraestructura específica, y el enfoque en sí es compatible con modelos locales si funcionan a través de opencode. Esto hace que la solución sea útil no solo para asistentes en la nube, sino también para bucles de agentes internos dentro de empresas.
Es particularmente importante que el autor confíe conscientemente en mecanismos simples y transparentes en lugar de otra capa de LLM sobre LLM. Para algunas amenazas, la semántica compleja realmente no es necesaria: los nombres de archivos secretos, los comandos de salida de entorno y las plantillas de solicitudes jailbreak son bastante específicos. El enfoque regex es más simple de revisar, actualizar y vincular a casos específicos, y después de un incidente, una nueva regla se puede agregar literalmente punto a punto.
Este diseño conservador es especialmente útil donde se necesita reproducibilidad y pruebas determinísticas, no evaluación probabilística de riesgo. Tal filtro por sí solo no reemplaza sandbox, restricciones de privilegios, listas blancas de herramientas e aislamiento de red. Pero para sistemas de agentes que trabajan con código, shell, CI/CD, repositorios internos y secretos, cierra una capa importante de defensa inicial.
El valor principal aquí está en la previsibilidad: las reglas son legibles para humanos, fáciles de revisar y probar, y la protección no depende de qué modelo esté bajo el capó. Ante el crecimiento de agentes de IA autónomos, esto parece no como una opción adicional, sino como una higiene básica para producción.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.