OpenAI prohibió a Codex hablar sobre goblins y palomas en las instrucciones para agentes de IA
Las instrucciones del sistema Codex de OpenAI contenían una cadena inusual: se prohibió al agente hablar sobre goblins, gremlins, palomas y otras criaturas a…
Procesado por IA desde Wired; editado por Hamidun News
En las instrucciones del sistema de Codex, la nueva herramienta de IA de OpenAI para programación, se encontró una regla inusual: al modelo se le prohíbe directamente mencionar goblins, gremlins, mapaches, trolls, ogros, palomas y otras criaturas si esto no está relacionado con la solicitud del usuario. Según la reacción de desarrolladores y usuarios, la regla apareció después de un bug bastante real en el modo de agente.
Qué se encontró en las instrucciones
El motivo fue una línea en las instrucciones de Codex CLI — herramienta de línea de comandos que usa un modelo para generar y editar código. La formulación no deja lugar para la imaginación: al agente se le indica que no hable sobre "goblins, gremlins, mapaches, trolls, ogros, palomas y otras criaturas" a menos que esté "absoluta e inequívocamente" relacionado con la solicitud. Además, como notaron los usuarios, esta restricción se repite varias veces, lo que significa que no es una inserción aleatoria, sino una regla de comportamiento conscientemente establecida.
A primera vista, esto parece una broma interna del equipo, pero el contexto de la historia es bastante serio. OpenAI acaba de aumentar sus apuestas en programación: GPT-5.5 se lanzó con capacidades de codificación mejoradas, y la competencia con Anthropic y otros jugadores en el mercado de herramientas de IA para desarrolladores se ha intensificado drásticamente. En este contexto, cualquier extrañeza en el comportamiento del modelo deja de ser una curiosidad inofensiva y se convierte en un problema de producto, especialmente si el agente no solo funciona en chat sino que también gestiona aplicaciones reales.
De dónde vinieron los goblins
Parece que la prohibición no surgió de la nada. Después de que las capturas de pantalla de la instrucción se compartieron en X, los usuarios comenzaron a recordar que los modelos de OpenAI en conjunto con OpenClaw realmente a veces se quedaban atrapados en tal vocabulario. Un desarrollador escribió que su claw "de repente se convirtió en un goblin" después de cambiar a Codex 5.5. Otro señaló que el agente constantemente llamaba errores "goblins" y "gremlins". Para un chatbot ordinario esto parecería una forma de hablar extraña, pero para un agente de codificación — como ruido que interfiere con la comprensión del resultado y la confianza en él.
"Ahora es claro por qué mi claw de repente se convirtió en un goblin con
Codex 5.5".
WIRED atribuye esto a cómo se comportan los modelos modernos dentro de marcos de agente. El modelo base predice el siguiente token y normalmente se mantiene dentro de los límites de la tarea, pero en modo de agente, memoria, instrucciones de sistema, un conjunto de roles e indicaciones de servicio se agregan al prompt. Cuanto más larga y compleja se vuelve tal cadena, mayor es la probabilidad de que el modelo se enganche a metáforas repetitivas, asociaciones aleatorias o estilo inapropiado. Si la IA está gestionando una computadora, respondiendo correos electrónicos u procesando compras, incluso una mutación verbal menor se convierte en una señal de que el bucle necesita restricciones estrictas.
Cómo un meme se convirtió en un producto
La historia muy rápidamente salió del chat de ingeniería y se convirtió en un meme. Los usuarios comenzaron a publicar escenas generadas con goblins en centros de datos, e incluso aparecieron plugins con un "goblin mode" tipo juego para Codex. Pero lo más importante: los empleados de OpenAI realmente confirmaron que la prohibición está relacionada con el comportamiento real del modelo. El desarrollador de Codex Nick Pash, en respuesta a la discusión, escribió que esto era "realmente una de las razones". Es decir, la empresa no solo está bromeando, sino que está cerrando una clase específica de fallas de comportamiento.
- Las capturas de pantalla de la instrucción se difundieron rápidamente en las redes sociales
- Los usuarios comenzaron a compartir incidentes similares en OpenClaw
- Plugins y memes con "goblin mode" aparecieron alrededor de Codex
- Sam Altman aprovechó la onda con una broma sobre "goblins extra" durante el entrenamiento de GPT-6
Un detalle separado es el papel de OpenClaw. Esta herramienta permite conectar casi cualquier modelo a una computadora, darle acceso a aplicaciones y elegir diferentes personas para el asistente. OpenAI adquirió OpenClaw en febrero poco después del auge viral del proyecto, por lo que el comportamiento de los modelos dentro de tal interfaz ya no es exótica externa para la empresa, sino parte de su propia plataforma. Cuanto más profundamente OpenAI avanza hacia agentes autónomos, más importante se vuelve suprimir no solo errores peligrosos, sino también cambios de lenguaje extraños.
Qué significa esto
La historia de los goblins puede parecer una anécdota, pero de hecho muestra algo más importante: los desarrolladores de agentes de IA cada vez más tratan no solo errores factuales, sino también el estilo de pensamiento del modelo en escenarios complejos. Para el mercado de asistentes de codificación, esta es una señal de que la batalla ya se está librando en el nivel de ajuste fino del comportamiento. La confiabilidad de un agente hoy está determinada no solo por la calidad del código que escribe, sino también por qué tan predeciblemente se comunica y actúa bajo carga.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.