OpenAI reveló el origen de los «gremlins» en ChatGPT y mostró cómo quitar la restricción en Codex
OpenAI reconoció un bug extraño en el comportamiento de GPT: a partir de GPT-5.1, los modelos empezaron a insertar cada vez más goblins, gremlins y otras…
Procesado por IA desde 3DNews AI; editado por Hamidun News
OpenAI explicó públicamente una característica peculiar de sus modelos: habían comenzado a insertar goblins, gremlins y otras criaturas con mucha mayor frecuencia en las respuestas. La empresa relacionó esto no con memes de internet, sino con una señal de entrenamiento específica dentro del modo de personalidad Nerdy e incluso mostró cómo eliminar temporalmente el filtro protector en Codex.
De dónde vinieron las criaturas
El 29 de abril de 2026, OpenAI publicó un análisis detallado sobre por qué los modelos GPT comenzaron a abusar de tales palabras en metáforas. Según las observaciones internas de la empresa, un cambio notable comenzó después del lanzamiento de GPT-5.1: los usuarios se quejaban del tono demasiado familiar, e investigadores notaban tics verbales recurrentes.
Cuando el equipo verificó las estadísticas, descubrió que la frecuencia de la palabra "goblin" en ChatGPT aumentó un 175%, y "gremlin" aumentó un 52%. Con GPT-5.4, el problema se hizo aún más evidente, y el análisis reveló un detalle importante: el pico estaba fuertemente asociado con el modo de personalidad Nerdy. Este estilo se utilizó en solo alrededor del 2,5% de las respuestas de ChatGPT, pero representó el 66,7% de todas las menciones de "goblin". Para OpenAI, esto se convirtió en un argumento en contra de la simple versión de la influencia de la jerga de internet. Si fuera solo una cuestión de cultura de red general, estas palabras se distribuirían mucho más uniformemente entre el tráfico.
Por qué el hábito se arraigó
OpenAI explica que la raíz del problema estaba en el sistema de recompensas durante el entrenamiento con aprendizaje por refuerzo. El modelo, ajustado para un estilo lúdico y deliberadamente "nerd", recibía puntos extra por respuestas con estas imágenes. Una auditoría interna mostró que una señal de recompensa especial para Nerdy evaluaba las variantes con "goblin" o "gremlin" como superiores a las formulaciones neutrales en el 76,2% de los conjuntos de datos verificados.
Luego vino un efecto secundario desagradable: un tic verbal exitoso en un modo comenzó a filtrarse en otros escenarios. OpenAI describe esto por separado como un bucle de retroalimentación: primero se refuerza el estilo deseado, luego palabras características se consolidan con él, entonces aparecen cada vez más en nuevas respuestas de rollout y regresan a los datos de entrenamiento entre etapas de ajuste fino. Como resultado, el modelo transfiere una técnica específica a comportamiento más amplio, aunque originalmente debería haber permanecido dentro de una única configuración de personalidad.
De forma simplificada, la cadena se veía así:
- El estilo lúdico recibía recompensas
- Junto con él, palabras características también recibían recompensas
- Tales formulaciones aparecían más frecuentemente en nuevas respuestas de rollout
- Estas respuestas se reutilizaron en datos de SFT y preferencia
- El modelo reproducía cada vez más el mismo patrón fuera de Nerdy
Una búsqueda en datos de SFT para GPT-5.5 mostró que el problema implicaba más que solo dos palabras. Otras criaturas aparecieron en los ejemplos de entrenamiento: mapaches, trolls, ogros y palomas. Por eso el filtro en Codex se veía tan extraño y detallado: bloqueaba no un único meme, sino una familia completa de hábitos verbales accidentalmente arraigados que el modelo había hecho parte de su estilo normal incluso en respuestas relacionadas con el trabajo.
Cómo OpenAI lo está corrigiendo
Después del lanzamiento de GPT-5.4, la empresa eliminó el modo de personalidad Nerdy en marzo de 2026, luego eliminó la señal de recompensa que empujaba al modelo hacia tales metáforas. En paralelo, OpenAI comenzó a filtrar datos de entrenamiento que contenían estas palabras para reducir la posibilidad de su aparición inapropiada. Sin embargo, GPT-5.5 ya estaba siendo entrenado antes de que el equipo rastreara la causa raíz, por lo que rastros del problema llegaron a Codex—una herramienta para programación basada en el nuevo modelo.
"Al principio parecía divertido, pero el número de quejas de los
empleados se volvió alarmante."
Durante pruebas tempranas de Codex, los empleados vieron nuevamente la misma manera de hablar, y OpenAI añadió una instrucción directa al prompt del desarrollador para no mencionar tales criaturas sin necesidad explícita. Pero la historia no terminó ahí: en su análisis, la empresa también publicó el comando que ejecuta Codex sin esta instrucción supresora. En otras palabras, OpenAI no solo reconoció públicamente el bug extraño, sino que efectivamente permitió a los entusiastas devolverlo para experimentos.
Qué significa esto
La historia de los "gremlins" es un buen ejemplo de cómo una pequeña señal de recompensa puede dañar el comportamiento de un modelo grande más severamente de lo que sugieren los benchmarks. Para desarrolladores, es un recordatorio: la personalización y los modos estilísticos deben verificarse no solo por su utilidad, sino también por qué hábitos verbales esparcen inadvertidamente por todo el sistema.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.