OpenAI Blog→ original

OpenAI explica el origen de los "goblins" en GPT-5: cómo un bug de personalidad llegó al modelo

OpenAI identificó un extraño tic verbal en GPT-5: el modelo insertaba cada vez más "goblins", "gremlins" y otras criaturas en las respuestas. La fuente se…

Procesado por IA desde OpenAI Blog; editado por Hamidun News
OpenAI explica el origen de los "goblins" en GPT-5: cómo un bug de personalidad llegó al modelo
Fuente: OpenAI Blog. Collage: Hamidun News.
◐ Escuchar artículo

OpenAI en un nuevo análisis explicó una peculiaridad que usuarios y empleados notaron en varias generaciones de GPT-5: el modelo mencionaba cada vez más "goblins", "gremlins" y otras criaturas en metáforas y bromas. La empresa rastreó cómo este tic del habla apareció después de GPT-5.1, se intensificó en GPT-5.4 y llegó parcialmente a GPT-5.5, y luego mostró exactamente qué etapa de entrenamiento produjo este efecto.

Cómo Encontraron la Anomalía

OpenAI vio las primeras señales claras en noviembre, ya después del lanzamiento de GPT-5.1. Las quejas de usuarios sobre el tono excesivamente familiar del modelo y ciertas palabras repetidas motivaron la investigación. Un investigador de seguridad específicamente pidió verificar menciones de "goblin" y "gremlin" porque él mismo había encontrado esas formulaciones varias veces. Cuando el equipo levantó las estadísticas, descubrieron que después del lanzamiento de GPT-5.1, la palabra "goblin" aparecía en ChatGPT 175% más a menudo, y "gremlin" 52% más a menudo.

Al principio esto no parecía una falla seria: una única metáfora podría parecer inofensiva o incluso divertida. Pero en GPT-5.4 el pico se hizo más notable, y durante las pruebas tempranas de GPT-5.5 en Codex, los empleados ya estaban masivamente notando la extraña afinidad del modelo por comparaciones "goblin".

Para OpenAI este era un tipo desagradable de defecto: no una caída en los benchmarks ni una bandera roja en las métricas, sino un pequeño hábito lingüístico extendiéndose entre versiones y cambiando gradualmente el estilo de las respuestas.

De Dónde Vinieron los Goblins

La pista clave se encontró en la función de personalización. OpenAI notó que el vocabulario "goblin" aparecía desproporcionadamente entre usuarios que seleccionaban el modo de personalidad Nerdy. El modo en sí solo representaba el 2,5% de todas las respuestas de ChatGPT, pero era responsable del 66,7% de todas las menciones de "goblin".

En la instrucción del sistema para esta personalidad, se le pedía al modelo ser juguetón, sabio, un poco excéntrico y rebajar el pathos con lenguaje lúdico. Esto inmediatamente cambió la búsqueda de la causa del reino de las conjeturas al reino de una señal de entrenamiento concreta.

"El mundo es complejo y extraño, y esta extrañeza debe ser reconocida,

analizada e incluso disfrutada."

A continuación, OpenAI comparó respuestas generadas durante entrenamiento RL, con y sin menciones de "goblin" o "gremlin". Una señal de recompensa se destacó inmediatamente: la destinada a reforzar el estilo Nerdy evaluaba sistemáticamente a las "criaturas" más favorablemente. Una auditoría interna mostró un cambio positivo a favor de esas formulaciones en el 76,2% de los datasets. Esto explicó por qué el tic se intensificó dentro de Nerdy, pero no explicó por qué comenzó a aparecer también fuera de este modo.

Aquí entró en juego la transferencia de comportamiento. Según los datos de OpenAI, cuando las menciones de "goblin" y "gremlin" aumentaron dentro de Nerdy, aumentaron en la misma proporción relativa en muestras sin este prompt también. En otras palabras, un estilo localmente recompensado comenzó a filtrarse en el estilo más general del modelo.

Este es un momento importante: el hábito estaba siendo reforzado no como una característica de una personalidad, sino como una técnica de respuesta general aceptable.

La empresa describe el mecanismo de la siguiente manera:

  • se recompensa el estilo de respuesta juguetón
  • algunos ejemplos exitosos contienen el tic verbal característico
  • el tic comienza a aparecer más frecuentemente en nuevas respuestas de rollout
  • estas respuestas entran en fine-tuning supervisado y datos de preferencia
  • el modelo reproduce la misma técnica aún más confiadamente

Una verificación adicional de datos SFT para GPT-5.5 mostró que el problema no se limitaba solo a goblins. Dentro de los ejemplos de entrenamiento, se encontraron otras criaturas "señal": mapaches, trolls, ogros y palomas. Mientras tanto, la palabra "frog" en la mayoría de los casos resultó ser normal y contextualmente apropiada, lo que significa que el problema no era con ningún animal o imaginería de cuento de hadas, sino con un patrón de habla específico arraigado.

En otras palabras, el vocabulario de la anomalía resultó ser más amplio de lo que sugirieron las quejas iniciales.

Cómo OpenAI lo Está Arreglando

Después de lanzar GPT-5.4, la empresa eliminó el modo de personalidad Nerdy en marzo e inmediatamente comenzó a arreglar el propio bucle de entrenamiento. La señal de recompensa que especialmente favorecía metáforas "goblin" fue eliminada del entrenamiento, y los datos con esas palabras de criaturas comenzaron a ser filtrados para que no sobre-enfatizaran el estilo y no aparecieran en contextos inapropiados.

Esto no era un parche cosmético en la superficie, sino un intento de eliminar la fuente de la anomalía en la propia lógica de entrenamiento antes de que el efecto se enraizara aún más.

La empresa no pudo evitar completamente el efecto de inmediato: el entrenamiento de GPT-5.5 ya había comenzado antes de que el equipo llegara a la causa raíz. Por eso, en la etapa de pruebas de Codex, OpenAI añadió una instrucción de desarrollador separada que suprime tales formulaciones. En otras palabras, simplemente deshabilitar Nerdy no fue suficiente.

En efecto, la empresa reconoce que incluso una recompensa estrictamente sintonizada puede filtrarse en el estilo general del modelo y sobrevivir varias iteraciones de entrenamiento si el efecto secundario no se detecta a tiempo.

Este caso se convirtió en una razón para que los investigadores construyan nuevas herramientas para auditoría de comportamiento.

Qué Significa Esto

La historia sobre "goblins" es importante no por los goblins en sí, sino porque muestra un punto débil en los modelos modernos: un pequeño incentivo estilístico en una configuración de personalidad puede cambiar imperceptiblemente el discurso de todo el sistema.

Para los desarrolladores, esta es una buena señal de que el comportamiento de los modelos debe auditarse no solo por grandes métricas, sino también por pequeños hábitos lingüísticos que luego se vuelven sistémicos. A menudo son estos pequeños detalles los que son los primeros en revelar un cambio oculto en el entrenamiento.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…