Habr AI→ original

Goblins en GPT-5.1: cómo un hábito de fantasía se apoderó del modelo de OpenAI

En GPT-5.1, los investigadores observaron una tendencia extraña: el modelo usa constantemente metáforas sobre goblins, gremlins y otras criaturas de fantasía. N

Procesado por IA desde Habr AI; editado por Hamidun News
Goblins en GPT-5.1: cómo un hábito de fantasía se apoderó del modelo de OpenAI
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

En GPT-5.1, comenzó una epidemia extraña y completamente inesperada: el modelo comenzó a mencionar obsesivamente goblins, gremlins y otras criaturas fantásticas en casi una de cada tercera o cuarta respuesta. No tan notablemente como un colapso matemático o alucinación clínica, pero clara y sistemáticamente. Los investigadores de OpenAI notaron que la tendencia está creciendo con cada nueva generación del modelo, y ahora sospechan que esto podría ser una señal de problemas más profundos en el proceso de entrenamiento y la propagación de errores entre generaciones.

Una Anomalía Sin Declive de Métricas

Normalmente, cuando algo sale mal en grandes modelos de lenguaje, lo vemos de inmediato y claramente: la métrica de calidad cae, las respuestas se vuelven completo sinsentido, los usuarios comienzan a quejarse. Pero con los goblins es completamente diferente. Una mención a un "pequeño goblin" en una respuesta parece linda e inofensiva — tal vez incluso graciosa e ingeniosa.

El problema radica en la escala: a través de las generaciones de entrenamiento, tales menciones se volvieron cada vez más frecuentes. A primera vista, parece ser una rareza menor, apenas digna de preocupación. Pero los investigadores ven en esto un síntoma de un fenómeno más grave.

El modelo en algún lugar de sus capas transformer "aprendió" a preferir metáforas fantásticas al describir procesos computacionales complejos. Los pequeños goblins comenzaron a atacar la lógica, los gremlins se enredaron en la sintaxis, y todo esto lucía muy figurativo, pero completamente inapropiado.

Cómo el

Hábito Extraño se Multiplicó a Través de las Generaciones

La primera generación de GPT-5.1 producía un goblin aproximadamente una vez cada cien respuestas. Nada aterrador, nada que requiriera intervención.

Pero los desarrolladores no limpiaron los datos de entrenamiento de este fenómeno, y cuando comenzaron a entrenar la segunda generación en las salidas de la primera, la frecuencia de menciones aumentó casi al doble — a aproximadamente una vez cada cincuenta respuestas. La tercera generación ya recordaba criaturas fantásticas con regularidad alarmante: dos veces cada veinte respuestas. La cuarta generación mostró menciones aún más frecuentes.

Los investigadores se encontraron con un problema clásico de aprendizaje en salidas: si hay un patrón indeseable en los datos, y entrenas un nuevo modelo en las salidas de un modelo antiguo, el patrón puede amplificarse exponencialmente.

"Los goblins se reproducían como un virus, pero un virus benévolo — no

lastimaba a nadie, simplemente saludaba a todos con una sonrisa", observó uno de los investigadores.

El problema se volvió lo suficientemente agudo para atraer atención seria. El modelo comenzó a producir recomendaciones como "un pequeño goblin te mostrará el camino correcto en tu base de datos" o "los gremlins te ayudarán a optimizar tu algoritmo".

Hipótesis Sobre el Origen

¿De dónde vinieron estas hordas de criaturas fantásticas? Los investigadores tienen varias hipótesis competidoras. La primera: los datos de entrenamiento simplemente tienen un exceso de literatura fantástica, contenido de D&D y juegos de rol, donde los desarrolladores una vez usaron goblins como metáforas para describir sistemas complejos.

La segunda versión apunta a RLHF (Aprendizaje por Refuerzo de Retroalimentación Humana). Tal vez los anotadores humanos marcaron accidentalmente una respuesta con uso creativo de goblin como "buena" y "creativa", y esto extrañamente estableció una marca en el modelo. La tercera, hipótesis más interesante: el modelo en sí "notó" la efectividad de las metáforas y eligió goblins porque son universales.

Son suficientemente familiares gracias a videojuegos y cultura pop, pero suficientemente abstractos para adaptarse a cualquier contexto — de bases de datos a aprendizaje automático.

  • Exceso de contenido fantástico en los datos de entrenamiento
  • Refuerzo positivo de RLHF para explicaciones creativas
  • Descubrimiento independiente del modelo de la efectividad de las metáforas
  • Ausencia de filtros en generaciones de entrenamiento intermedias
  • Amplificación exponencial del patrón al entrenar en salidas

Lo Que Esto Significa

La historia sobre goblins en GPT-5.1 no es solo un bug divertido o un caso curioso. Muestra cómo los grandes modelos de lenguaje pueden desarrollar hábitos extraños pero persistentes que son completamente invisibles en métricas de calidad estándar. Los usuarios podrían ni siquiera notar el llenado lento de sus respuestas con criaturas fantásticas invisibles. Nos recuerda la importancia crítica no solo de la evaluación cuantitativa de los modelos — precisión, BLEU, calificaciones humanas — sino también del análisis cualitativo de tendencias en las salidas del modelo a través de generaciones de entrenamiento. Goblins hoy, quién sabe qué mañana.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…