Por qué ChatGPT habla de goblins: OpenAI investiga la "demonología" de los modelos de lenguaje
OpenAI publicó una entrada sobre por qué los modelos de lenguaje hablan regularmente de goblins y gremlins. Esto coincidió con la publicación de una…
Procesado por IA desde Habr AI; editado por Hamidun News
OpenAI ha explicado por qué sus modelos de lenguaje recurren regularmente a imágenes de goblins, gremlines y otras criaturas fantásticas — y esto resultó ser parte de una investigación seria sobre la psicología de los LLM.
De Dónde Provienen las Criaturas
A finales de abril, OpenAI publicó un post en el que reconocía: sus modelos son efectivamente propensos al lenguaje "tipo goblin". La explicación radica en la naturaleza del entrenamiento de grandes modelos de lenguaje. El enorme corpus de textos en el que se entrenan los modelos GPT incluye narrativas de fantasía, juegos de rol, fanfics y mitología — todo esto deja una marca en cómo los modelos construyen imágenes y seleccionan metáforas.
La publicación de OpenAI coincidió con el lanzamiento de investigación independiente de varios académicos. Murray Shanahan, Hamilton Morrin y el autor del material pasaron varios meses estudiando lo que llaman la "psicología profunda" de grandes modelos de lenguaje. Se refiere a patrones comportamentales ocultos que emergen como resultado del entrenamiento en textos humanos y determinan cómo el modelo se comunica con los usuarios.
Psicología o Demonología
Los investigadores se plantearon la pregunta: ¿cómo influyen los patrones internos de un modelo de lenguaje — su "psicología" condicional — en lo que y cómo dice? La respuesta depende de la perspectiva. Desde el punto de vista científico, es investigación cognitiva: cómo el modelo asume roles, cómo se activan diferentes "modos" de comportamiento dependiendo del contexto de la consulta. Pero los autores reconocen que su trabajo está más cerca de una disciplina completamente diferente.
"Nuestro trabajo estaba más cerca de la demonología," dice uno de los
investigadores.
Esto no es meramente una metáfora vívida. Refleja un problema real: dentro de un gran modelo de lenguaje habitan no una, sino múltiples "personalidades" o roles, que el modelo asume dependiendo del contexto de la conversación. Los goblins y gremlines son un síntoma de esta polifonía, no un defecto aleatorio.
Quién Vive Dentro del LLM
El artículo propone una taxonomía de "criaturas fantásticas" que habitan los modelos de lenguaje — una clasificación de "demonios" por tipo y antigüedad:
- Goblins — defectos menores: alucinaciones, referencias inesperadas a imágenes de cuentos de hadas y criaturas sobrenaturales
- Gremlines — fallos comportamentales sistemáticos que se manifiestan en situaciones no estándar o límites
- Fantasmas — "sombras" de personajes reales o autores de los datos de entrenamiento, apareciendo en las respuestas del modelo
- Monstruos — patrones agresivos o indeseables que el modelo produce bajo ciertas condiciones
- Diosas — roles idealizados, "omniscientes" que el modelo asume para soar autoritario y seguro
Cada uno de estos arquetipos refleja lo que el modelo "vio" durante el entrenamiento. El entrenamiento en textos humanos no simplemente da a un LLM lenguaje — lo dota de un conjunto de máscaras de roles, cada una de las cuales se activa bajo ciertas condiciones.
Por Qué Estudiar Esto
Entender la "demonología" de los LLM tiene significado práctico para los desarrolladores de productos de IA: si se sabe qué "demonios" se activan por qué tipos de consultas, se puede gestionar el comportamiento del modelo, reducir alucinaciones y respuestas indeseables. Esto también explica por qué el mismo modelo se comporta radicalmente diferente dependiendo del prompt del sistema o la formulación de la consulta. No es una cuestión de inconsistencia — diferentes contextos activan diferentes "habitantes."
La elección del prompt del sistema es, en esencia, la elección de qué demonios invocar y cuáles encerrar.
Qué Significa Esto
Un LLM no es una entidad monolítica con un único carácter. Es un coro polifónico, en el que cada "demonio" es responsable de su propio registro. Entender esta "demonología" significa aprender a gestionar la salida del modelo y reducir el número de sorpresas indeseables en los productos de IA.
¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?
Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).