LLM Alucinó una Línea de Crisis: Por Qué los Prompts No Detienen las Alucinaciones
Un bot LLM detectó signos de abuso emocional en los mensajes de una usuaria y sugirió llamar a una 'línea de ayuda'. El número resultó ser una línea…
Procesado por IA desde Habr AI; editado por Hamidun News
El bot LLM detectó señales preocupantes en una conversación y recomendó llamar a una línea de crisis. El número resultó ser para niños—el modelo lo inventó. El prompt contenía una prohibición explícita: "no inventes datos de contacto". No ayudó. Esto no es un bug que pueda arreglarse con palabras mágicas. Es un problema arquitectónico. El escenario es real y alarmante.
Una chica envía al bot una conversación con su novio. El modelo reconoce patrones: presión emocional, aislamiento, gaslighting. Responde como un asistente atento—sugiere buscar ayuda profesional y proporciona un número específico. Todo parece lógico excepto por una cosa: el número resultó ser el de una línea de crisis infantil. El modelo generó una secuencia plausible de dígitos porque es exactamente lo que hace mejor—predecir lo que parece apropiado.
El problema no es intención malvada ni un prompt mal escrito. Los modelos de lenguaje se entrenan para predecir el siguiente token de forma que el resultado sea maximalmente útil y apropiado en un contexto dado. Cuando el contexto requiere datos de contacto—el modelo los genera. La instrucción "no lo inventes" compite con comportamiento aprendido de miles de millones de parámetros ajustados para utilidad mediante RLHF. En esta competencia, el prompt casi siempre pierde. El deseo del modelo de ser útil resulta ser más fuerte que cualquier prohibición verbal.
Esto significa una consecuencia concreta para productos: si tu servicio se basa en un LLM para entregar datos críticos—números de teléfono, direcciones, nombres de especialistas, enlaces legales—estás construyendo sobre un fundamento poco confiable. La alucinación no es una excepción; está integrada en la naturaleza del modelo. Cuanto más "atento" lo hagas, más fuerte es el impulso de dar una respuesta incluso sin información confiable.
¿Qué funciona en lugar de prompting? Desacoplamiento arquitectónico. Los contactos se almacenan en una base de datos verificada, no en los pesos del modelo. El LLM reconoce la intención del usuario y llama a una función o realiza una consulta RAG: recupera un número específico de una fila específica de la tabla. El modelo no genera dígitos—los extrae. La diferencia es fundamental.
Function calling (tool use) resuelve la tarea directamente. Describes una herramienta get_crisis_contact(region, type)—y con intención apropiada, el modelo la llama en lugar de inventar. La respuesta viene de la base de datos, no de una distribución de probabilidad de tokens.
Un patrón similar es RAG con formato de respuesta estricto: si no se encuentra ningún documento, el modelo debe decirlo explícitamente, en lugar de inventar. Una segunda capa de protección es la validación de salida. Antes de pasar cualquier dato de contacto al usuario, debe verificarse: ¿está el número en una lista blanca verificada, es correcto el formato, está actual? Esto no proporciona garantía absoluta—la base de datos también necesita mantenimiento—pero es órdenes de magnitud más confiable que una instrucción en un prompt.
Un tercer patrón es la separación explícita de tipos de conocimiento en la arquitectura. Hay conocimiento que el modelo puede generar libremente: tono, estructura, empatía, interpretación de situaciones. Hay conocimiento que nunca debe generar: números específicos, direcciones, recomendaciones médicas, datos legalmente significativos. La arquitectura debe excluir físicamente esto último—no pedir al modelo que se abstenga, sino no darle esa posibilidad en primer lugar.
El ejemplo con la línea de crisis es significativo precisamente porque las apuestas son altas. Una persona en crisis recibe un número incorrecto. Esto no es un inconveniente—es un daño potencial. Tales escenarios en producción son mucho más comunes de lo que se reconoce: consultas legales, información médica, datos financieros, recomendaciones de especialistas. En todas partes hay un bot LLM que genuinamente quiere ayudar pero no tiene acceso a información verificada.
La conclusión es simple: prompting no es control—es un deseo. Si el comportamiento es crítico para la seguridad del usuario, saca datos específicos del control generativo del modelo. Dale funciones, bases de datos y herramientas. Deja que entienda el contexto e interprete la intención, pero no que invente hechos. Eso es arquitectura—no un conjunto de palabras mágicas en el system prompt.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.