Habr AI→ original

Cómo una única instrucción de sistema convierte un LLM en una herramienta confiable: pruebas en Qwen y DeepSeek

Las alucinaciones de LLM no son una sentencia de muerte. Un único prompt de sistema puede transformar un modelo de un 'mentiroso confiado' en una herramienta…

Procesado por IA desde Habr AI; editado por Hamidun News
Cómo una única instrucción de sistema convierte un LLM en una herramienta confiable: pruebas en Qwen y DeepSeek
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Los grandes modelos de lenguaje mienten hermosamente. No porque sean malvados — simplemente porque están entrenados para continuar texto, no para decir la verdad. Donde un modelo carece de los datos necesarios, genera algo plausible y lo presenta con la certeza de un experto.

Para tareas aplicadas — asistentes corporativos, herramientas analíticas, sistemas de apoyo a la decisión — tal comportamiento es inaceptable. Un error entregado con confianza es peor que un error con salvedad. El autor de un artículo en Habr propuso una metáfora simple pero efectiva: los LLM necesitan un exoesqueleto.

No fine-tuning, no una ronda de RLHF, no entrenamiento costoso — una única instrucción de sistema que establece al modelo reglas de comportamiento estrictas en situaciones de incertidumbre. Las pruebas se realizaron en dos de los modelos de código abierto más populares con fuerte soporte para el idioma ruso: Qwen (serie de Alibaba) y DeepSeek — ambos se usan activamente en productos rusos precisamente por su accesibilidad y calidad. La esencia del "exoesqueleto" es evitar que el modelo sea excesivamente confiado donde es incierto.

La instrucción del sistema prescribe varias reglas clave. Primera: reconozca explícitamente la incertidumbre — no la pase por alto en silencio, sino diga directamente "no sé" o "no tengo datos suficientes". Segunda: aclare la solicitud si es ambigua, en lugar de elegir una interpretación y responder a ella.

Tercera: distinga claramente entre hechos en los que el modelo está seguro y aquellos que solo asume. Cuarta: rechace responder en áreas donde el riesgo de error es alto y no hay forma de verificar la información dentro del modelo mismo. En teoría, esto suena trivial.

En la práctica — funciona. Después de agregar la instrucción, Qwen y DeepSeek comenzaron a reconocer mucho más frecuentemente los límites de su conocimiento: en escenarios de prueba con contexto intencionalmente insuficiente o contradictorio, los modelos dejaron de "inventar" y comenzaron a solicitar aclaraciones o marcar explícitamente la incertidumbre. El nivel de alucinaciones confiadas en estos escenarios disminuyó notablemente.

¿Por qué no es obvio? Porque por defecto, los LLM están entrenados para dar una respuesta completa y confiada — precisamente por esto recibieron altas calificaciones en RLHF. Un evaluador humano instintivamente prefiere texto elaborado y confiado a un simple "no sé".

El modelo aprendió esta preferencia. Como resultado, tiene comportamiento integrado directamente opuesto a lo que se necesita en producción real, donde el costo de un error se mide en reputación o dinero. Una instrucción de sistema es una forma de reescribir este comportamiento sin cambiar los pesos del modelo.

Esencialmente, imponemos humildad epistemológica al modelo desde el exterior. De ahí la metáfora del exoesqueleto: el modelo en sí no cambia internamente, pero alrededor de él surge una estructura de comportamiento rígida que dirige las reacciones en la dirección correcta. Un matiz importante: la instrucción debe ser concreta, no declarativa.

"Sé preciso y honesto" no funciona — el modelo ya se considera preciso y honesto. Lo que funciona son situaciones específicas: si la solicitud carece de contexto suficiente — haga una pregunta aclaratoria; si no está seguro de un hecho — indíquelo explícitamente y explique por qué; si la pregunta está fuera de sus datos — dígalo directamente. Cada regla describe un desencadenante específico y una acción específica en respuesta a él.

Los desarrolladores a menudo temen que las restricciones reduzcan la utilidad del modelo. Las pruebas no mostraron tal efecto. En escenarios con contexto suficiente, los modelos funcionaron tan bien como sin la instrucción.

La restricción solo se activó donde los datos realmente faltaban — exactamente esos casos donde el modelo solía alucinar. Para equipos que construyen herramientas internas en LLM — bases de conocimiento corporativas, asistentes analíticos, sistemas de gestión de documentos — este es un resultado prácticamente aplicable ahora mismo. No hay necesidad de esperar la próxima versión del modelo, asignar presupuesto para fine-tuning o cambiar la arquitectura.

Es suficiente escribir correctamente el prompt del sistema — y el modelo comienza a comportarse como el negocio lo necesita, no como fue entrenado para agradar a evaluadores aleatorios.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…