Investigadores del MIT enseñan a la IA a decir honestamente "no estoy seguro" y alucinar menos
MIT demostró una forma de reducir uno de los principales problemas de los modelos de razonamiento—errores confiados. El nuevo método RLCR enseña a la IA no…
Procesado por IA desde MIT News; editado por Hamidun News
Investigadores del MIT han propuesto una forma de hacer los modelos de lenguaje notablemente más honestos en sus respuestas: no solo resolver la tarea, sino simultáneamente evaluar qué tan seguros están en su propia conclusión. Esto suena como un ajuste menor, pero en la práctica ataca uno de los problemas más frustrantes de los modelos de razonamiento modernos — el hábito de hablar en tono seguro incluso cuando la respuesta fue esencialmente adivinada. La nueva metodología no reduce la calidad de las respuestas en sí; al contrario, ayuda al modelo a distinguir mejor casos donde realmente sabe algo de situaciones donde debería reconocer incertidumbre.
El equipo MIT CSAIL plantea el problema de forma bastante directa: los modelos poderosos de hoy a menudo se comportan como la persona más ruidosa de la sala. Responden con igual seguridad si la lógica funcionó o si el modelo simplemente adivinó. Según los investigadores, la razón radica en el propio esquema de aprendizaje por refuerzo actualmente utilizado para desarrollar capacidades de razonamiento.
En la variante típica, un modelo recibe una recompensa por una respuesta correcta y una penalización por una incorrecta. Hay casi ningún estado intermedio. Si un modelo aleatoriamente llega a un resultado correcto, se recompensa de la misma forma como si hubiera cuidadosamente derivado la solución.
Con el tiempo, esto empuja el sistema a siempre responder, dejando ningún espacio para la frase "no estoy seguro". Esto es precisamente lo que MIT intentó corregir en el enfoque RLCR — Reinforcement Learning with Calibration Rewards. En lugar de una evaluación puramente binaria, investigadores añadieron otro componente a la función de recompensa: la puntuación de Brier, una métrica que compara la confianza declarada con la precisión real.
En la práctica, después de una cadena de razonamiento, el modelo produce no solo una respuesta, sino también una evaluación numérica de su propia confianza. Si está demasiado seguro y se equivoca, esto es penalizado. Si, al contrario, da una respuesta correcta pero subestima la confianza sin razón, esto también se tiene en cuenta.
Los autores afirman que tal esquema formalmente conduce a dos objetivos simultáneamente: alta precisión y buena calibración — es decir, correspondencia entre lo que el modelo dice sobre su confianza y qué tan a menudo realmente tiene razón. Los experimentos se realizaron en un modelo con 7 mil millones de parámetros. Según MIT, RLCR redujo el error de calibración en hasta 90 por ciento comparado con el aprendizaje por refuerzo estándar, mientras que la precisión no disminuyó e incluso aumentó en algunos tests.
El efecto persistió no solo en las tareas en las que fue entrenado el modelo, sino también en nuevos conjuntos de datos, incluyendo seis conjuntos que no había visto antes. Investigadores separadamente compararon el método con enfoques post-hoc, donde la confianza se evalúa después del entrenamiento a través de un clasificador externo. RLCR resultó superior aquí también: en lugar de un complemento cosmético a un modelo terminado, cambia el comportamiento del sistema durante el propio entrenamiento.
Además, el equipo MIT muestra que el RL estándar no solo falla en mejorar la calibración, sino que a menudo la empeora: el modelo se vuelve más capaz pero simultáneamente más excesivamente seguro. Hay valor práctico en esto también. Si un modelo genera múltiples opciones de respuesta, puede elegir aquella donde reporta la confianza más alta, o ponderar los votos de los candidatos con esta evaluación en mente.
Según los autores, esto mejora tanto la precisión como la calibración a medida que los recursos computacionales para la inferencia aumentan. Otro resultado interesante: cuando investigadores entrenaron clasificadores separados en las salidas del modelo, el razonamiento explícito sobre su propia incertidumbre proporcionó una señal adicional útil, especialmente para modelos más compactos. En otras palabras, el intento del modelo de articular qué sabe y qué no sabe resulta ser no un elemento decorativo, sino una parte sustancial de la predicción.
¿Qué significa esto en la práctica? Si el enfoque RLCR se escala a modelos comerciales más grandes, la industria gana una oportunidad de reducir no solo el número de errores explícitos, sino también el número de errores peligrosos enmascarados por un tono seguro. Para campos como medicina, derecho, finanzas y análisis corporativo, esto es especialmente importante: los usuarios necesitan no solo obtener una respuesta, sino entender cuánto pueden confiar en ella.
El trabajo del MIT ofrece no otro filtro encima de un modelo ya entrenado, sino una idea más fundamental: enseñar a la IA no solo a encontrar soluciones, sino a medir honestamente los límites de su propio conocimiento. Es precisamente este hábito el que podría resultar ser una de las actualizaciones más útiles para la próxima generación de sistemas de razonamiento.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.