MIT propone una métrica que detecta errores de confianza y alucinaciones de LLM
MIT presentó una nueva forma de verificar cuándo un modelo de lenguaje suena confiado pero aún comete errores. En lugar de solo autoconsistencia, los…
Procesado por IA desde MIT News; editado por Hamidun News
Investigadores del MIT han propuesto una nueva forma de medir la incertidumbre en grandes modelos de lenguaje y detectar con mayor precisión situaciones en las que una IA responde con confianza pero se equivoca. La idea es simple: los usuarios necesitan ver no solo una respuesta pulida, sino también una señal sobre cuánto se puede confiar realmente en esa confianza, especialmente cuando se trata de tareas donde los errores tienen consecuencias reales.
Por Qué Las Métricas Antiguas Fallan
Hoy, una de las formas populares de verificar la confiabilidad de un LLM es hacer la misma pregunta varias veces y ver si el modelo responde de manera consistente. Si las respuestas coinciden, esto se interpreta frecuentemente como alta confianza. El problema es que esta verificación solo mide la consistencia interna del modelo.
Muestra cuánta confianza tiene el modelo en sí mismo, pero no dice si en realidad tiene razón. Para una interfaz, esta es una señal conveniente, pero no siempre útil. Es aquí donde surge un escenario peligroso: el modelo puede producir repetidamente la misma respuesta incorrecta manteniendo la apariencia de confiabilidad.
Para los usuarios, esto es especialmente arriesgado en tareas donde los errores son costosos—por ejemplo, en medicina, finanzas o análisis aplicado. En tales casos, una alucinación confiada parece más convincente que una respuesta cautelosa pero honesta con salvedades. Por eso, los investigadores decidieron medir no solo la autoconfianza del modelo, sino también la probabilidad de que sea la opción correcta para la pregunta dada.
Cómo Funciona El Nuevo Método
El equipo del MIT complementó la métrica familiar de autoconsistencia con otra señal: el desacuerdo entre modelos. En lugar de hacer la misma pregunta varias veces a un mismo LLM, los investigadores comparan la respuesta del modelo objetivo con respuestas de un pequeño grupo de modelos similares de escala comparable y clase arquitectónica. Si tales modelos comienzan a divergir significativamente en significado, esto se convierte en un indicador importante de que la respuesta original puede no ser confiable, incluso si el modelo objetivo suena muy confiado.
Un punto importante es que la comparación no mide solo la coincidencia literal de palabras, sino la proximidad semántica de las respuestas. Este enfoque refleja mejor el acuerdo o desacuerdo genuino entre modelos que la simple comparación palabra por palabra.
Según los investigadores, en la práctica funcionó mejor una variante inesperadamente simple: usar modelos creados por diferentes empresas. Se probaron esquemas más complejos de selección de ensambles, pero no ofrecieron ventaja sobre esta estrategia directa y transparente.
- Primero, se selecciona el modelo objetivo cuya respuesta necesita evaluarse.
- Luego, se dirige la misma consulta a varios LLMs similares.
- Después, el sistema mide cuánto se alinean las respuestas semánticamente.
- Esta métrica se combina con la métrica estándar de autoconsistencia.
- El resultado es una puntuación de incertidumbre total.
Los autores llaman al segundo componente incertidumbre epistémica: muestra cuán bien se eligió el modelo mismo para la tarea específica. Combinada con la incertidumbre aleatoria, que refleja la inestabilidad interna de la respuesta, se obtiene un cuadro más completo del riesgo. En pocas palabras, el sistema verifica tanto si el modelo se contradice a sí mismo como si diverge de otros modelos plausibles. El método funciona en formato de caja negra: requiere solo respuestas de texto, sin acceso a logits o estados internos del modelo.
Dónde El Método Es Más Útil
Los investigadores probaron la métrica combinada en diez tareas realistas, incluyendo escenarios de preguntas y respuestas, resumen, traducción y razonamiento matemático. En la serie principal de experimentos, compararon varios modelos ajustados por instrucción, con pruebas separadas en modelos de API también. En estas pruebas, la puntuación de incertidumbre general detectó de manera más confiable respuestas poco confiables que cualquier componente por separado. El nuevo enfoque funcionó particularmente bien en tareas donde existe una respuesta correcta, como preguntas y respuestas factuales o traducción.
Si un modelo repite la misma respuesta muchas veces, eso no
necesariamente significa que la respuesta sea correcta.
También hay una limitación importante. Para tareas más abiertas donde son aceptables múltiplas variantes de buenas respuestas, la señal de desacuerdo entre modelos puede ser menos útil. En otras palabras, si no se trata de un hecho sino de generación más libre, el desacuerdo entre modelos por sí solo no siempre indica un error. Los autores señalan directamente que en el futuro quieren adaptar la técnica específicamente para tales escenarios e investigar por separado otras formas de evaluar la incertidumbre interna del modelo.
Otra ventaja práctica es el ahorro computacional. En algunos experimentos, calcular la incertidumbre total requería menos consultas que la evaluación tradicional solo a través de autoconsistencia. Esto significa no solo costos de inferencia más bajos, sino también potencialmente menor consumo de energía con uso a gran escala de tales verificaciones. Para producción, este es un argumento importante: si una métrica es simultáneamente más precisa y más barata, tiene muchas más posibilidades de llegar a productos de IA reales que de permanecer como una idea puramente académica.
Qué Significa Esto
Para la industria, este es un paso de evaluar "cuán confiado suena el modelo" a evaluar "cuánto se puede confiar en esta confianza". Si el enfoque se consolida en producción, los servicios de IA podrán advertir con mayor precisión sobre alucinaciones, y los usuarios tendrán menos probabilidad de aceptar un error que suena convincente como una respuesta creíble. Esto es especialmente importante para todos los escenarios donde los LLMs ya funcionan no como un juguete, sino como una herramienta de trabajo que influye en decisiones, dinero y procesos diarios en una empresa.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.