Los errores en el razonamiento de la AI son más peligrosos que las respuestas incorrectas
Es ampliamente conocido que la inteligencia artificial (IA) aún comete errores. Sin embargo, un problema más grave podrían ser las deficiencias en la forma…
Procesado por IA desde IEEE Spectrum AI; editado por Hamidun News
Es ampliamente conocido que la inteligencia artificial (IA) aún comete errores. Sin embargo, un problema más grave podrían ser las deficiencias en la forma en que llega a las conclusiones. A medida que la IA generativa se utiliza cada vez más como asistente en lugar de simplemente una herramienta, dos nuevos estudios muestran que la lógica de razonamiento de los modelos puede tener consecuencias graves en áreas críticas como la sanidad, la jurisprudencia y la educación.
En los últimos años, la precisión de los grandes modelos de lenguaje (LLMs) al responder preguntas sobre diversos temas ha aumentado significativamente. Esto ha generado un creciente interés en el potencial de la tecnología en áreas como el diagnóstico médico, la prestación de apoyo terapéutico o el funcionamiento como tutor virtual. Los informes anecdóticos sugieren que los usuarios ya están utilizando ampliamente los LLMs listos para usar en tales tareas, con resultados mixtos.
Recientemente, una mujer en California canceló un aviso de desalojo utilizando IA para obtener asesoramiento legal, pero un hombre de 60 años sufrió envenenamiento por bromuro después de acudir a estas herramientas para obtener consejo médico. Los terapeutas advierten que el uso de IA para apoyar la salud mental a menudo exacerba los síntomas de los pacientes.
La nueva investigación sugiere que parte del problema radica en que estos modelos razonan de forma fundamentalmente diferente a los humanos, lo que puede hacer que se "rompan" al resolver problemas más complejos. Un artículo reciente en Nature Machine Intelligence encontró que los modelos tienen dificultades para distinguir entre creencias del usuario y hechos, y un artículo no publicado en arXiv afirma que los sistemas multiagente diseñados para proporcionar asesoramiento médico son propensos a defectos de razonamiento que podrían malograr el diagnóstico.
"A medida que hacemos la transición de la IA simplemente como herramienta a la IA como agente, el 'cómo' se vuelve cada vez más importante", dice James Zu, profesor asociado de ciencia de datos biomédicos en la Escuela de Medicina de Stanford y autor principal del artículo en Nature Machine Intelligence. "Una vez que la utiliza como sustituto de un consultor, tutor, médico o incluso un amigo, la respuesta final no es lo único que importa. El proceso completo y la conversación completa realmente importan."
Los problemas en cómo los modelos toman decisiones pueden ser particularmente problemáticos en instituciones médicas. Hay un creciente interés en utilizar sistemas multiagente, en los que varios agentes de IA participan en una discusión colaborativa para resolver un problema, con la esperanza de replicar los equipos interdisciplinarios de médicos que diagnostican condiciones médicas complejas, dice Lequan Yu, profesor asociado de IA médica en la Universidad de Hong Kong. Por lo tanto, él y sus colegas decidieron investigar cómo estos sistemas razonan al resolver problemas probando seis de ellos en 3.600 casos reales de seis conjuntos de datos médicos.
Ambos grupos de investigadores dicen que los defectos en el razonamiento de los modelos pueden rastrearse hasta la forma en que se entrenan. Los LLMs más recientes se entrenan para razonar al resolver tareas complejas de múltiples pasos utilizando aprendizaje por refuerzo, donde el modelo recibe una recompensa por caminos lógicos que conducen a la conclusión correcta. Sin embargo, generalmente se entrenan en tareas con soluciones específicas, como codificación y matemáticas, que se adaptan mal a tareas más abiertas, como determinar creencias humanas subjetivas, dice Zu.
El enfoque en recompensar resultados correctos también significa que el entrenamiento no optimiza los buenos procesos de razonamiento, dice Zhu. Y los conjuntos de datos rara vez incluyen los debates y discusiones necesarios para sistemas médicos multiagente efectivos, lo que, en su opinión, puede ser la razón por la que los agentes se aferran a sus opiniones independientemente de si tienen razón o no.
Mejorar los métodos de entrenamiento, en particular prestando mayor atención a los procesos de razonamiento en lugar de solo resultados finales, es un paso clave. Desarrollar conjuntos de datos que incluyan ejemplos de colaboración eficaz y debate también puede ayudar a los modelos a desarrollar una comprensión más matizada de problemas complejos. Solo entonces podemos confiar con seguridad en la IA en áreas críticas como la sanidad y la educación.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.