IEEE Spectrum AI→ original

La AI de OpenAI superó a los médicos en diagnóstico — pero los científicos piden cautela

Una LLM de OpenAI acertó el diagnóstico en el 82% de los casos basados en historias reales de atención de emergencia — más que los médicos (79% y 70%). Pero los

La AI de OpenAI superó a los médicos en diagnóstico — pero los científicos piden cautela
Fuente: IEEE Spectrum AI. Collage: Hamidun News.
◐ Escuchar artículo

El modelo de lenguaje de OpenAI superó a los médicos en precisión diagnóstica en datos reales de emergencia por primera vez. La investigación fue publicada en la revista Science el 30 de abril.

Lo Que el Estudio Mostró

El modelo o1-preview de OpenAI analizó historiales médicos de 76 casos reales en el departamento de emergencia. En diferentes etapas del tratamiento—en la admisión, después del examen médico, después de la transferencia a otro departamento—el modelo hizo diagnósticos en paralelo con dos médicos. Y acertó más frecuentemente: en la etapa final, 82% de diagnósticos correctos versus 79% y 70% para los médicos. Curiosamente, tanto los humanos como el modelo mostraron mejores resultados cuando había más información. Pero la IA mantuvo una ventaja en todas las etapas, incluso con datos incompletos.

  • 82% de precisión diagnóstica versus 79% y 70% para médicos
  • Probado en historiales reales de emergencia
  • El modelo analizó conjuntos completos de detalles
  • Mejoró resultados con cada nueva información

Pero los Médicos Son Cautelosos

Los autores del estudio se apresuran a aclarar: la IA no reemplaza a los médicos. "No creo que nuestros resultados signifiquen que la IA desplazará a los médicos", dice el coautor Arjun Manrai de la Harvard Medical School. Su colega Adam Rodman, instructor de medicina en Boston, añade: "Los resultados son geniales, no me malentiendas, pero estoy ligeramente preocupado por cómo podrían usarse." El principal problema es que no hay un estándar unificado para evaluar LLMs en tareas médicas. Algunos investigadores consideran un éxito si un modelo identifica 5 de 7 diagnósticos posibles. Otros ven esto como un fracaso completo. El mismo resultado se evalúa de diferentes formas.

El Problema con la Confiabilidad de los Chatbots

La investigación paralela muestra que los chatbots frecuentemente mienten sobre cuestiones médicas. Casi la mitad de las respuestas contienen errores: fuentes fabricadas, consejos imprecisos, entrega confiada de falsedades. El modelo parece igualmente convincente, ya sea que sea correcto o no.

"Estos modelos se usan todos los días, y hay cierto riesgo que nadie mide o mitiga", —

Arya Rao, Harvard

Para un médico, la tarea es más compleja: cuando el modelo proporciona una consulta, el médico necesita entender rápidamente si es correcta o una alucinación. Por supuesto, un médico entenderá mejor qué información importa. Pero detectar mentiras en una respuesta convincente es un desafío.

Qué Significa Esto

OpenAI ya ha lanzado ChatGPT para médicos y asistencia médica. La tecnología se mueve más rápido de lo que la medicina puede regular y probar. Se necesitan ensayos clínicos reales y flujos de trabajo claros, donde el médico use la IA como asistente en consultas, no como la respuesta final. La velocidad de la innovación es importante, pero la responsabilidad es aún más necesaria.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…