ChatGPT acertó el diagnóstico en cinco casos, pero falló en la planificación del tratamiento
ChatGPT pasó cinco de cinco casos en el diagnóstico principal en el experimento, incluyendo MGUS y rabdomiólisis inducida por estatinas. Sin embargo…
Procesado por IA desde Habr AI; editado por Hamidun News
El experimento en el que se esperaba que ChatGPT cometiera al menos un error diagnóstico terminó con un resultado inesperado para los autores: el modelo identificó correctamente el diagnóstico principal en los cinco casos médicos. Pero la victoria en el nivel de la formulación del diagnóstico no se transformó en una victoria general en la comparación clínica. La brecha más notable se hizo evidente más adelante — en el plan de acción práctico después de la respuesta: qué exámenes se necesitan antes de comenzar la terapia, a qué especialistas derivar al paciente, qué indicadores objetivo monitorear y cuándo repetir los análisis.
Fue precisamente en esta etapa donde ChatGPT perdió más frecuentemente ante el servicio especializado MedAssist. La comparación incluyó cinco casos: síndrome metabólico, hipotiroidismo subclínico, perimenopausia, MGUS y rabdomiólisis inducida por estatinas. En todos los casos, ChatGPT acertó el diagnóstico principal, lo cual es notable para un LLM universal.
Los autores reconocen que antes de ejecutar la prueba esperaban al menos un error grave, pero esto no sucedió. Sin embargo, en medicina, el diagnóstico en sí es solo parte de la tarea. El siguiente paso es igualmente importante: ¿es seguro comenzar el tratamiento, qué señales de alerta verificar de antemano y qué pruebas aclaratorias se necesitan para no perder contraindicaciones o riesgos asociados.
Es aquí donde la diferencia entre los modelos se volvió sistémica. En cuatro casos rutinarios, ChatGPT respondió peor a la pregunta de qué debe hacer el paciente en las próximas dos semanas. No se trataba de una formulación bonita, sino de lógica clínica aplicada: por ejemplo, recordar sobre PSA antes de la terapia de reemplazo de testosterona, sobre mamografía antes de prescribir terapia hormonal menopáusica, sobre niveles objetivo de indicadores y plazos para repetir análisis.
En el caso de rabdomiólisis, la interpretación de la relación AST a ALT también resultó importante — un detalle que afecta la comprensión de las causas de cambios en los resultados de análisis y la estrategia de manejo posterior. Pero la comparación también tuvo un ejemplo inverso. En el caso de MGUS, gamopatía monoclonal de significado indeterminado, fue MedAssist el que resultó más débil.
ChatGPT claramente calculó la relación albúmina-globulina y enumeró por separado los estudios confirmatorios que el paciente debería llevar a un hematólogo. Los autores escriben directamente que su servicio no hizo ninguno de los dos, y es por eso que su análisis de este caso resultó ser el más detallado. Tal episodio es importante no solo como una derrota local, sino como un recordatorio: un producto especializado no obtiene ventaja automáticamente simplemente por haber sido creado para una tarea estrecha.
Los autores notan por separado un posible conflicto de intereses: el texto fue preparado por el equipo que desarrolla MedAssist, uno de los dos servicios siendo comparados. No intentan ocultarlo y argumentan que fijaron la metodología por adelantado, publicaron las respuestas de ambos servicios literalmente, y analizaron detalladamente su propio caso fallido en lugar de apenas pasarlo por alto. Esto no elimina preguntas sobre neutralidad completa, pero hace el material más útil que demostraciones de marketing típicas donde solo se muestran ejemplos convenientes.
Para el lector, lo más valioso aquí es no la puntuación por casos, sino la transparencia sobre dónde exactamente los modelos son fuertes y dónde comienzan a cometer errores en soluciones aplicadas. La conclusión principal de esta prueba es bastante directa: los modelos grandes de lenguaje ya pueden acertar consistentemente el diagnóstico incluso en casos complejos, pero la calidad de una respuesta médica no puede evaluarse solo por la primera línea. Si el sistema nombró correctamente la condición pero no sugirió exámenes obligatorios antes de la terapia, no delineó la ruta hacia el especialista necesario y no aclaró los plazos de control, el riesgo de error no desaparece.
Para desarrolladores de servicios médicos de IA, esta es una señal para cambiar el enfoque de diagnósticos impresionantes al escenario completo de manejo del paciente. Y para los usuarios — un recordatorio de que el valor de tales sistemas está determinado no solo por la precisión del reconocimiento, sino también por la seguridad del siguiente paso.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.