ChatGPT, Gemini y Grok dieron consejos médicos problemáticos en la mitad de las respuestas
Una nueva auditoría de chatbots de IA populares reveló un resultado desafortunado: aproximadamente la mitad de las respuestas a preguntas médicas resultó…
Procesado por IA desde Bloomberg Tech; editado por Hamidun News
Una nueva auditoría del BMJ Open revela algo inquietante: los chatbots de IA populares ya se han convertido en parte de la vida cotidiana, pero cuando se trata de salud, no se puede confiar en ellos como una fuente independiente de recomendaciones. Los investigadores llegaron a la conclusión de que aproximadamente la mitad de las respuestas a consultas médicas resultó ser problemática — desde información incompleta hasta consejos que, sin consulta médica, podrían llevar a una persona hacia un tratamiento ineficaz o potencialmente peligroso. El equipo de investigación probó cinco servicios públicos — ChatGPT, Gemini, Meta AI, Grok y DeepSeek — en cinco temas donde los mitos y la desinformación son particularmente comunes: cáncer, vacunas, células madre, nutrición y rendimiento deportivo.
En febrero de 2025, a cada bot se le hicieron 50 preguntas, analizándose un total de 250 respuestas. Algunas consultas fueron de tipo cerrado, con una respuesta correcta dentro del consenso científico, y otras de tipo abierto, que requerían que el sistema proporcionara su propia explicación u listara posibles cursos de acción. Los resultados fueron severos.
La mitad de todas las respuestas fue considerada problemática: el 30% fueron moderadamente problemáticas, otro 20% fueron severamente problemáticas. En otras palabras, no se trata solo de pequeños errores de formulación, sino que también incluye consejos que podrían llevar a los usuarios hacia un tratamiento ineficaz o causarles daño si se siguen sin un médico. Los modelos se desempeñaron particularmente mal en preguntas abiertas: cuando necesitaban formular su propia recomendación en lugar de elegir entre opciones dadas, la proporción de respuestas más riesgosas aumentaba notablemente.
Había diferencias entre los servicios, aunque en promedio todos demostraron vulnerabilidades. Según el estudio, Grok proporcionaba con más frecuencia las respuestas más problemáticas: 29 de sus 50 respuestas, o el 58%, fueron clasificadas en la categoría más grave. Gemini, por el contrario, mostró la menor proporción de respuestas más problemáticas y la mayoría de respuestas sin problemas evidentes.
Por tema, los chatbots funcionaron mejor en preguntas sobre vacunas y cáncer, y peor en células madre, rendimiento deportivo y nutrición — áreas donde hay particularmente muchas afirmaciones controvertidas, prácticas alternativas y consejos pseudocientíficos en la esfera pública. Un problema separado implica no solo el contenido sino la presentación. Los autores señalan que las respuestas casi siempre fueron escritas en un tono confiado y raramente fueron acompañadas de salvedades o advertencias.
De 250 consultas, los chatbots se negaron a responder solo dos veces, y ambas negativas provinieron de Meta AI. La calidad de las citas resultó ser débil: la completitud promedio de la bibliografía fue de alrededor del 40%, y ningún servicio logró proporcionar una lista de fuentes completamente precisa, en parte debido a citas fabricadas o distorsionadas. Además, los textos eran complejos para una audiencia general y en nivel de lectura correspondían más a un graduado de universidad que a alguien simplemente tratando de comprender rápidamente su síntoma o prescripción.
Los autores enfatizan que esto no es un veredicto contra el uso de IA en medicina ni prueba de la inutilidad completa de los chatbots. El estudio tiene limitaciones: cubrió solo cinco modelos, los probó en un momento específico en el tiempo y deliberadamente utilizó algunas consultas como prueba de estrés para exponer vulnerabilidades del sistema. Por lo tanto, el 50% de respuestas problemáticas no debe aplicarse mecánicamente a todos los diálogos cotidianos con IA.
Pero la conclusión más importante es diferente: cuando un tema es controvertido, cargado emocionalmente o ya saturado de mitos médicos, el modelo fácilmente reproduce texto que suena convincente sin el suficiente respaldo científico. Según datos de Gallup del 15 de abril de 2026, el 25% de los estadounidenses ya han utilizado herramientas de IA para información o consejos médicos, por lo que esto no es un hábito de nicho sino un comportamiento masivo. El significado práctico de esta investigación es bastante directo.
Un chatbot puede ser útil como navegador rápido: explicar un término, ayudar a compilar una lista de preguntas para un médico o sugerir qué más aclarar. Pero no debe reemplazar el diagnóstico, el razonamiento clínico y la selección del tratamiento. Para las empresas de IA, esta es una señal para fortalecer salvaguardias protectoras, verificación de citas y advertencias para usuarios.
Para los propios usuarios, un recordatorio de que el tono confiado de un modelo no garantiza confiabilidad. Cuanto mayor es el costo del error, menos margen para improvisación tiene la máquina.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.