ChatGPT acertou o diagnóstico em cinco casos, mas falhou no plano de tratamento
ChatGPT passou em cinco de cinco casos quanto ao diagnóstico primário no experimento, incluindo MGUS e rabdomiólise induzida por estatinas. Porém surgiram…
Processado por IA de Habr AI; editado por Hamidun News
O experimento em que se esperava que o ChatGPT cometesse pelo menos um erro diagnóstico terminou com um resultado inesperado para os autores: o modelo identificou corretamente o diagnóstico principal em todos os cinco casos médicos. Mas a vitória no nível da formulação do diagnóstico não se transformou em uma vitória geral na comparação clínica. A lacuna mais notável tornou-se aparente depois — no plano de ação prático após a resposta: quais exames são necessários antes do início da terapia, para quais especialistas encaminhar o paciente, quais indicadores-alvo monitorar e quando repetir os testes.
Foi precisamente nesta etapa que o ChatGPT perdeu mais frequentemente para o serviço especializado MedAssist. A comparação incluiu cinco casos: síndrome metabólica, hipotireoidismo subclínico, perimenopausa, MGUS e rabdomiólise induzida por estatina. Em todos os casos, ChatGPT acertou o diagnóstico principal, o que é notável para um LLM universal.
Os autores reconhecem que antes de executar o teste esperavam pelo menos um erro sério, mas isso não aconteceu. No entanto, em medicina, o diagnóstico em si é apenas parte da tarefa. O próximo passo é igualmente importante: é seguro iniciar o tratamento, quais sinais de alerta verificar antecipadamente e quais testes esclarecedores são necessários para não perder contraindicações ou riscos associados.
É aqui que a diferença entre os modelos tornou-se sistêmica. Em quatro casos rotineiros, ChatGPT respondeu pior à pergunta sobre o que o paciente deveria fazer nas próximas duas semanas. Não se tratava de uma formulação bonita, mas de lógica clínica aplicada: por exemplo, lembrar sobre PSA antes da terapia de reposição de testosterona, sobre mamografia antes de prescrever terapia hormonal da menopausa, sobre níveis de indicadores-alvo e prazos para reteste.
No caso de rabdomiólise, a interpretação da razão AST para ALT também se provou importante — um detalhe que afeta a compreensão das causas das mudanças nos resultados dos testes e na estratégia de manejo subsequente. Mas a comparação também teve um exemplo inverso. No caso de MGUS, gamopatia monoclonal de significado indeterminado, foi o MedAssist que se mostrou mais fraco.
ChatGPT claramente calculou a razão albumina-globulina e listou separadamente os estudos confirmatórios que o paciente deveria levar a um hematologista. Os autores escrevem diretamente que seu serviço não fez nenhum dos dois, e é por isso que sua análise deste caso resultou ser a mais detalhada. Tal episódio é importante não apenas como uma perda local, mas como um lembrete: um produto especializado não ganha vantagem automaticamente simplesmente porque foi criado para uma tarefa restrita.
Os autores observam em separado um possível conflito de interesses: o texto foi preparado pela equipe que desenvolve o MedAssist, um dos dois serviços sendo comparados. Eles não tentam esconder isso e argumentam que fixaram a metodologia antecipadamente, publicaram as respostas de ambos os serviços literalmente e analisaram minuciosamente seu próprio caso malsucedido em vez de apenas passarem por ele. Isso não elimina dúvidas sobre neutralidade completa, mas torna o material mais útil do que demonstrações de marketing típicas onde apenas exemplos convenientes são mostrados.
Para o leitor, o que é mais valioso aqui é não a pontuação por casos, mas a transparência sobre onde exatamente os modelos são fortes e onde começam a cometer erros nas soluções aplicadas. A conclusão principal deste teste é bastante direta: modelos de linguagem grandes já podem acertar consistentemente o diagnóstico mesmo em casos complexos, mas a qualidade de uma resposta médica não pode ser avaliada apenas pela primeira linha. Se o sistema nomeou corretamente a condição, mas não sugeriu exames obrigatórios antes da terapia, não delineou o caminho para o especialista necessário e não esclareceu os prazos de controle, o risco de erro não desaparece.
Para desenvolvedores de serviços médicos de IA, este é um sinal para deslocar o foco de diagnósticos impressionantes para o cenário completo de manejo do paciente. E para os usuários — um lembrete de que o valor desses sistemas é determinado não apenas pela precisão do reconhecimento, mas também pela segurança do próximo passo.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.