Habr AI→ original

ChatGPT acertou o diagnóstico em cinco casos, mas falhou no plano de tratamento

ChatGPT passou em cinco de cinco casos quanto ao diagnóstico primário no experimento, incluindo MGUS e rabdomiólise induzida por estatinas. Porém surgiram…

Processado por IA de Habr AI; editado por Hamidun News
ChatGPT acertou o diagnóstico em cinco casos, mas falhou no plano de tratamento
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

O experimento em que se esperava que o ChatGPT cometesse pelo menos um erro diagnóstico terminou com um resultado inesperado para os autores: o modelo identificou corretamente o diagnóstico principal em todos os cinco casos médicos. Mas a vitória no nível da formulação do diagnóstico não se transformou em uma vitória geral na comparação clínica. A lacuna mais notável tornou-se aparente depois — no plano de ação prático após a resposta: quais exames são necessários antes do início da terapia, para quais especialistas encaminhar o paciente, quais indicadores-alvo monitorar e quando repetir os testes.

Foi precisamente nesta etapa que o ChatGPT perdeu mais frequentemente para o serviço especializado MedAssist. A comparação incluiu cinco casos: síndrome metabólica, hipotireoidismo subclínico, perimenopausa, MGUS e rabdomiólise induzida por estatina. Em todos os casos, ChatGPT acertou o diagnóstico principal, o que é notável para um LLM universal.

Os autores reconhecem que antes de executar o teste esperavam pelo menos um erro sério, mas isso não aconteceu. No entanto, em medicina, o diagnóstico em si é apenas parte da tarefa. O próximo passo é igualmente importante: é seguro iniciar o tratamento, quais sinais de alerta verificar antecipadamente e quais testes esclarecedores são necessários para não perder contraindicações ou riscos associados.

É aqui que a diferença entre os modelos tornou-se sistêmica. Em quatro casos rotineiros, ChatGPT respondeu pior à pergunta sobre o que o paciente deveria fazer nas próximas duas semanas. Não se tratava de uma formulação bonita, mas de lógica clínica aplicada: por exemplo, lembrar sobre PSA antes da terapia de reposição de testosterona, sobre mamografia antes de prescrever terapia hormonal da menopausa, sobre níveis de indicadores-alvo e prazos para reteste.

No caso de rabdomiólise, a interpretação da razão AST para ALT também se provou importante — um detalhe que afeta a compreensão das causas das mudanças nos resultados dos testes e na estratégia de manejo subsequente. Mas a comparação também teve um exemplo inverso. No caso de MGUS, gamopatia monoclonal de significado indeterminado, foi o MedAssist que se mostrou mais fraco.

ChatGPT claramente calculou a razão albumina-globulina e listou separadamente os estudos confirmatórios que o paciente deveria levar a um hematologista. Os autores escrevem diretamente que seu serviço não fez nenhum dos dois, e é por isso que sua análise deste caso resultou ser a mais detalhada. Tal episódio é importante não apenas como uma perda local, mas como um lembrete: um produto especializado não ganha vantagem automaticamente simplesmente porque foi criado para uma tarefa restrita.

Os autores observam em separado um possível conflito de interesses: o texto foi preparado pela equipe que desenvolve o MedAssist, um dos dois serviços sendo comparados. Eles não tentam esconder isso e argumentam que fixaram a metodologia antecipadamente, publicaram as respostas de ambos os serviços literalmente e analisaram minuciosamente seu próprio caso malsucedido em vez de apenas passarem por ele. Isso não elimina dúvidas sobre neutralidade completa, mas torna o material mais útil do que demonstrações de marketing típicas onde apenas exemplos convenientes são mostrados.

Para o leitor, o que é mais valioso aqui é não a pontuação por casos, mas a transparência sobre onde exatamente os modelos são fortes e onde começam a cometer erros nas soluções aplicadas. A conclusão principal deste teste é bastante direta: modelos de linguagem grandes já podem acertar consistentemente o diagnóstico mesmo em casos complexos, mas a qualidade de uma resposta médica não pode ser avaliada apenas pela primeira linha. Se o sistema nomeou corretamente a condição, mas não sugeriu exames obrigatórios antes da terapia, não delineou o caminho para o especialista necessário e não esclareceu os prazos de controle, o risco de erro não desaparece.

Para desenvolvedores de serviços médicos de IA, este é um sinal para deslocar o foco de diagnósticos impressionantes para o cenário completo de manejo do paciente. E para os usuários — um lembrete de que o valor desses sistemas é determinado não apenas pela precisão do reconhecimento, mas também pela segurança do próximo passo.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…