Bloomberg Tech→ original

ChatGPT, Gemini e Grok forneceram conselhos médicos problemáticos em metade das respostas

Uma nova auditoria de chatbots de IA populares revelou um resultado desagradável: aproximadamente metade das respostas a perguntas médicas se mostrou…

Processado por IA de Bloomberg Tech; editado por Hamidun News
ChatGPT, Gemini e Grok forneceram conselhos médicos problemáticos em metade das respostas
Fonte: Bloomberg Tech. Colagem: Hamidun News.
◐ Ouvir artigo

Uma nova auditoria do BMJ Open revela algo desconfortável: os chatbots de IA populares já se tornaram parte da vida cotidiana, mas quando se trata de saúde, não se pode confiar neles como uma fonte independente de recomendações. Os pesquisadores chegaram à conclusão de que aproximadamente metade das respostas a consultas médicas se mostrou problemática — desde informações incompletas até conselhos que, sem consulta médica, poderiam levar uma pessoa a um tratamento ineficaz ou potencialmente perigoso. A equipe de pesquisa testou cinco serviços públicos — ChatGPT, Gemini, Meta AI, Grok e DeepSeek — em cinco tópicos onde mitos e desinformação são particularmente comuns: câncer, vacinas, células-tronco, nutrição e desempenho atlético.

Em fevereiro de 2025, cada bot recebeu 50 perguntas, com um total de 250 respostas analisadas. Alguns pedidos foram de resposta fechada, com uma resposta correta dentro do consenso científico, e outros de resposta aberta, exigindo que o sistema fornecesse sua própria explicação ou listasse possíveis cursos de ação. Os resultados foram severos.

Metade de todas as respostas foi considerada problemática: 30% eram moderadamente problemáticas, outras 20% eram severamente problemáticas. Em outras palavras, não se trata apenas de pequenos erros de formulação, mas também inclui conselhos que poderiam levar usuários a um tratamento ineficaz ou causar dano se seguidos sem um médico. Os modelos tiveram desempenho particularmente ruim em perguntas abertas: quando precisavam formular sua própria recomendação em vez de escolher entre opções fornecidas, a proporção de respostas mais arriscadas aumentava notavelmente.

Havia diferenças entre os serviços, embora em média todos demonstrassem vulnerabilidades. De acordo com o estudo, Grok fornecia com mais frequência as respostas mais problemáticas: 29 de 50 de suas respostas, ou 58%, foram classificadas na categoria mais grave. Gemini, por outro lado, apresentou a menor proporção de respostas mais problemáticas e a maioria das respostas sem problemas aparentes.

Por tópico, os chatbots tiveram melhor desempenho em perguntas sobre vacinas e câncer, e pior desempenho em células-tronco, desempenho atlético e nutrição — áreas onde há particularmente muitas afirmações controversas, práticas alternativas e conselhos pseudocientíficos na esfera pública. Um problema separado envolve não apenas o conteúdo, mas a apresentação. Os autores observam que as respostas foram quase sempre escritas em tom confiante e raramente acompanhadas de ressalvas ou avisos.

De 250 consultas, os chatbots se recusaram a responder apenas duas vezes, e ambas as recusas vieram do Meta AI. A qualidade das citações se mostrou fraca: a completude média da bibliografia era de cerca de 40%, e nenhum serviço conseguiu fornecer uma lista de fontes completamente precisa, em parte devido a citações fabricadas ou distorcidas. Além disso, os textos eram complexos para um público geral e em nível de leitura correspondiam mais a um graduado de faculdade do que a alguém simplesmente tentando entender rapidamente seu sintoma ou prescrição.

Os autores enfatizam que isso não é um veredito contra o uso de IA em medicina e não é prova da inutilidade completa dos chatbots. O estudo tem limitações: cobriu apenas cinco modelos, testou-os em um ponto específico no tempo e deliberadamente usou algumas consultas como um teste de estresse para expor vulnerabilidades do sistema. Portanto, as 50% de respostas problemáticas não devem ser aplicadas mecanicamente a todos os diálogos cotidianos com IA.

Mas a conclusão mais importante é diferente: quando um tópico é controverso, carregado emocionalmente ou já saturado de mitos médicos, o modelo facilmente reproduz texto convincentemente soado sem apoio científico suficiente. De acordo com dados da Gallup de 15 de abril de 2026, 25% dos americanos já usaram ferramentas de IA para informações ou conselhos médicos, então isso não é um hábito de nicho, mas comportamento em massa. O significado prático desta pesquisa é bastante direto.

Um chatbot pode ser útil como um navegador rápido: explicando um termo, ajudando a compilar uma lista de perguntas para um médico, ou sugerindo o que mais esclarecer. Mas não deve substituir diagnóstico, raciocínio clínico e seleção de tratamento. Para empresas de IA, este é um sinal para fortalecer proteções defensivas, verificação de citações e avisos ao usuário.

Para os próprios usuários, um lembrete de que o tom confiante de um modelo não garante confiabilidade. Quanto maior o custo do erro, menos espaço para improviso a máquina tem.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…