Estudo aponta falhas graves em chatbots de IA ao orientar pacientes

Foto: Malte Mueller / Getty Images
Ferramentas de inteligência artificial capazes de responder dúvidas médicas em segundos viraram rotina para milhões de pessoas. Mas um novo estudo publicado na revista Nature Medicine em 9 de fevereiro alerta que, na prática, esses chatbots ainda erram com frequência, e não superam buscas tradicionais, como o Google, quando o objetivo é decidir o que fazer diante de sintomas.
A pesquisa analisou o desempenho de modelos populares usados pelo público, incluindo o ChatGPT (OpenAI) e o Llama (Meta), em situações clínicas simuladas. A conclusão dos autores é direta: apesar de avanços importantes, os sistemas não estão prontos para orientar pacientes diretamente em decisões de saúde, especialmente quando existe risco de gravidade e urgência.

Como o estudo foi feito
O trabalho foi conduzido por pesquisadores ligados à Universidade de Oxford. Ao todo, 1.298 participantes no Reino Unido receberam descrições de casos fictícios com sintomas, histórico médico e estilo de vida. A maior parte não tinha formação na área da saúde.
Os voluntários foram divididos em grupos: um usou chatbots de IA para conversar e decidir a melhor conduta; outro buscou informações por métodos “tradicionais”, como pesquisa na internet e sites de saúde. Antes, um grupo de médicos definiu quais seriam as respostas consideradas corretas para cada cenário.

Leia mais
IA como “amiga”: uso de chatbots por adolescentes acende alerta sobre solidão
O que os resultados mostraram
Um ponto que chamou atenção foi o “abismo” entre o desempenho em condições controladas e o uso real por pessoas comuns.
- Quando os próprios pesquisadores testaram os modelos com dados completos, as IAs identificaram condições relevantes em cerca de 95% dos casos (94,9%).
- Quando pessoas comuns conduziram as conversas, a identificação de condições relevantes caiu para menos de 34,5%, e a decisão correta sobre a conduta (ex.: procurar emergência, marcar consulta, observar em casa) ficou abaixo de 44,2%, desempenho sem vantagem sobre métodos tradicionais.
- Em análises citadas por divulgadores científicos, o grupo que usou “Dr. Google” chegou a ter desempenho melhor que o grupo que usou chatbots em parte dos cenário.
Segundo os autores, isso acontece porque a resposta do chatbot depende diretamente da qualidade da descrição feita pelo usuário e, no mundo real, as pessoas tendem a informar sintomas aos poucos, sem detalhes essenciais.
A pesquisa aponta que, com informações incompletas, os chatbots podem gerar recomendações limitadas, imprecisas ou perigosas. Houve casos em que pequenas mudanças na forma de relatar sintomas levaram a orientações totalmente diferentes, mesmo quando o quadro clínico era parecido, o que preocupa por indicar inconsistência na orientação.
Além disso, os autores registraram situações de informações incorretas ou “alucinadas” (quando o sistema cria dados sem base), algo que pode confundir o paciente e atrasar a busca por atendimento.
Uso cresce, mas especialistas pedem cautela
O estudo reforça um alerta: embora a IA possa ser útil para explicar termos, organizar informações e indicar perguntas para levar ao médico, ela não substitui avaliação profissional, e pode falhar justamente nos cenários em que errar custa mais caro, como sinais de emergência.
Como usar IA com mais segurança (sem substituir atendimento)
- Use para entender conceitos e preparar perguntas para a consulta, não para decidir sozinho.
- Desconfie de respostas muito “certezas” sem pedir dados (duração, intensidade, localização, sinais associados).
- Na dúvida, priorize canais oficiais de saúde e atendimento local (no Brasil, por exemplo, 192 (Samu) e 193 (Bombeiros)).
- Se houver sinais de gravidade (dor forte súbita, falta de ar, desmaio, sinais neurológicos, sangramento importante), procure urgência.
O recado do estudo é que a tecnologia tem conhecimento “no papel”, mas ainda tropeça na interação com pessoas reais — e, na saúde, esse tipo de tropeço pode custar caro.





