De nombreuses recherches regardent comment les différentes formes d’intelligence artificielle (IA) pourraient apporter de nouvelles opportunités à la pratique de la médecine, mais précisent aussi quelles sont les limites actuelles de leur utilisation. L’objectif reste en effet de trouver le juste compromis entre l’intervention humaine du professionnel de santé et cette nouvelle génération de modèles de diagnostic ou de prescription. Cette étude d’une équipe de l’Université de Californie – San Francisco (UCSF), publiée dans la revue Nature Communications, nous apprend, que dans un contexte d’urgence, ChatGPT aurait tendance à surprescrire, en particulier des antibiotiques et des examens d’imagerie. Bref, également un mauvais point pour la planète.
Le recours à IA en santé doit donc encore trouver le bon équilibre entre trop peu et trop d’intégration en particulier lorsqu’il s’agit de décision thérapeutique en urgence. Si ChatGPT était ainsi « systématique » en service des Urgences, l’outil aurait tendance à prescrire des radiographies et des antibiotiques inutiles pour certains patients mais, plus largement, pourrait hospitaliser inutilement de nombreux patients.
Même si le modèle pourrait être sollicité pour une prise de décision plus précise,
il ne peut toujours pas rivaliser avec le jugement clinique d'un médecin humain.
« C'est un message crucial que nous lançons aux médecins, de ne pas faire aveuglément confiance à ces modèles d’IA », résume l’auteur principal, Chris Williams, chercheur à l’UCSF. « ChatGPT peut répondre à des questions d’examen médical et aider à rédiger des notes cliniques, mais il n’est pas actuellement conçu pour les situations qui nécessitent de multiples considérations, comme les décisions à prendre dans un service des Urgences ».
Une récente recherche de la même équipe avait montré que ChatGPT, est légèrement « meilleur » que les médecins pour déterminer lequel de 2 patients des urgences était le plus gravement malade, soit d’effectuer un choix simple entre un patient A et un patient B.
L’étude actuelle met le modèle d’IA au défi d’effectuer une tâche plus complexe : soit fournir les recommandations thérapeutiques pour un patient aux Urgences. Cela comprend la décision d’hospitaliser le patient, de faire des radiographies ou d’autres examens d’imagerie, ou de prescrire des antibiotiques ou d’autres médicaments. Pour ces 3 décisions, l’équipe a utilisé l’IA pour analyser 1.000 visites aux urgences, le modèle ayant été précédemment nourri de plus de 250.000 visites. L’analyse révèle :
- cette propension de l’IA à recommander plus souvent certains examens ou médicaments, que nécessaire ;
- au global, ChatGPT-4 se révèle moins précis que les médecins résidents dans 8 % des cas.
Pourquoi cette tendance de l’IA à surprescrire ? Ce biais pourrait être dû au fait que les modèles sont formés, au tout départ, à partir de données qui ne se situent pas dans ce contexte d’urgence. Ces modèles sont réglés pour apporter « un avis médical », légitime du point de vue de la sécurité et non de l’urgence.
« Ces modèles ont tendance à pécher par excès de prudence ».
Si ChatGPT a sa contribution à apporter aux soins de santé, l’outil devra encore progresser pour pouvoir s’adapter à ces contextes critiques. En d’autres termes, s’il ne doit pas passer à côté d’un problème grave, il ne devrait pas déclencher des soins, des examens et des dépenses inutiles.
Source: Nature Communications 8 Oct, 2024 DOI : 10.1038/s41467-024-52415-1 Evaluating the use of large language models to provide clinical recommendations in the Emergency Department
Plus sur l’Intelligence artificielle (IA) en santé