Actualité : “Incroyablement dangereux” : ChatGPT Santé rate une urgence vitale sur deux, des chercheurs sonnent l'alarme

il y a 2 day 3

Publicité, votre contenu continue ci-dessous

Quand l'IA rassure ceux qu'elle devrait envoyer aux urgences

Publié le 02/03/26 à 08h07

Nos réseaux :

Vous avez mal, vous êtes essoufflé, vous tapez vos symptômes dans ChatGPT. Une fois sur deux, l'IA vous dit que ce n'est pas grave, même quand ça l'est. C'est ce que révèle avec fracas la première étude indépendante de l'outil santé d'OpenAI, publiée dans la revue scientifique Nature Medicine.

La page de présentation de ChatGPT Santé sur le site d'OpenAI. L'outil promet une expérience “conçue pour la santé et le bien-être”, mais précise en petits caractères qu'il n'est “pas destiné au diagnostic ni au traitement”.

Quarante millions d'utilisateurs quotidiens... C'est le chiffre avancé par OpenAI quelques semaines après le lancement étonnament très discret de ChatGPT Santé, en janvier 2026. Quarante millions de personnes qui interrogent chaque jour un chatbot sur leurs symptômes, leurs douleurs, leur essoufflement. Et qui reçoivent en retour des recommandations de triage, c'est-à-dire un avis sur l'urgence de consulter, générées par un modèle de langage. Le tout assorti d'un avertissement pour le moins paradoxal : l'outil n'est “pas destiné au diagnostic ni au traitement”.

Publicité, votre contenu continue ci-dessous

Des chercheurs de l'Icahn School of Medicine at Mount Sinai, à New York, ont voulu mettre cette promesse à l'épreuve. Leur étude, publiée le 23 février dans Nature Medicine, constitue la première évaluation indépendante de sécurité de ChatGPT Santé. Soixante scénarios cliniques, couvrant 21 spécialités, ont été soumis à l'outil sous 16 conditions contextuelles différentes (genre, ethnie, présence d'un proche minimisant les symptômes, absence d'assurance maladie). Soit 960 interactions au total, comparées au consensus de trois médecins indépendants s'appuyant sur les référentiels de 56 sociétés savantes.

Un système qui reconnaît le danger, puis rassure quand même

Le constat est très sévère. Parmi les cas que les médecins jugeaient relever d'une urgence immédiate, ChatGPT Santé en a sous-trié 52 %. Des patients en acidocétose diabétique ou en détresse respiratoire imminente se voyaient conseiller une consultation dans les 24 à 48 heures. L'AVC et le choc anaphylactique, eux, étaient correctement repérés, mais ce sont précisément les situations où le diagnostic s'impose avec évidence.

Publicité, votre contenu continue ci-dessous

C'est incroyablement dangereux. Si vous êtes en insuffisance respiratoire ou en acidocétose diabétique, vous avez une chance sur deux que cette IA vous dise que ce n'est pas grave.

Plus troublant encore : dans un scénario d'asthme sévère, le système identifiait lui-même les signaux d'une insuffisance respiratoire débutante dans son explication, avant de conclure par un conseil d'attente. L'IA voyait le danger et le désamorçait dans la même réponse. Un constat dur, qui fait écho à une autre étude publiée dans la même revue quelques semaines plus tôt : des chercheurs d'Oxford avaient montré que les LLM, malgré des scores quasi parfaits aux examens de médecine, n'améliorent pas les décisions des patients qui les consultent, comme nous le rapportions.

Autre biais majeur : l'influence de l'entourage. Lorsqu'un proche simulé minimisait la gravité des symptômes, la probabilité que l'IA réduise le niveau d'urgence était multipliée par près de douze (OR 11,7). En miroir, 64,8 % des patients sans pathologie urgente étaient envoyés aux urgences à tort.

Des garde-fous suicidaires qui se déclenchent à contresens

Le volet le plus glaçant concerne la détection du risque suicidaire.

ChatGPT Santé est conçu pour afficher un bandeau renvoyant, Outre-atlantique, vers la ligne de crise 988 en cas de danger. Or les alertes apparaissaient plus souvent quand le patient ne décrivait aucun moyen précis de passage à l'acte que quand il détaillait un plan concret. Un patient fictif de 27 ans disant penser à avaler des comprimés déclenchait systématiquement l'alerte. Mais l'ajout de résultats biologiques normaux au même scénario, à mots identiques, faisait disparaître le bandeau dans 100 % des cas.

Un garde-fou de crise qui dépend du fait que vous ayez mentionné vos analyses de sang n'est pas prêt. C'est sans doute plus dangereux que l'absence totale de garde-fou, parce que personne ne peut prédire quand il cessera de fonctionner.

OpenAI a répondu que l'étude ne reflétait pas l'usage réel de son outil et que ses modèles continuaient d'être améliorés. Mais l'argument peine à convaincre quand le produit est déjà déployé à l'échelle de dizaines de millions de personnes, sans qu'aucune validation externe n'ait précédé sa mise sur le marché. L'ECRI, organisme indépendant de sécurité des patients, avait d'ailleurs classé le mésusage des chatbots de santé comme premier risque technologique de 2026.

L'équipe de Mount Sinai prévoit de poursuivre ses évaluations, notamment en pédiatrie, en sécurité médicamenteuse et sur les langues autres que l'anglais. D'ici là, le conseil des auteurs reste le même : en cas de symptômes inquiétants, ne pas demander son avis à une machine.

Publicité, votre contenu continue ci-dessous

Suivez toute l'actualité des Numériques sur Google Actualités et sur la chaîne WhatsApp des Numériques

Envie de faire encore plus d'économies ? Découvrez nos codes promo sélectionnés pour vous.

Publications qui peuvent vous intéresser

Lire l’article en entier