IA médicale : les modèles généralistes dépassent OpenEvidence et UpToDate dans un benchmark de Nature Medicine
À retenir (lecture rapide)
• Les LLM généralistes surclassent OpenEvidence et UpToDate Expert AI dans trois évaluations médicales.
• Sur les requêtes réelles, Gemini, GPT et Claude forment un groupe statistiquement comparable.
• Le benchmark mesure la qualité des réponses, pas l’impact sur les soins ou les patients.
• Les refus d’UpToDate peuvent signaler un garde-fou autant qu’une limite d’usage.
Un signal fort, mais borné par le protocole
La formule retenue par les auteurs de Nature Medicine résume la rupture : « Frontier LLMs outperformed clinical AI tools in all three evaluations ».[1] Dans les conditions du test, les modèles généralistes dits « de frontière » font mieux que deux outils conçus pour l’aide médicale à la décision.
La nuance change toutefois la lecture. Sur les requêtes cliniques réelles, Gemini obtient le meilleur score numérique, mais l’étude ne montre pas de différence significative entre Gemini, GPT et Claude. Le résultat robuste n’est donc pas un podium à la décimale près. Il tient plutôt à une séparation en deux groupes : d’un côté les trois LLM généralistes, de l’autre OpenEvidence, UpToDate Expert AI et Google AI Overview.[1]
Cette publication arrive au moment où l’usage courant de l’IA par les médecins américains change d’échelle. Selon l’American Medical Association, 81 % des médecins américains interrogés déclaraient en 2026 utiliser l’IA au travail, contre 38 % en 2023.[8] La question n’est donc plus seulement technologique. Elle devient clinique, organisationnelle et réglementaire.
Trois épreuves pour tester connaissances, alignement et usage réel
Le protocole repose sur trois niveaux complémentaires. Le premier comprend 500 questions MedQA, inspirées de l’US Medical Licensing Examination. Le deuxième mobilise 500 items HealthBench, un benchmark conçu pour mesurer l’alignement des réponses avec des critères cliniques. Le troisième s’appuie sur 100 requêtes cliniques réelles, anonymisées, issues de médecins utilisant une instance GPT conforme au Health Insurance Portability and Accountability Act (HIPAA) de NYU Langone Health.[1]
Sur MedQA, Gemini atteint 97,4 % de bonnes réponses, devant GPT à 94,2 % et Claude à 90,2 %. OpenEvidence obtient 89,6 %, UpToDate Expert AI 88,4 %. Les scores des outils spécialisés restent élevés, mais l’ordre d’arrivée contredit l’idée selon laquelle une spécialisation médicale garantirait mécaniquement une meilleure performance.[1]
Sur HealthBench, l’écart se creuse. GPT obtient 88,0 points sur 100, Gemini 79,3 et Claude 77,0, contre 62,6 pour OpenEvidence et 61,3 pour UpToDate Expert AI. Ce benchmark, publié en mai 2025, repose sur 5 000 conversations de santé et 48 562 critères élaborés avec 262 médecins.[1][2]
Ces chiffres donnent un avantage net aux modèles généralistes. Ils ne suffisent pourtant pas à décrire toute la valeur d’un outil médical. L’ancrage documentaire, la qualité des sources, la capacité à refuser une réponse et l’intégration dans le flux de soin restent des dimensions que les benchmarks capturent imparfaitement.
Des requêtes cliniques qui imposent une lecture par groupes
Le volet le plus proche de la pratique porte sur 100 requêtes réelles. Douze cliniciens américains ont évalué, en aveugle et dans un ordre randomisé, les réponses de six systèmes : GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6, OpenEvidence, UpToDate Expert AI et Google AI Overview. Les réponses étaient notées sur quatre dimensions : justesse clinique, complétude, sécurité ou évitement du dommage, et clarté.[1]
Après exclusion des refus, les scores moyens sur 4 placent les LLM généralistes dans le premier groupe : Gemini à 3,62, GPT à 3,54 et Claude à 3,52, sans différence significative entre eux. OpenEvidence atteint 3,24, UpToDate Expert AI 3,17 et Google AI Overview 3,27, là encore sans différence significative au sein de ce second groupe.[1]
L’étude ne repose pas sur un simple classement de moyennes. Les auteurs rapportent des intervalles de confiance à 95 %, des tests corrigés pour comparaisons multiples, un test de Friedman significatif sur le volet des requêtes réelles et des analyses de sensibilité. Après ajustement sur la sévérité des évaluateurs, les outils spécialisés et Google AI Overview avaient des chances plus faibles d’obtenir une meilleure note que Gemini.[1]
Cette base statistique renforce le signal, mais ne supprime pas toute incertitude. L’accord inter-évaluateurs reste faible à modéré sur les notes fines, avec un alpha de Krippendorff compris entre 0,10 et 0,20. Il devient plus solide lorsque les réponses sont regroupées en deux catégories, acceptables ou non acceptables, avec un kappa ajusté de 0,55 à 0,83.[1] Autrement dit, les cliniciens s’accordent mieux sur la frontière entre réponse utilisable et réponse insuffisante que sur les nuances d’un score à quatre niveaux.
Le refus de répondre, entre prudence clinique et limite pratique
UpToDate Expert AI a refusé 19 % des requêtes, contre 1 à 3 % pour les modèles généralistes et 6 % pour Google AI Overview.[1] Ce chiffre ne doit pas être lu comme un défaut automatique. En médecine, l’abstention peut protéger le patient lorsqu’une question est ambiguë, trop risquée ou insuffisamment contextualisée.
L’étude exclut ces refus des scores après vérification, mais elle ne tranche pas entièrement leur pertinence clinique. Un refus excessif peut limiter l’utilité d’un outil dans le temps court de la décision. Un refus approprié peut, au contraire, témoigner d’un garde-fou. La question laissée ouverte n’est donc pas seulement celle du nombre de refus, mais celle de leur adéquation au risque réel.
Cette nuance vaut aussi pour la sécurité. Dans l’évaluation de Nature Medicine, les modèles ne différaient pas significativement sur les contenus jugés dangereux ou les hallucinations signalées par les évaluateurs. La différence principale portait davantage sur la qualité globale des réponses, avec un écart notable sur la clarté, notamment pour OpenEvidence.[1]
Une comparaison encore biaisée par les interfaces disponibles
L’asymétrie méthodologique constitue l’une des réserves les plus sensibles. Les LLM généralistes ont été interrogés via interface de programmation applicative (API), avec paramètres déterministes. OpenEvidence et UpToDate Expert AI ont, eux, été interrogés manuellement via navigateur, faute d’API publiques. Les auteurs reconnaissent que cette différence peut introduire des effets liés aux prompts cachés, au comportement de récupération documentaire ou au formatage des réponses.[1]
Cette limite ne disqualifie pas le résultat. Elle en précise la portée. L’étude compare des produits tels qu’ils peuvent être rencontrés par des utilisateurs, ce qui présente une valeur pratique. En revanche, elle ne permet pas d’isoler parfaitement la qualité du modèle sous-jacent, celle de l’interface, les choix de garde-fous ou la stratégie de restitution des sources.
Le cas de HealthBench appelle aussi une lecture prudente. Ce benchmark, développé par OpenAI, peut théoriquement favoriser les modèles issus du même écosystème, et Nature Medicine le signale explicitement. Les auteurs considèrent donc l’évaluation par cliniciens sur requêtes réelles comme la preuve principale de leur étude, HealthBench venant en appui.[1]
Le RAG médical, promesse technique et preuve encore fragile
Une partie du débat porte sur la génération augmentée par récupération, ou retrieval augmented generation (RAG). Cette approche consiste à connecter un LLM à des sources externes afin d’ancrer sa réponse dans des documents. En médecine, le principe paraît séduisant : les recommandations évoluent vite, les sources doivent être identifiables et les réponses doivent pouvoir être justifiées.
Mais le RAG médical ne constitue pas une garantie en soi. Les auteurs de Nature Medicine soulignent que cette architecture peut dégrader la performance lorsque des documents peu pertinents sont récupérés ou mal intégrés par le modèle de base.[1] Une revue systématique publiée le 11 juin 2025 dans PLOS Digital Health relève, de son côté, un manque de cadres standardisés pour évaluer les applications RAG en santé et une prise en compte encore insuffisante des enjeux éthiques.[3]
La bonne question n’est donc plus seulement de savoir si un outil cite des sources. Il faut déterminer s’il récupère les bons éléments, les hiérarchise correctement, les transforme en raisonnement clinique exploitable et signale nettement ses zones d’incertitude.
Une portée française à manier avec prudence
La publication ne permet pas de transposer directement ses résultats au premier recours français. Les évaluateurs sont 12 cliniciens américains, les requêtes réelles proviennent d’un environnement NYU Langone Health, et MedQA renvoie à une culture d’examen médical américaine. Pour les soignants français, l’intérêt de l’étude tient donc moins à une application immédiate qu’à son message de méthode : une IA médicale ne doit pas être adoptée sur sa seule spécialisation affichée.[1]
Cette prudence rejoint la preuve clinique encore incomplète autour des IA destinées aux professionnels de santé. Le lancement de ChatGPT for Clinicians, en avril 2026, illustrait déjà cette tension : des scores élevés sur benchmark peuvent documenter une capacité technique, sans suffire à démontrer un service rendu en situation clinique réelle.[9]
Une autre étude publiée dans Nature Medicine le 9 février 2026 souligne le même écart. Testés seuls, des LLM identifiaient correctement les conditions pertinentes dans 94,9 % des cas ; utilisés par 1 298 participants britanniques, ils ne permettaient plus d’identifier les conditions pertinentes que dans moins de 34,5 % des situations, sans supériorité sur les méthodes classiques.[7]
Des intérêts déclarés et une indépendance à documenter
L’étude ne se présente pas comme un travail commandité par OpenEvidence, Wolters Kluwer, Google, OpenAI ou Anthropic. Elle déclare toutefois ses financements, ses affiliations et ses intérêts concurrents. Eric K. Oermann signale notamment des participations dans MarchAI et Artisight, un emploi de son épouse chez Eikon Therapeutics, ainsi que des activités de conseil pour Sofinnova Partners et Google ; les autres auteurs déclarent ne pas avoir d’intérêts concurrents.[1]
Les auteurs indiquent aussi que les financeurs n’ont joué aucun rôle dans le dessin de l’étude, la collecte et l’analyse des données, la décision de publier ou la préparation du manuscrit. Cette transparence ne clôt pas la discussion. Elle rappelle que l’indépendance d’une évaluation se vérifie dans le protocole, les données disponibles, les codes publiés, les conflits déclarés et la reproductibilité possible.[1]
Pour les soignants, la preuve doit précéder l’adoption
Pour les professionnels de santé, la leçon n’est pas de remplacer mécaniquement un outil spécialisé par un modèle généraliste. Elle consiste plutôt à déplacer le centre de gravité de la confiance. Un label médical, un corpus propriétaire ou une promesse de traçabilité ne suffisent pas. Un score spectaculaire d’un LLM généraliste ne suffit pas davantage.
Les établissements devront demander des évaluations indépendantes, datées et reproductibles, menées sur des cas proches de leurs usages : aide au diagnostic, synthèse bibliographique, documentation, triage, interprétation de résultats ou appui aux décisions thérapeutiques. La comparaison devra aussi intégrer la gestion des refus, la clarté des réponses, la protection des données, l’explicitation des sources, la qualité des citations, le coût, la latence et la robustesse sous incertitude.
En France, cette réflexion rejoint les tensions concrètes du premier recours, où les soignants attendent moins une démonstration technologique qu’un outil fiable dans le temps court de la décision. L’étude de Nature Medicine ne clôt donc pas le débat. Elle le durcit : les IA médicales spécialisées devront prouver, face aux meilleurs modèles généralistes, qu’elles apportent autre chose qu’un habillage clinique.[10]
Références
[1] Nature Medicine, « General-purpose large language models outperform specialized clinical AI tools on medical benchmarks », 12 juin 2026. DOI : 10.1038/s41591-026-04431-5.
[2] OpenAI / arXiv, « HealthBench: Evaluating Large Language Models Towards Improved Human Health », 13 mai 2025.
[3] PLOS Digital Health, « Retrieval augmented generation for large language models in healthcare: A systematic review », 11 juin 2025.
[4] Wolters Kluwer, « Wolters Kluwer’s new UpToDate Expert AI provides clinicians and health systems reliable GenAI clinical decision support », 24 septembre 2025.
[5] Wolters Kluwer, « Wolters Kluwer releases validation framework for evaluating Clinical AI at point of care », 21 mai 2026.
[6] Reuters, « Medical AI startup OpenEvidence doubles valuation to $12 billion in latest round », 21 janvier 2026.
[7] Nature Medicine, « Reliability of LLMs as medical assistants for the general public: a randomized preregistered study », 9 février 2026.
[8] Caducee.net, « Les médecins américains basculent dans l’usage courant de l’IA, sans renoncer à leurs garde-fous », 14 mars 2026.
[9] Caducee.net, « ChatGPT for Clinicians : des scores élevés, mais une preuve clinique encore incomplète », 23 avril 2026.
[10] Caducee.net, « MedGPT : un baromètre qui éclaire les tensions du premier recours », 17 mars 2026.
Descripteur MESH : Nature , Médecins , Face , Texas , Langage , Santé , Lecture , Spécialisation , Sécurité , Travail , Médecine , Incertitude , Confiance , Temps , Mars , Classement , Documentation , Environnement , Patients , Emploi , Triage , France , Soins , Écosystème , Conseil , Association , Rôle , Comportement , Méthodes , Risque , Intervalles de confiance , Diagnostic , Éléments , Rupture , Hallucinations
