Le diagnostic de l’IA bat les médecins dans les études, mais le chaos du monde réel reste un obstacle

7

Une nouvelle étude publiée dans Science révèle que l’intelligence artificielle avancée peut désormais égaler ou dépasser la précision diagnostique des médecins humains dans des scénarios cliniques contrôlés. La recherche, qui a testé le dernier modèle de raisonnement d’OpenAI, o1, à la fois par rapport aux anciennes versions de l’IA et par rapport aux professionnels de la santé, marque une étape importante dans la technologie des soins de santé. Toutefois, les experts préviennent que, même si la technologie est impressionnante, elle n’est pas encore prête à remplacer les médecins en raison de la nature complexe et imprévisible de la pratique médicale réelle.

L’étude : IA contre diagnostic humain

Les chercheurs ont utilisé des cas cliniques inédits pour comparer les performances du modèle o1 d’OpenAI à celles de son prédécesseur, GPT-4, ainsi qu’à celles de médecins et de résidents en médecine expérimentés. L’environnement de test a simulé les dossiers de santé électroniques des cas des services d’urgence d’un hôpital de Boston.

Les résultats ont été frappants :
* Supériorité de l’IA : Le modèle o1 était précis sur le plan diagnostique dans plus de deux tiers du temps lors du triage initial.
* Performance humaine : En revanche, deux médecins traitants experts ont fourni des diagnostics corrects environ la moitié du temps.
* Amélioration du modèle : Le modèle o1 a montré des améliorations significatives par rapport à GPT-4, mettant en évidence l’évolution rapide des capacités de raisonnement de l’IA.

Le Dr Robert Wachter, professeur et directeur du département de médecine de l’UCSF, a décrit ces résultats comme une preuve « incontestable » que l’IA moderne peut surpasser à la fois les anciens modèles de langage et les médecins humains dans l’identification des diagnostics et des prochaines étapes. Cependant, il a souligné que ce succès est limité à des conditions spécifiques et ne se traduit pas encore directement dans la pratique clinique.

L’écart entre les données et la réalité

Malgré des statistiques prometteuses, l’étude présente des limites notables qui empêchent l’IA d’assumer immédiatement un rôle de diagnostic principal. Les expériences reposaient exclusivement sur des saisies de texte uniquement, souvent des notes cliniques artificiellement « propres » et structurées. Cela contraste fortement avec la réalité chaotique des salles d’urgence, où les médecins doivent interpréter un large éventail d’indices non textuels.

Les principaux éléments manquants dans les tests d’IA comprenaient :
* Indices visuels et auditifs : Niveaux de détresse du patient, couleur de la peau, schémas respiratoires et autres signes physiques.
* Imagerie médicale : Rayons X, IRM et autres visuels de diagnostic.
* État du patient : Facteurs tels que la peur, l’intoxication ou une détérioration physique rapide.

Le Dr Ashwin Ramaswamy, professeur d’urologie au Mount Sinai, a noté que l’IA raisonnait sur des informations qui avaient déjà été filtrées et documentées par des humains. Dans la vraie vie, les médecins doivent recueillir eux-mêmes ces informations tout en gérant les comportements et les états émotionnels imprévisibles des patients.

“Cela ignore une partie centrale du travail de ‘médecin'”, a déclaré Ramaswamy. “Cela montre les progrès de la technologie, mais ce n’est pas la même chose que d’aller aux urgences et de faire face au chaos.”

Le risque de performances « irrégulières »

L’une des principales préoccupations des experts est l’imprévisibilité des erreurs de l’IA. Même si l’IA excelle dans le diagnostic de maladies rares ou complexes, elle peut néanmoins passer à côté de problèmes cliniquement évidents. Ce phénomène, décrit par les chercheurs comme des performances « irrégulières », signifie que la fiabilité de l’IA n’est pas uniforme dans tous les scénarios médicaux.

Ramaswamy a souligné que l’étude ne fournissait pas d’informations détaillées sur les erreurs spécifiques commises par les médecins ou par l’IA. Comprendre si une erreur était un quasi-accident mineur ou une erreur dangereuse et inexplicable est crucial pour déterminer la sécurité. Sans cette transparence, le risque de dommages induits par l’IA reste important.

L’avenir : la collaboration, pas le remplacement

Le consensus parmi les experts est que l’IA devrait être considérée comme un outil d’assistance puissant plutôt que comme un substitut aux médecins humains. Les auteurs de l’étude, dont beaucoup proviennent du Beth Israel Deaconess Medical Center de Boston, ont appelé à des recherches plus approfondies et à des essais cliniques prospectifs de toute urgence pour intégrer l’IA en toute sécurité dans la pratique.

Un éditorial d’accompagnement dans Science rédigé par des experts du Flinders Health and Medical Research Institute en Australie a renforcé ce point de vue. Ils ont plaidé en faveur d’un modèle collaboratif dans lequel l’IA assure la surveillance et les deuxièmes opinions, tandis que les humains conservent ** leur jugement contextuel et leur responsabilité **.

En conclusion, même si l’IA a démontré des capacités de diagnostic remarquables qui dépassent les performances humaines dans des environnements contrôlés, la complexité de la médecine réelle nécessite une surveillance humaine. L’avenir des soins de santé ne réside pas dans le remplacement des médecins, mais dans l’utilisation de l’IA comme partenaire sophistiqué pour améliorer la précision et soutenir la prise de décision clinique.