AI-diagnose verslaat artsen in onderzoek, maar chaos in de echte wereld blijft een hindernis

4

Uit een nieuwe studie gepubliceerd in Science blijkt dat geavanceerde kunstmatige intelligentie nu de diagnostische nauwkeurigheid van menselijke artsen in gecontroleerde klinische scenario’s kan evenaren of zelfs overtreffen. Het onderzoek, waarin het nieuwste redeneermodel van OpenAI, o1, werd getest tegen zowel oudere AI-versies als medische professionals, markeert een belangrijke mijlpaal in de gezondheidszorgtechnologie. Deskundigen waarschuwen echter dat de technologie weliswaar indrukwekkend is, maar nog niet klaar is om artsen te vervangen vanwege de complexe, onvoorspelbare aard van de medische praktijk in de praktijk.

Het onderzoek: AI versus menselijke diagnose

Onderzoekers gebruikten voorheen ongeziene klinische gevallen om de prestaties van het o1 -model van OpenAI te vergelijken met zijn voorganger, GPT-4, en met ervaren artsen en medische assistenten. De testomgeving simuleerde elektronische medische dossiers van gevallen op de spoedeisende hulp in een ziekenhuis in Boston.

De resultaten waren opvallend:
* AI-superioriteit: Het o1-model was tijdens de initiële triage meer dan twee derde van de tijd diagnostisch accuraat.
* Menselijke prestaties: Daarentegen gaven twee deskundige behandelende artsen ongeveer de helft van de tijd de juiste diagnose.
* Modelverbetering: Het o1-model vertoonde aanzienlijke verbeteringen ten opzichte van GPT-4, wat de snelle evolutie van het AI-redeneervermogen benadrukt.

Dr. Robert Wachter, hoogleraar en voorzitter van de afdeling Geneeskunde van de UCSF, beschreef de bevindingen als ‘onbetwistbaar’ bewijs dat moderne AI beter kan presteren dan zowel oudere taalmodellen als menselijke artsen bij het identificeren van diagnoses en volgende stappen. Hij benadrukte echter dat dit succes beperkt blijft tot specifieke aandoeningen en zich nog niet rechtstreeks vertaalt naar de klinische praktijk.

De kloof tussen gegevens en realiteit

Ondanks de veelbelovende statistieken heeft het onderzoek opmerkelijke beperkingen die verhinderen dat AI onmiddellijk een primaire diagnostische rol op zich neemt. De experimenten waren uitsluitend gebaseerd op alleen-tekstinvoer, vaak kunstmatig ‘schone’ en gestructureerde klinische aantekeningen. Dit staat in schril contrast met de chaotische realiteit van spoedeisende hulp, waar artsen een breed scala aan niet-tekstuele signalen moeten interpreteren.

De belangrijkste ontbrekende elementen in de AI-testen waren onder meer:
* Visuele en auditieve aanwijzingen: Pijnniveaus van de patiënt, huidskleur, ademhalingspatronen en andere fysieke tekenen.
* Medische beeldvorming: röntgenfoto’s, MRI’s en andere diagnostische beelden.
* Patiëntstatus: Factoren zoals angst, dronkenschap of snelle lichamelijke achteruitgang.

Dr. Ashwin Ramaswamy, een urologie-instructeur op de berg Sinaï, merkte op dat de AI redeneerde over informatie die al door mensen was gefilterd en gedocumenteerd. In het echte leven moeten artsen deze informatie zelf verzamelen terwijl ze omgaan met onvoorspelbaar patiëntgedrag en emotionele toestanden.

“Hiermee wordt een centraal onderdeel van het ‘dokterschap’ overgeslagen”, zei Ramaswamy. “Het laat de vooruitgang van de technologie zien, maar het is niet hetzelfde als naar de Eerste Hulp gaan en de chaos aanpakken.”

Het risico van “gekartelde” prestaties

Een grote zorg onder experts is de onvoorspelbaarheid van AI-fouten. Hoewel AI uitblinkt in het diagnosticeren van zeldzame of complexe ziekten, kan het nog steeds klinisch voor de hand liggende problemen over het hoofd zien. Dit fenomeen, door onderzoekers omschreven als “grillige” prestaties**, betekent dat de betrouwbaarheid van AI niet in alle medische scenario’s uniform is.

Ramaswamy wees erop dat het onderzoek geen gedetailleerd inzicht gaf in de specifieke fouten die door de artsen of de AI waren gemaakt. Begrijpen of een fout een kleine bijna-ongeval of een gevaarlijke, onverklaarbare fout was, is van cruciaal belang voor het bepalen van de veiligheid. Zonder deze transparantie blijft het risico op door AI veroorzaakte schade aanzienlijk.

De toekomst: samenwerking, geen vervanging

De consensus onder deskundigen is dat AI moet worden gezien als een krachtig hulpmiddel en niet als vervanging voor menselijke artsen. De auteurs van de studie, velen afkomstig uit het Beth Israel Deaconess Medical Center in Boston, riepen op tot dringend verder onderzoek en prospectieve klinische proeven om AI veilig in de praktijk te integreren.

Een begeleidend redactioneel artikel in Science door experts van het Flinders Health and Medical Research Institute in Australië versterkte deze visie. Ze pleitten voor een samenwerkingsmodel waarin AI toezicht en second opinions biedt, terwijl mensen hun contextueel oordeel en verantwoordelijkheid behouden.

** Concluderend: hoewel AI opmerkelijke diagnostische capaciteiten heeft laten zien die de menselijke prestaties in gecontroleerde omgevingen overtreffen, vereist de complexiteit van de echte geneeskunde menselijk toezicht. De toekomst van de gezondheidszorg ligt niet in het vervangen van artsen, maar in het inzetten van AI als een geavanceerde partner om de nauwkeurigheid te vergroten en de klinische besluitvorming te ondersteunen.**