KI-Diagnose übertrifft Ärzte in der Studie, aber das Chaos in der realen Welt bleibt eine Hürde

6

Eine neue in Science veröffentlichte Studie zeigt, dass fortschrittliche künstliche Intelligenz nun in kontrollierten klinischen Szenarien mit der diagnostischen Genauigkeit menschlicher Ärzte mithalten oder diese sogar übertreffen kann. Die Studie, bei der das neueste Argumentationsmodell von OpenAI, o1, sowohl mit älteren KI-Versionen als auch mit Medizinern getestet wurde, stellt einen bedeutenden Meilenstein in der Gesundheitstechnologie dar. Allerdings warnen Experten davor, dass die Technologie zwar beeindruckend ist, aber aufgrund der komplexen und unvorhersehbaren Natur der realen medizinischen Praxis noch nicht bereit ist, Ärzte zu ersetzen.

Die Studie: KI vs. menschliche Diagnose

Forscher nutzten bisher unbekannte klinische Fälle, um die Leistung des o1 -Modells von OpenAI mit seinem Vorgänger GPT-4 sowie mit erfahrenen Ärzten und Assistenzärzten zu vergleichen. Die Testumgebung simulierte elektronische Gesundheitsakten aus Fällen in der Notaufnahme eines Bostoner Krankenhauses.

Die Ergebnisse waren frappierend:
* KI-Überlegenheit: Das o1-Modell war während der ersten Triage in mehr als zwei Dritteln der Fälle diagnostisch genau.
* Menschliche Leistung: Im Gegensatz dazu stellten zwei fachkundige behandelnde Ärzte etwa in der Hälfte der Fälle die richtigen Diagnosen.
* Modellverbesserung: Das o1-Modell zeigte gegenüber GPT-4 deutliche Verbesserungen, was die schnelle Entwicklung der KI-Folgefähigkeiten unterstreicht.

Dr. Robert Wachter, Professor und Vorsitzender der medizinischen Fakultät der UCSF, beschrieb die Ergebnisse als „unbestreitbaren“ Beweis dafür, dass moderne KI sowohl ältere Sprachmodelle als auch menschliche Ärzte bei der Identifizierung von Diagnosen und nächsten Schritten übertreffen kann. Er betonte jedoch, dass dieser Erfolg auf bestimmte Erkrankungen beschränkt ist und sich noch nicht direkt auf die klinische Praxis übertragen lässt.

Die Kluft zwischen Daten und Realität

Trotz der vielversprechenden Statistiken weist die Studie erhebliche Einschränkungen auf, die verhindern, dass KI sofort eine primäre diagnostische Rolle übernimmt. Die Experimente stützten sich ausschließlich auf Nur-Text-Eingaben, oft künstlich „saubere“ und strukturierte klinische Notizen. Dies steht in krassem Gegensatz zur chaotischen Realität in Notaufnahmen, wo Ärzte eine Vielzahl nichttextueller Hinweise interpretieren müssen.

Zu den wichtigsten fehlenden Elementen bei den KI-Tests gehörten:
* Visuelle und akustische Hinweise: Stresslevel des Patienten, Hautfarbe, Atemmuster und andere körperliche Anzeichen.
* Medizinische Bildgebung: Röntgenaufnahmen, MRTs und andere diagnostische Bilder.
* Zustand des Patienten: Faktoren wie Angst, Vergiftung oder schneller körperlicher Verfall.

Dr. Ashwin Ramaswamy, ein Ausbilder für Urologie am Mount Sinai, stellte fest, dass die KI aufgrund von Informationen argumentierte, die bereits von Menschen gefiltert und dokumentiert worden waren. Im wirklichen Leben müssen Ärzte diese Informationen selbst sammeln und gleichzeitig mit unvorhersehbaren Verhaltensweisen und emotionalen Zuständen der Patienten umgehen.

„Dadurch wird ein zentraler Teil der Arbeit als ‚Arzt‘ übersprungen“, sagte Ramaswamy. „Es zeigt den Fortschritt der Technologie, aber es ist nicht dasselbe, als würde man in die Notaufnahme gehen und sich mit dem Chaos auseinandersetzen.“

Das Risiko einer „gezackten“ Leistung

Ein großes Anliegen von Experten ist die Unvorhersehbarkeit von KI-Fehlern. Auch wenn KI bei der Diagnose seltener oder komplexer Krankheiten hervorragende Ergebnisse liefert, kann sie dennoch klinisch offensichtliche Probleme übersehen. Dieses Phänomen, das von Forschern als „gezackte“ Leistung** beschrieben wird, bedeutet, dass die KI-Zuverlässigkeit nicht in allen medizinischen Szenarien einheitlich ist.

Ramaswamy wies darauf hin, dass die Studie keine detaillierten Erkenntnisse über die konkreten Fehler der Ärzte oder der KI lieferte. Für die Bestimmung der Sicherheit ist es entscheidend zu verstehen, ob es sich bei einem Fehler um einen geringfügigen Beinaheunfall oder um einen gefährlichen, unerklärlichen Fehler handelte. Ohne diese Transparenz bleibt das Risiko eines durch KI verursachten Schadens erheblich.

Die Zukunft: Zusammenarbeit statt Ersatz

Experten sind sich einig, dass KI als leistungsstarkes Hilfsmittel und nicht als Ersatz für menschliche Ärzte betrachtet werden sollte. Die Autoren der Studie, darunter viele vom Beth Israel Deaconess Medical Center in Boston, forderten dringend weitere Forschung und prospektive klinische Studien, um KI sicher in die Praxis zu integrieren.

Ein begleitender Leitartikel in Science von Experten des Flinders Health and Medical Research Institute in Australien bekräftigte diese Ansicht. Sie plädierten für ein kollaboratives Modell, bei dem die KI für Aufsicht und Zweitmeinungen sorgt, während die Menschen kontextbezogenes Urteilsvermögen und Verantwortlichkeit behalten.

Zusammenfassend lässt sich sagen, dass KI zwar bemerkenswerte diagnostische Fähigkeiten gezeigt hat, die die menschliche Leistung in kontrollierten Umgebungen übertreffen, die Komplexität der Medizin in der realen Welt jedoch eine menschliche Aufsicht erfordert. Die Zukunft des Gesundheitswesens liegt nicht darin, Ärzte zu ersetzen, sondern darin, KI als hochentwickelten Partner zu nutzen, um die Genauigkeit zu verbessern und die klinische Entscheidungsfindung zu unterstützen.