► Prof. Dr. Felix Nensa
Forschungsgruppenleiter am Institut für künstliche Intelligenz in der Medizin und leitender Oberarzt am Institut für Diagnostische und Interventionelle Radiologie und Neuroradiologie, Universitätsklinikum Essen
Methodik der Studie
„Die Studie ist methodisch sauber gemacht. Sie nutzt mit Bond und R-IDEA validierte Bewertungssysteme, zwei verblindete Bewerter sowie TRIPOD-LLM-konforme Dokumentation. Außerdem wurden im Notaufnahme-Experiment tatsächlich echte, unstrukturierte elektronische Gesundheitsdaten (EHR-Daten) genutzt. Das geht über das übliche Vignettendesign hinaus.“
Übertragung auf die Praxis
„Die praktische Aussagekraft ist dennoch gering. Die getesteten Modelle OpenAI o1-preview und OpenAI o1 sind schon Anfang 2025 durch o3 abgelöst worden. Mittlerweile sind viele weitere Generationen dazugekommen. Schon bei Publikation waren sie nicht mehr State of the Art.“
„Für klinische Aufgaben werden zudem zunehmend agentische Systeme verwendet. Diese können über Tools auf spezialisierte Wissensdatenbanken zugreifen und sind reinen Sprachmodellen in der Regel deutlich überlegen. Auch die Beschränkung auf textbasierte Anfragen greift zu kurz. Denn moderne Modelle arbeiten multimodal. Insbesondere Bilder und Videos können sie verarbeiten. Das macht bei medizinischen Fragestellungen einen erheblichen Unterschied.“
„Bemerkenswert ist außerdem, dass die Studie zwar einen Vergleichsarm ‚Mensch und GPT-4‘ enthält, aber keinen Arm ‚Mensch und o1‘. Damit beantwortet sie genau die wissenschaftlich entscheidende Frage nach dem optimalen kombinierten System Mensch-Maschine nicht.“
Möglichkeit, dass Szenarien aus dem Modell-Training bekannt waren
„Zum ‚Auswendiglernen‘ Der einzige Test bestand im Vergleich der Leistung vor und nach dem Trainingsende im Oktober 2023. Mit nur 34 Fällen nach dem Ende ist diese Sensitivitätsanalyse strukturell unterdimensioniert. Etablierte Methoden wie Membership Inference Attacks, Paraphrase Robustness oder Closed- und Open-Book-Vergleiche (Möglichkeiten, um herauszufinden, ob bestimmte Daten im Training eines KI-Modells vorhanden waren; Anm. d. Red.) hätten vermutlich deutlich belastbarere Aussagen erlaubt.“
Einordnung in den Forschungskontext
„Die Ergebnisse sind nicht überraschend und reihen sich in eine Linie früherer Arbeiten ein. Diese finden für textbasierte Vignetten regelmäßig eine Überlegenheit moderner Sprachmodelle gegenüber Ärzt:innen. Währenddessen legen andere Studien nahe, dass Ärzt:innen mit GPT-4 oft kaum besser abschneiden als ohne [II]. Das deutet eher auf ein Workflow- und Vertrauensproblem hin als auf ein Modellproblem.“
„Der praktische Nutzen solcher Benchmarks bleibt daher begrenzt. Wesentlich wichtiger wären prospektive Studien am kalibrierten Gesamtsystem Mensch-Maschine mit aktueller Technologie. Oder noch besser: kontinuierliche Studien mit adaptiver Rekalibrierung und weiteren Endpunkten: Mitarbeiter- und Patientenzufriedenheit sowie Wirtschaftlichkeit und Ergebnisbewertung.“
Mögliche Gründe für das gute Abschneiden der KI bei der Erstentscheidung in der Notaufnahme
„Eine plausible Erklärung ist, dass der Vorteil gerade dort am größten ist, wo wenig Information vorliegt und gleichzeitig schnell entschieden werden muss. Das trifft genau auf die Triage-Situation zu. Dort sind menschliche Entscheidungen unter Zeitdruck und Datenmangel besonders fehleranfällig. Sprachmodelle sind bestimmten situativen Einflüssen, die menschliche Entscheidungen prägen können, nicht in gleicher Weise ausgesetzt. Diese Einflüsse können etwa emotionale Interaktion mit Patient:innen, Unterschiede in Symptomdarstellung und Persönlichkeit, eine überfüllte Notaufnahme oder Ermüdung nach einer langen Schicht sein. Dadurch können Sprachmodelle Muster, Prävalenzen, ‚Satisfaction of Search‘ und ‚cannot miss‘-Diagnosen potenziell konsistenter berücksichtigen.“
Sinnvoller Einsatz von Sprachmodellen
„Den größten Mehrwert sehe ich derzeit darin, dass Sprachmodelle durch eine ganz andere Arbeitsweise in bestimmten Bereichen komplementär zu menschlichen Stärken und Schwächen sind. Außerdem können sie 24 Stunden am Tag, sieben Tage die Woche mit konstanter Qualität arbeiten, wenn sie korrekt eingesetzt werden. Dadurch können sie helfen, menschliche Fehler zu reduzieren.“
„Wichtig ist dabei immer die Betrachtung und sorgfältige Kalibrierung des Gesamtsystems Mensch-Maschine sowie die kontinuierliche Qualitätskontrolle. Für die kann man sich technisch viel aus der Labormedizin abschauen: interne und externe Qualitätskontrollen, Ringversuche (Experimente werden unter verschiedenen Umständen durchgeführt und die Ergebnisse verglichen; Anm. d. Red.) sowie Drift-Monitoring (bei KI: Überwachung des schrittweisen Leistungsverlustes über die Zeit; Anm. d. Red.).“
„Zur Vermeidung eines Automation Bias (Beeinflussung der menschlichen Entscheidung durch die Antwort der Maschine; Anm. d. Red.) gehört, dass Ärzt:innen ihre eigene Differenzialdiagnose begründen, bevor sie die KI-Ausgabe sehen. Außerdem müssen Konfidenzintervalle ausgewiesen und Entscheidungsänderungen systematisch erfasst und ausgewertet werden.“
Wie gelingt die Evaluierung von KI-Systemen?
„Wir müssen weg von realitätsfernen Einzelsystem-Experimenten und hin zu Studien an Systemen, die tief in die klinischen Abläufe integriert sind. Sie sollten Ende-zu-Ende im praktischen Einsatz überprüft werden. Konkret heißt das: ‚Silent Testing‘ beziehungsweise ‚Shadow Deployment‘. Dabei liefe das Modell mit, würde aber nicht ins Geschehen eingreifen. Sinnvoll könnten auch prospektive Stepped-Wedge-Cluster-RCTs (Art der randomisierten kontrollierten Studie, bei der die Teilnehmenden die Intervention in verschiedenen Wellen bekommen; Anm. d. Red.) und kontinuierliche Leistungsüberwachung mit Drift-Detection (bei KI: Überwachung des schrittweisen Leistungsverlustes über die Zeit; Anm. d. Red.) sein. Eine weitere Option wäre ein Post-Market-Surveillance-Modell analog zur Medical Device Regulation (MDR) oder der In Vitro Diagnostic Regulation (IVDR) (Überwachung eines Systems würde auch nach Markteinführung fortgesetzt; Anm. d. Red.).“
„Als Endpunkte gehören neben Diagnosegenauigkeit insbesondere die Zeit, bis eine Diagnose gestellt wurde, dazu. Außerdem sollten Verweildauer, 30-Tage-Mortalität, Wiedereinlieferung, Kosten sowie Patienten- und Mitarbeiterzufriedenheit berücksichtigt werden. Das ist zugegeben viel mehr Aufwand. Aber den betreiben wir ja auch in anderen Bereichen, in denen es um viel geht – zum Beispiel in der Luftfahrt.“
► Prof. Dr. Thomas Neumuth
Stellvertretender Direktor des Innovation Center Computer Assisted Surgery (ICCAS), Universität Leipzig
Methodik der Studie
„Die Studie ist sorgfältiger angelegt als die meisten bisherigen Vergleiche zwischen künstlicher Intelligenz (KI) und Ärzt:innen: Sie prüft die KI in sechs verschiedenen Aufgaben und vergleicht sie mit hunderten Mediziner:innen. Außerdem bewerten zwei unabhängige Fachärzt:innen die Antworten, ohne zu wissen, ob sie von einem Menschen oder von der KI stammen.“
„Schwächen gibt es trotzdem: Manche Teilexperimente nutzen nur fünf oder sechs Fälle und die Bewertung ‚richtig oder falsch‘ hängt am ärztlichen Urteil. Zudem wurde nur Text getestet, nicht das, was im Klinikalltag wirklich passiert. Den Verdacht, dass die KI alte Fälle des New England Journal of Medicine (NEJM) aus dem Training kennt, haben die Autor:innen ernst genommen: Sie verglichen Fälle vor und nach dem Trainingsstichtag und fanden keinen Unterschied. Und sie nutzten zusätzlich Fälle, die nie veröffentlicht worden waren. Der überzeugendste Teil sind deshalb die 76 echten Notaufnahme-Fälle aus dem Krankenhaus. Die kann die KI unmöglich vorher gesehen haben.“
Einordnung in den Forschungskontext
„Wirklich neu sind die Ergebnisse nicht. Sie bestätigen einen Befund, der seit etwa zwei Jahren in mehreren Studien immer wieder auftaucht: Die KI alleine schneidet oft besser ab als Ärzt:innen. Und überraschenderweise schneidet sie auch besser als Ärzt:innen ab, die die KI als Hilfsmittel nutzen dürfen. Das ist eigentlich kontraintuitiv. Man würde erwarten, dass ‚Mensch plus Maschine‘ das beste Team ist. In der Praxis nehmen Ärzt:innen die KI-Vorschläge aber oft nur halbherzig an, ignorieren sie oder vertrauen ihnen zu wenig.“
„Neu an dieser Studie ist vor allem die Größe des Vergleichs und der Schritt aus der Lehrbuchwelt heraus: Sie testet die KI nicht nur an aufgeräumten Übungsfällen, sondern an echten, unsortierten Patientendaten aus einer Notaufnahme.“
Mögliche Gründe für das gute Abschneiden der KI bei der Erstentscheidung in der Notaufnahme
„Dass die KI ausgerechnet bei der ersten Einschätzung in der Notaufnahme glänzt, hat einen einfachen Grund: Genau dort liegen kaum Informationen vor und die Zeit ist knapp. Menschen neigen dann dazu, sich vorschnell auf eine Verdachtsdiagnose festzulegen. Die KI kann dagegen viele mögliche Erklärungen gleichzeitig im Kopf behalten, ohne müde zu werden.“
Sinnvoller Einsatz von Sprachmodellen
„Den größten Nutzen wird das Sprachmodell nicht beim Stellen der endgültigen Diagnose haben, sondern als eine Art Sicherheitsnetz im Hintergrund: Es kann seltene oder leicht übersehene Krankheiten in Erinnerung rufen und prüfen, ob alle wichtigen Untersuchungen angefordert wurden. So kann es klassische Fehlerquellen abfedern.“
„Sinnvoll integriert wäre die KI als verpflichtende Zweitmeinung: Die Ärztin entscheidet zuerst selbst, danach zeigt das System seinen Vorschlag, sodass der Mensch die Verantwortung behält. Damit niemand der KI blind vertraut, braucht es klare Regeln, Schulungen und eine laufende Kontrolle der Empfehlungen.“
Übertragung auf die Praxis
„Die Ergebnisse sind nur bedingt übertragbar. Im Klinikalltag passiert viel mehr, als Text zu lesen: Ärzt:innen sehen, ob ein Patient unruhig wirkt, hören auf seinen Atem, schauen Röntgenbilder an und stellen Rückfragen. All das fehlt in der Studie komplett, weil das Modell nur fertig aufgeschriebene Fälle bekommt. Auch die Aufgabe, eine Zweitmeinung an drei festen Punkten zu geben, bildet keine echte Notaufnahme ab. Denn in der geht es vor allem um schnelle Triage (Verfahren zur Priorisierung von Notfällen; Anm. d. Red.) und sofortiges Handeln.“
„Ob ein KI-System wirklich hilft, lässt sich deshalb nicht durch immer neue Schreibtisch-Tests klären, sondern nur durch echte klinische Studien. Diese sollten messen, was zählt: weniger Fehldiagnosen, kürzere Wartezeiten sowie bessere Patientenergebnisse. Und es braucht eine dauerhafte Überwachung im Einsatz, ähnlich wie bei neu zugelassenen Medikamenten.“
Gesetzlicher Rahmen für die Verwendung von Sprachmodellen bei der Diagnose
„Rechtlich gesehen darf eine allgemeine LLM-gestützte Sprach-KI in Europa und den USA bisher nicht regulär für Diagnosen eingesetzt werden: Sobald sie zur Diagnose oder Therapieempfehlung dient, gilt sie als Medizinprodukt und muss zugelassen werden. Und genau das ist bislang für kein generatives Sprachmodell der Fall.“
„Das Problem ist grundsätzlich: Die heutigen Zulassungsverfahren sind für Software gedacht, die immer dieselbe Antwort gibt. Sprachmodelle aber antworten jedes Mal etwas anders und werden ständig aktualisiert. Außerdem sind sie für tausende Krankheitsbilder einsetzbar. Für so etwas gibt es schlicht noch keinen passenden Zulassungsweg. Wer das Modell heute am Patienten einsetzt, bewegt sich also entweder in einer klar abgegrenzten Forschungssituation oder in einer Grauzone. In dieser Grauzone ist unklar, wer haftet, wenn etwas schiefgeht – Ärztin, Klinik oder Hersteller.“
„Bevor solche Systeme in den Regelbetrieb gehen können, braucht es echte klinische Studien mit messbarem Patientennutzen. Außerdem sind eine eindeutige Festlegung, wofür das Modell genau zugelassen ist, sowie eine laufende Sicherheitsüberwachung wie bei Medikamenten wichtig. Haftungs- und Datenschutzregeln müssen geklärt und eine Lösung dafür gefunden werden, wie sensible Patientendaten überhaupt an solche Systeme weitergegeben werden dürfen.“