Eine neue Studie zeigt, dass OpenAIs o1-preview Ärzte bei der Diagnose komplexer medizinischer Fälle übertreffen kann.
Ein Forscherteam um die Harvard Medical School und die Stanford University hat in einer umfangreichen Studie die diagnostischen Fähigkeiten von OpenAIs o1-preview KI-Modell untersucht. Die Ergebnisse zeigen deutliche Fortschritte des Systems bei komplexen medizinischen Diagnosen im Vergleich mit älteren Systemen.
Das Modell erreichte laut der Studie in 78,3 Prozent der untersuchten Fälle die richtige Diagnose. Bei einer direkten Vergleichsgruppe von 70 Fällen lag o1-preview mit 88,6 Prozent richtiger Diagnosen deutlich vor dem Vorgängermodell GPT-4, das 72,9 Prozent erreichte.
Eine deutliche Steigerung zeigte o1-preview bei der klinischen Argumentation: In 78 von 80 Fällen erreichte o1-preview eine perfekte Bewertung auf der validierten R-IDEA-Skala, die die Qualität der medizinischen Begründung misst.
Zum Vergleich: Erfahrene Ärzte erreichten dies nur in 28 von 80 Fällen, Assistenzärzte sogar nur in 16 von 80 Fällen. Das Team geht davon aus, dass einige der Benchmark-Daten Teil der Trainingsdaten von o1-preview sein könnten, will aber durch weitere Tests von Daten nach dem Trainings-Cutoff von o1-preview gezeigt haben, dass die Leistung in den neueren Fällen nur geringfügig abnimmt.
Einer der Studienautoren, Dr. Adam Rodman, betont auf X die außergewöhnlichen Ergebnisse: "Es ist das erste Mal, dass ich einen Preprint bewerbe statt die vollständig begutachtete Studie. Aber ich denke wirklich, dass unsere Ergebnisse Auswirkungen auf die medizinische Praxis haben könnten."
Deutlich bessere Management-Entscheidungen als Ärzte
Besonders bemerkenswert war laut Rodman die Leistung bei komplexen Management-Fällen, die von 25 verschiedenen Spezialisten gezielt schwierig gestaltet wurden. "Menschen hatten angemessenerweise Schwierigkeiten damit. Aber o1 - man benötigt keine Statistik, um zu sehen, wie gut es abgeschnitten hat", kommentiert Rodman.
Das KI-System erreichte hier im Median 86 Prozent der möglichen Punkte, während Ärzte mit Zugang zu GPT-4 nur auf 41 Prozent kamen. Ärzte mit konventionellen Hilfsmitteln erreichten lediglich 34 Prozent.
Die Studie offenbarte jedoch auch Grenzen des Systems. Bei der Einschätzung von Wahrscheinlichkeiten für bestimmte Diagnosen zeigte o1-preview keine signifikante Verbesserung gegenüber früheren Modellen. Bei der Einschätzung von Pneumonie-Wahrscheinlichkeiten lag das System etwa deutlich über dem wissenschaftlichen Referenzbereich von 25 bis 42 Prozent und schätzte das Risiko mit 70 Prozent zu hoch ein.
"Das System scheint bei Aufgaben, die kritisches Denken erfordern, wie Diagnose und Management, besonders gut zu sein, während es bei abstrakteren Aufgaben wie probabilistischem Denken weniger gut abschneidet", schreiben die Forscher in ihrer Studie.
Sie weisen zudem darauf hin, dass o1-preview zu ausführlichen Antworten neigt, was die Bewertung möglicherweise positiv beeinflusst haben könnte. Zudem wurde nur die reine KI-Leistung getestet - wie gut das System in der Interaktion mit Ärzten funktioniert, muss noch untersucht werden.
Auch in den sozialen Medien gibt es bereits andere Stimmen: Die von o1-preview vorgeschlagene Diagnostik sei redundant und oft zu teuer, um in der Praxis sinnvoll eingesetzt werden zu können.
Neue Benchmarks für KI in der Medizin nötig
Auch Rodman warnt vor voreiligen Schlüssen: "Es ist eine Benchmark-Studie. Auch wenn es ‚Gold-Standard‘-Evaluierungen des Denkvermögens sind, die wir für menschliche Ärzte verwenden, ist es offensichtlich keine echte medizinische Versorgung. Ersetzen Sie nicht Ihren Arzt durch o1."
Klar ist: Die bisherigen Bewertungsmethoden für medizinische KI-Systeme stoßen an ihre Grenzen. Multiple-Choice-Tests seien keine realistische Abbildung der komplexen medizinischen Entscheidungsfindung. Das Team fordert die Entwicklung neuer, praxisnäherer Bewertungsmethoden.
Für die Zukunft empfehlen die Wissenschaftler klinische Studien zur Evaluation der Technologie in realen Behandlungssituationen. Auch Investitionen in technische Infrastruktur und bessere Mensch-KI-Schnittstellen seien nötig.