Inhalt
summary Zusammenfassung

Eine neue Studie zeigt, dass OpenAIs o1-preview Ärzte bei der Diagnose komplexer medizinischer Fälle übertreffen kann.

Anzeige

Ein Forscherteam um die Harvard Medical School und die Stanford University hat in einer umfangreichen Studie die diagnostischen Fähigkeiten von OpenAIs o1-preview KI-Modell untersucht. Die Ergebnisse zeigen deutliche Fortschritte des Systems bei komplexen medizinischen Diagnosen im Vergleich mit älteren Systemen.

Das Modell erreichte laut der Studie in 78,3 Prozent der untersuchten Fälle die richtige Diagnose. Bei einer direkten Vergleichsgruppe von 70 Fällen lag o1-preview mit 88,6 Prozent richtiger Diagnosen deutlich vor dem Vorgängermodell GPT-4, das 72,9 Prozent erreichte.

Eine deutliche Steigerung zeigte o1-preview bei der klinischen Argumentation: In 78 von 80 Fällen erreichte o1-preview eine perfekte Bewertung auf der validierten R-IDEA-Skala, die die Qualität der medizinischen Begründung misst.

Anzeige
Anzeige

Zum Vergleich: Erfahrene Ärzte erreichten dies nur in 28 von 80 Fällen, Assistenzärzte sogar nur in 16 von 80 Fällen. Das Team geht davon aus, dass einige der Benchmark-Daten Teil der Trainingsdaten von o1-preview sein könnten, will aber durch weitere Tests von Daten nach dem Trainings-Cutoff von o1-preview gezeigt haben, dass die Leistung in den neueren Fällen nur geringfügig abnimmt.

Einer der Studienautoren, Dr. Adam Rodman, betont auf X die außergewöhnlichen Ergebnisse: "Es ist das erste Mal, dass ich einen Preprint bewerbe statt die vollständig begutachtete Studie. Aber ich denke wirklich, dass unsere Ergebnisse Auswirkungen auf die medizinische Praxis haben könnten."

Deutlich bessere Management-Entscheidungen als Ärzte

Besonders bemerkenswert war laut Rodman die Leistung bei komplexen Management-Fällen, die von 25 verschiedenen Spezialisten gezielt schwierig gestaltet wurden. "Menschen hatten angemessenerweise Schwierigkeiten damit. Aber o1 - man benötigt keine Statistik, um zu sehen, wie gut es abgeschnitten hat", kommentiert Rodman.

Das KI-System erreichte hier im Median 86 Prozent der möglichen Punkte, während Ärzte mit Zugang zu GPT-4 nur auf 41 Prozent kamen. Ärzte mit konventionellen Hilfsmitteln erreichten lediglich 34 Prozent.

Die Studie offenbarte jedoch auch Grenzen des Systems. Bei der Einschätzung von Wahrscheinlichkeiten für bestimmte Diagnosen zeigte o1-preview keine signifikante Verbesserung gegenüber früheren Modellen. Bei der Einschätzung von Pneumonie-Wahrscheinlichkeiten lag das System etwa deutlich über dem wissenschaftlichen Referenzbereich von 25 bis 42 Prozent und schätzte das Risiko mit 70 Prozent zu hoch ein.

Empfehlung

"Das System scheint bei Aufgaben, die kritisches Denken erfordern, wie Diagnose und Management, besonders gut zu sein, während es bei abstrakteren Aufgaben wie probabilistischem Denken weniger gut abschneidet", schreiben die Forscher in ihrer Studie.

Sie weisen zudem darauf hin, dass o1-preview zu ausführlichen Antworten neigt, was die Bewertung möglicherweise positiv beeinflusst haben könnte. Zudem wurde nur die reine KI-Leistung getestet - wie gut das System in der Interaktion mit Ärzten funktioniert, muss noch untersucht werden.

Auch in den sozialen Medien gibt es bereits andere Stimmen: Die von o1-preview vorgeschlagene Diagnostik sei redundant und oft zu teuer, um in der Praxis sinnvoll eingesetzt werden zu können.

Neue Benchmarks für KI in der Medizin nötig

Auch Rodman warnt vor voreiligen Schlüssen: "Es ist eine Benchmark-Studie. Auch wenn es ‚Gold-Standard‘-Evaluierungen des Denkvermögens sind, die wir für menschliche Ärzte verwenden, ist es offensichtlich keine echte medizinische Versorgung. Ersetzen Sie nicht Ihren Arzt durch o1."

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Klar ist: Die bisherigen Bewertungsmethoden für medizinische KI-Systeme stoßen an ihre Grenzen. Multiple-Choice-Tests seien keine realistische Abbildung der komplexen medizinischen Entscheidungsfindung. Das Team fordert die Entwicklung neuer, praxisnäherer Bewertungsmethoden.

Für die Zukunft empfehlen die Wissenschaftler klinische Studien zur Evaluation der Technologie in realen Behandlungssituationen. Auch Investitionen in technische Infrastruktur und bessere Mensch-KI-Schnittstellen seien nötig.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie von Forschern der Harvard Medical School und Stanford University untersuchte die diagnostischen Fähigkeiten von OpenAIs KI-Modell o1-preview. Das System übertraf ältere Modelle und erfahrene Ärzte bei der Diagnose komplexer medizinischer Fälle.
  • In 78,3 Prozent der Fälle erreichte o1-preview die richtige Diagnose und zeigte eine deutlich bessere klinische Argumentation als Ärzte. Auch bei Behandlungsentscheidungen schnitt das KI-System besser ab, während es bei der Einschätzung von Wahrscheinlichkeiten Schwächen zeigte.
  • Die Studie wirft Fragen für die Zukunft der medizinischen Praxis auf. Die Forscher empfehlen klinische Studien, um die Technologie in realen Situationen zu evaluieren, sowie Investitionen in Infrastruktur und Schnittstellen für die Mensch-KI-Interaktion.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!