Inhalt
summary Zusammenfassung

OpenAI sieht KI nicht als Ersatz für Ärzt:innen – sondern für das Nicht-zum-Arzt-Gehen.

Anzeige

„Ich glaube wirklich nicht, dass man am Ende Ärzt:innen ersetzt“, sagt Nick Turley, Verantwortlicher für ChatGPT bei OpenAI, im offiziellen OpenAI-Podcast. „Man ersetzt das Nicht-zum-Arzt-Gehen.“

Turley betont, dass KI-Systeme wie ChatGPT nicht dafür gedacht sind, medizinisches Fachpersonal zu verdrängen, sondern Patient:innen zu befähigen – insbesondere dort, wo der Zugang zu professioneller Versorgung fehlt. „Man demokratisiert die Möglichkeit, eine Zweitmeinung zu bekommen“, so Turley. „Sehr wenige Menschen haben diese Ressource oder wissen, wie sie sie nutzen können.“

ChatGPT für medizinisches Fachpersonal

Diese Assistenzfunktion betrifft nicht nur medizinische Laien. Auch Ärzt:innen selbst würden bereits ChatGPT nutzen, um sich abzusichern oder neue Perspektiven einzuholen. Doch damit KI in der Medizin wirklich vertrauenswürdig wird, reicht reine Fähigkeit nicht aus: „Es gibt Arbeit, um das Modell wirklich gut zu machen – und es gibt Arbeit, um zu beweisen, dass es gut ist“, sagt Turley.

Anzeige
Anzeige

Nutzer:innen und insbesondere Fachpersonal müssten nachvollziehbar erkennen können, in welchen Bereichen das Modell zuverlässig ist und wo nicht. Solange diese Nachweise und systematischen Prüfungen fehlen, bleibe das Vertrauen in KI-gestützte Medizin ein zentrales Problem. Und: Je besser die Modelle werden, desto schwieriger wird es, ihre Grenzen zu erkennen und zu kommunizieren. „Sobald ein Modell menschliches oder sogar übermenschliches Leistungsniveau erreicht, ist es schwer zu sagen, wo es scheitert“, so Turley.

Dennoch sieht er enormes Potenzial: „Das ist eine der Gelegenheiten, die mich morgens aufstehen lassen“, sagt Turley. Neben Bildung sei das Gesundheitswesen einer der Bereiche, in denen KI den größten gesellschaftlichen Nutzen stiften könne.

Moderne KI-Modelle meistern zwar viele Benchmarks, doch die Realität ist komplexer

OpenAI selbst betont in einem aktuellen Benchmark, dass die neuesten Modelle GPT-4.1 und o3 in medizinischen Dialogszenarien besser abschneiden als ärztliche Vergleichsantworten. Gleichzeitig zeigen neue Systeme wie Microsofts MAI-DxO, dass orchestrierte KI-Modelle bei komplexen Diagnosen sogar erfahrene Ärzt:innen übertreffen können — sowohl in Genauigkeit als auch in Kosteneffizienz.

Doch auch hier gilt: Die Testsituation ist speziell, ein direkter Vergleich zur klinischen Realität nur begrenzt möglich. Denn obwohl KI-Systeme in kontrollierten Tests oft beeindruckende Leistungen zeigen, ist ihre tatsächliche Wirksamkeit im Kontakt mit Menschen bisher nicht ausreichend untersucht: Eine Studie der Universität Oxford zeigt etwa, dass Menschen mit KI-Hilfe bei medizinischen Entscheidungen schlechter abschneiden können als eine Kontrollgruppe mit Suchmaschine, da die Kommunikation mit dem Chatbot schiefläuft. Gleichzeitig gibt es immer wieder Fälle in denen Nutzer:innen davon berichten, wie ChatGPT nach jahrelangem Leidensweg geholfen hat, eine seltene Krankheit zu diagnostizieren.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Nick Turley, Produktchef bei OpenAI, betont, dass KI-Systeme wie ChatGPT nicht dazu gedacht sind, Ärzt:innen zu ersetzen, sondern das Problem zu lösen, dass viele Menschen medizinische Beratung gar nicht erst in Anspruch nehmen. Ziel sei es, den Zugang zu Zweitmeinungen und medizinischen Informationen zu demokratisieren.
  • Auch medizinisches Fachpersonal nutzt ChatGPT bereits als Unterstützung, etwa um neue Perspektiven einzuholen. Allerdings bleibt das Vertrauen in KI-gestützte Medizin ein Problem, solange nicht transparent ist, in welchen Bereichen das System zuverlässig arbeitet und wo nicht.
  • Moderne KI-Modelle wie GPT-4.1 und Microsofts MAI-DxO erreichen in medizinischen Benchmarks teils bessere Ergebnisse als Ärzt:innen, doch diese Tests spiegeln die klinische Realität nur bedingt wider. Studien zeigen, dass der praktische Nutzen im Alltag begrenzt sein kann, insbesondere wenn die Interaktion zwischen Mensch und KI nicht optimal funktioniert.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!