OpenAI sieht KI nicht als Ersatz für Ärzt:innen – sondern für das Nicht-zum-Arzt-Gehen.
„Ich glaube wirklich nicht, dass man am Ende Ärzt:innen ersetzt“, sagt Nick Turley, Verantwortlicher für ChatGPT bei OpenAI, im offiziellen OpenAI-Podcast. „Man ersetzt das Nicht-zum-Arzt-Gehen.“
Turley betont, dass KI-Systeme wie ChatGPT nicht dafür gedacht sind, medizinisches Fachpersonal zu verdrängen, sondern Patient:innen zu befähigen – insbesondere dort, wo der Zugang zu professioneller Versorgung fehlt. „Man demokratisiert die Möglichkeit, eine Zweitmeinung zu bekommen“, so Turley. „Sehr wenige Menschen haben diese Ressource oder wissen, wie sie sie nutzen können.“
ChatGPT für medizinisches Fachpersonal
Diese Assistenzfunktion betrifft nicht nur medizinische Laien. Auch Ärzt:innen selbst würden bereits ChatGPT nutzen, um sich abzusichern oder neue Perspektiven einzuholen. Doch damit KI in der Medizin wirklich vertrauenswürdig wird, reicht reine Fähigkeit nicht aus: „Es gibt Arbeit, um das Modell wirklich gut zu machen – und es gibt Arbeit, um zu beweisen, dass es gut ist“, sagt Turley.
Nutzer:innen und insbesondere Fachpersonal müssten nachvollziehbar erkennen können, in welchen Bereichen das Modell zuverlässig ist und wo nicht. Solange diese Nachweise und systematischen Prüfungen fehlen, bleibe das Vertrauen in KI-gestützte Medizin ein zentrales Problem. Und: Je besser die Modelle werden, desto schwieriger wird es, ihre Grenzen zu erkennen und zu kommunizieren. „Sobald ein Modell menschliches oder sogar übermenschliches Leistungsniveau erreicht, ist es schwer zu sagen, wo es scheitert“, so Turley.
Dennoch sieht er enormes Potenzial: „Das ist eine der Gelegenheiten, die mich morgens aufstehen lassen“, sagt Turley. Neben Bildung sei das Gesundheitswesen einer der Bereiche, in denen KI den größten gesellschaftlichen Nutzen stiften könne.
Moderne KI-Modelle meistern zwar viele Benchmarks, doch die Realität ist komplexer
OpenAI selbst betont in einem aktuellen Benchmark, dass die neuesten Modelle GPT-4.1 und o3 in medizinischen Dialogszenarien besser abschneiden als ärztliche Vergleichsantworten. Gleichzeitig zeigen neue Systeme wie Microsofts MAI-DxO, dass orchestrierte KI-Modelle bei komplexen Diagnosen sogar erfahrene Ärzt:innen übertreffen können — sowohl in Genauigkeit als auch in Kosteneffizienz.
Doch auch hier gilt: Die Testsituation ist speziell, ein direkter Vergleich zur klinischen Realität nur begrenzt möglich. Denn obwohl KI-Systeme in kontrollierten Tests oft beeindruckende Leistungen zeigen, ist ihre tatsächliche Wirksamkeit im Kontakt mit Menschen bisher nicht ausreichend untersucht: Eine Studie der Universität Oxford zeigt etwa, dass Menschen mit KI-Hilfe bei medizinischen Entscheidungen schlechter abschneiden können als eine Kontrollgruppe mit Suchmaschine, da die Kommunikation mit dem Chatbot schiefläuft. Gleichzeitig gibt es immer wieder Fälle in denen Nutzer:innen davon berichten, wie ChatGPT nach jahrelangem Leidensweg geholfen hat, eine seltene Krankheit zu diagnostizieren.