Inhalt
summary Zusammenfassung

Große Sprachmodelle bestehen medizinische Prüfungen mit Bravour – doch in Interaktionen helfen sie Patienten wohl nicht besser als eine Google-Suche, zeigt eine neue Studie der Universität Oxford.

Anzeige

Große Sprachmodelle schneiden bei medizinischen Prüfungsbenchmarks inzwischen oft auf dem Niveau von Ärztinnen und Ärzten ab. Doch ihre Leistungsfähigkeit scheint zu enden, wenn sie mit echten Menschen interagieren. Das ist das zentrale Ergebnis einer randomisierten kontrollierten Studie des Oxford Internet Institute mit 1.298 Teilnehmenden aus dem Vereinigten Königreich.

In der Studie mussten die Teilnehmenden in zehn realistisch gestalteten medizinischen Szenarien zunächst eine mögliche Ursache ihrer Symptome identifizieren und anschließend eine angemessene Handlung wählen – etwa Selbstbehandlung, Hausarztbesuch oder Notaufnahme. Ein Teil der Teilnehmenden erhielt dabei Unterstützung durch ein großes Sprachmodell, die anderen durften Informationen nach Belieben recherchieren.

Untersucht wurden GPT-4o von OpenAI, Llama 3 von Meta und Command R+ von Cohere.

Anzeige
Anzeige

Menschen mit KI-Hilfe schneiden schlechter ab

Die Ergebnisse zeigen: Die KI-Modelle selbst lieferten bei direkter Befragung in den Szenarien überzeugende Antworten. GPT-4o identifizierte in 94,7 Prozent der Fälle mindestens eine relevante Erkrankung und empfahl in 64,7 Prozent die passende Maßnahme. Llama 3 erreichte 99,2 Prozent bei den Zuständen, Command R+ lag bei 90,8 Prozent. Die Empfehlungen der Maßnahme lagen bei den beiden Modellen bei 48,8 Prozent und 55,5 Prozent.

Sobald jedoch Menschen mit diesen Modellen interagierten, verschlechterte sich die Leistung drastisch. Nur in maximal 34,5 Prozent der Fälle gelang es den Teilnehmenden mit KI-Hilfe, eine relevante Erkrankung zu benennen – weniger als in der Kontrollgruppe, die auf eigene Faust recherchierte (47 Prozent). Auch bei der Wahl der richtigen Maßnahme schnitten KI-Nutzer nicht besser ab als die Kontrollgruppe.

Hauptrisiko Mensch

Die Forschenden sehen die Ursache nicht in den Modellen selbst, sondern in der Interaktion zwischen Mensch und Maschine. Nutzer gaben oft unvollständige Informationen ein oder interpretierten die KI-Antworten falsch. Beispielsweise erkannte das Modell Command R+ in einem Fall nicht, dass die geschilderten Schmerzen auf Gallensteine hindeuteten – weil der Nutzer keine Details zur Schmerzlokalisation angab. In einem anderen Fall bewertete GPT-4o nahezu identische Symptome einmal als Notfall, ein anderes Mal als harmlosen Kopfschmerz.

Auch wenn die KIs im Schnitt 2,2 mögliche Diagnosen vorschlugen, übernahmen die Nutzer davon nur 1,33 – und davon war nur knapp ein Drittel korrekt. Die Forscher sehen darin einen klaren Hinweis auf ein Übertragungsproblem: Die KIs liefern medizinisches Wissen, doch es erreicht die Nutzer nicht.

Forschung fordert echte Nutzertests

Die Studienautorinnen und -autoren kommen zu einem klaren Fazit: Die Fähigkeiten der LLMs reichen nicht aus, um sie als erste Anlaufstelle für Patientinnen und Patienten einzusetzen. Benchmarks oder Simulationen seien kein Ersatz für Tests mit echten Menschen. Die Modelle müssten lernen, aktiv Informationen nachzufragen und Empfehlungen klarer zu kommunizieren.

Empfehlung

„Ein öffentlich zugängliches medizinisches LLM müsste proaktiv Informationen erfragen, statt sich auf die Benutzerführung zu verlassen“, heißt es in der Studie. Auch der Wunsch, LLMs als Ergänzung zum überforderten Gesundheitssystem einzusetzen, müsse angesichts der gezeigten Schwächen noch warten.

Ein Test unter Laborbedingungen

Die Studie stellt auch gängige Testverfahren infrage. Zwar erzielten die untersuchten LLMs im MedQA-Benchmark, der auf medizinischen Prüfungsfragen basiert, hohe Werte - diese Leistung korrelierte aber kaum mit der Interaktionsleistung in der Studie. Auch simulierte Nutzer - also LLMs, die sich als Patienten ausgaben - schnitten deutlich besser ab als echte Menschen, spiegelten deren Verhalten aber nicht realistisch wider.

Aber auch die neue Studie testet unter Laborbedingungen, es sind Menschen, die Krankheiten nach einem vorgefertigten Muster simulieren. Das ist wahrscheinlich näher an der Realität als ein Vignetten-Test, aber immer noch weit entfernt von einer kranken Person, die anders kommunizieren würde.

Außerdem wurden die Modelle über API-Schnittstellen getestet und nicht über interaktive Chat-Schnittstellen wie ChatGPT, die mehr auf unterstützende Dialogführung ausgelegt sind. Die verwendeten Prompts waren zudem ohne kontextgebende Systemanweisungen - ein Aspekt, der in der Praxis einen deutlichen Unterschied in der Art und Weise machen kann, wie das Sprachmodell mit dem Patienten kommuniziert. Auch Reasoning-fähige Modelle oder Techniken wie „Chain-of-Thought“-Prompting wurden nicht berücksichtigt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Dennoch zeigt die Studie deutlich: Der Einsatz von KI in der Medizin bleibt schwierig - und die Interaktion mit dem Menschen stellt sich dabei immer wieder als zentrale Herausforderung dar.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Große Sprachmodelle wie GPT-4o, Llama 3 und Command R+ glänzen bei medizinischen Prüfungen, versagen aber im direkten Kontakt mit Patienten, wie eine Studie der Universität Oxford mit 1.298 Teilnehmenden zeigt.
  • Während die KI-Modelle selbst in simulierten Szenarien überzeugende Diagnosen und Handlungsempfehlungen liefern, schneiden Menschen, die mit den Modellen interagieren, schlechter ab als jene, die eigenständig recherchieren – Kommunikationsprobleme zwischen Mensch und Maschine werden als Hauptursache vermutet.
  • Die Studie stellt gängige Testverfahren wie Benchmarks und Simulationen infrage und fordert echte Nutzertests. Die Fähigkeiten der Sprachmodelle reichen derzeit nicht aus, um sie als erste Anlaufstelle für Patienten einzusetzen. KI-Systeme müssen lernen, aktiv Informationen zu erfragen und Empfehlungen klarer zu kommunizieren.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!