Retrieval-Augmented Generation (RAG) soll medizinischen KI-Systemen helfen, aktuelle und zuverlässige Antworten zu liefern. Ein neuer Überblick zeigt, warum das in der Praxis bisher selten funktioniert – und welche technischen, regulatorischen und infrastrukturellen Hürden den Einsatz bremsen.
Große Sprachmodelle haben sich in vielen Bereichen als leistungsfähig erwiesen und sind bereits im Praxiseinsatz – nicht so in der Medizin. Denn dort sind Genauigkeit, Aktualität und Nachvollziehbarkeit essenziell. Genau hier stoßen klassische LLMs an ihre Grenzen: Sie halluzinieren Fakten, kennen keine neuen Studien und lassen sich schwer überprüfen. Retrieval-Augmented Generation (RAG) soll diese Probleme lösen. Doch trotz technischer Fortschritte kommt die Technik bislang kaum im Klinikalltag an.
Ein aktueller Übersichtsartikel mit Beteiligten aus der Universität Genf, der University of Tokyo, der Duke-NUS Medical School in Singapur und mehreren chinesischen Forschungseinrichtungen zeigt, warum das so ist – und was sich ändern müsste.
RAG liefert aktuelle Informationen – zumindest in der Theorie
Der Grundgedanke von Retrieval-Augmented Generation ist simpel: Anstatt sich nur auf das statische Wissen im Modell zu verlassen, greift das System zur Beantwortung einer Frage auf externe Quellen zurück – etwa medizinische Leitlinien, Studien oder elektronische Krankenakten. Diese werden erst abgerufen, dann gewichtet und schließlich gemeinsam mit der ursprünglichen Frage an das Sprachmodell übergeben.
In der Praxis sei das jedoch komplex, so die Forscher. Die medizinische Fachsprache, das heterogene Format der Datenquellen und der hohe Anspruch an Genauigkeit stelle besondere Anforderungen an jedes einzelne Modul eines RAG-Systems - vom Retriever, der die Daten aus externen Datenbanken sammelt, über den Re-Ranker, der die gesammelten Daten beispielsweise nach Wichtigkeit sortiert, bis hin zum Generator, der die endgültige Antwort erstellt.
Technik vorhanden, Anwendung begrenzt
Die Studie listet zahlreiche RAG-Systeme, die in der Forschung vielversprechende Ergebnisse zeigen, etwa bei medizinischen Frage-Antwort-Diensten, bei der Unterstützung von Diagnosen seltener Erkrankungen oder bei der automatisierten Generierung von Radiologiebefunden. Auch in der Genommedizin und der personalisierten Patientenkommunikation werden RAG-Ansätze erprobt.
Trotzdem ist der reale Einsatz in Kliniken die Ausnahme. Der Hauptgrund laut dem Team: Die Systeme sind aufwendig, teuer und oft nicht robust genug für sicherheitskritische Umgebungen. Auch regulatorische Unsicherheit und Datenschutzbedenken bremsen die Integration in den medizinischen Alltag.
Fünf Hürden verhindern den klinischen Einsatz
Die Autoren identifizieren fünf zentrale Herausforderungen:
- Vertrauenswürdigkeit: Fehlerhafte Quellen oder Re-Ranker-Fehlentscheidungen können zu gefährlichen Fehlinformationen führen.
- Mehrsprachigkeit: Fast alle Systeme sind nur auf Englisch einsetzbar. Für viele Sprachen fehlen geeignete Modelle und Daten.
- Multimodalität: Viele medizinische Informationen liegen nicht als Text, sondern als Bilder, Zeitreihen oder Audiodaten vor. RAG-Systeme, die solche Daten zuverlässig verarbeiten, sind selten.
- Rechenbedarf: Große Modelle wie DeepSeek benötigen hunderte GPUs – in Krankenhäusern kaum realisierbar.
- Datenschutz: Die Verarbeitung sensibler Patientendaten mit Cloud-basierten LLMs steht oft im Konflikt mit regulatorischen Vorgaben wie der DSGVO oder HIPAA.
Einige Lösungsansätze existieren bereits: kleinere, lokal betreibbare Modelle, hybride Systeme mit lokalem Retrieval und externer Generierung oder spezialisierte, domänenspezifische Modelle wie MedCPT. Doch diese Ansätze bringen nach Ansicht der Forscher neue Probleme mit sich - etwa eine geringere Genauigkeit oder neue Risiken für den Datenschutz.
Eine weitere Hürde für den Einsatz solcher Systeme im medizinischen Kontext wurde kürzlich in einer anderen Studie identifiziert: der Mensch. Denn Patienten, die mit Chatbots interagieren, schneiden in medizinischen Benchmarks oft deutlich schlechter ab als Systeme ohne Menschen.