In einer Studie untersuchte Microsoft die Möglichkeiten und Grenzen von GPT-4 in der Radiologie.
In Zusammenarbeit mit einem Radiologen und dem Microsoft-Unternehmen Nuance, dessen Lösung PowerScribe von mehr als 80 Prozent der Radiologen in den USA verwendet wird, erstellte das Team einen umfassenden Rahmen für die Bewertung und Fehleranalyse.
Innerhalb dieses Rahmens bewertete das Team die Fähigkeit von GPT-4, radiologische Befunde zu verarbeiten, einschließlich des Verständnisses der Umgangssprache und der Generierung radiologischer Aufgaben wie der Klassifizierung von Krankheiten und der Zusammenfassung von Befunden. Bei den Aufgaben konzentrierte sich das Team auf komplexere und anspruchsvollere reale radiologische Szenarien.
GPT-4 kann sogar menschliche Radiologen übertreffen
Die Studie ergab, dass GPT-4 bei einigen Aufgaben eine neue Spitzenleistung zeigt und bis zu zehn Prozent besser abschneidet als bestehende Modelle. Obwohl GPT-4 gelegentlich beim Abrufen von Domänenwissen scheitert, verfüge es über "beträchtliche Fähigkeiten bei der Verarbeitung und Analyse radiologischer Texte" und erreiche bei vielen Aufgaben eine nahezu perfekte Leistung, heißt es im Papier.
In einigen Fällen waren die von GPT-4 generierten Zusammenfassungen von Radiologieberichten sogar genauer und lieferten vollständigere Details über die Befunde als die von erfahrenen Radiologen erstellten Berichte.
Ein weiterer vielversprechender Aspekt von GPT-4 sei die Fähigkeit, Radiologieberichte, die oft komplex und unstrukturiert seien, automatisch zu strukturieren. Studien zeigten, dass strukturierte Berichte die Standardisierung und Konsistenz bei der Beschreibung von Krankheiten verbessern können.
Dies erleichtere die Interpretation durch andere Leistungserbringer im Gesundheitswesen und mache sie für Forschung und Qualitätsverbesserungsinitiativen besser durchsuchbar.
GPT-4 könnte dazu beitragen, Real-World-Daten (RWD) und deren Nutzung für Real-World-Evidenz (RWE) zu verbessern, um klinische Studien zu ergänzen und die Umsetzung von Forschungsergebnissen in die klinische Praxis zu beschleunigen.
Sind große Sprachmodelle die besseren Spezialisten?
Die Ergebnisse seien ermutigend, müssten aber durch weitere Forschung und klinische Tests bestätigt werden. "Wenn GPT-4 unter menschlicher Aufsicht eingesetzt wird, hat es auch das Potenzial, die Radiologie zu verändern, indem es Fachleute bei ihren täglichen Aufgaben unterstützt", schreibt das Team.
Schon im August haben Microsoft-Forscherinnen und -Forscher bereits Studienergebnisse veröffentlicht, die zeigen, dass mit großen Datenmengen vortrainierte generalistische KI-Modelle wie GPT-4 spezialisierte medizinische Modelle übertreffen können.