KI in der Medizin: Studie testet GPT-4 mit elektronischen Gesundheitsakten

Midjourney prompted by THE DECODER

Forschende der Stanford University stellen MedAlign vor, einen Benchmark-Datensatz zur Bewertung der Fähigkeit großer Sprachmodelle, mit echten elektronischen Gesundheitsakten (EHRs) umzugehen.

MedAlign umfasst knapp 1.000 Anweisungen von 15 Ärzt:innen aus sieben Fachgebieten, inklusive knapp 300 Referenzantworten und etwa 275 EHRs, die mehrere Besuche bei unterschiedlichen Ärzt:innen enthalten. Der Datensatz soll eine authentische Testumgebung schaffen, die die Vielfalt und die Besonderheiten von EHR-Daten widerspiegelt.

Das Team testete drei Sprachmodelle mit MedAlign: OpenAIs GPT-4, Vicuna und MPT-7B-Instruct. Die Modelle mussten EHRs zusammenfassen, Fragen beantworten, Diagnosen stellen oder Behandlungspläne beschreiben. Dabei stieß das Team schnell auf ein Problem: Die Kontextlängen der Sprachmodelle sind für EHR-Daten einfach zu klein. Nur GPT-4 in der 32.000-Token-Variante konnte einen Teil der Patientenakten lesen (knapp 20 Prozent).

Auch GPT-4 macht noch viele Fehler

Das Team unterteilte daher die Daten, wo nötig, in einzelne Abschnitte, die von den Sprachmodellen Stück für Stück verarbeitet wurden. Das Team ließ die Antworten von menschlichen Expert:innen bewerten, unterstützt durch eine automatisierte Methode (COMET-Score). GPT-4 erreichte eine Genauigkeit von 65 % (32k) und 60 % (2k), deutlich höher als die kleineren Modelle (etwa 30 bis 35 %), aber immer noch eine Fehlerrate von 35 %. Der 32k Kontext erhöhte die Leistung von GPT-4 um 8,3 %. GPT-4-Antworten wurden am häufigsten am besten bewertet, insbesondere bei Aufgaben zur Versorgungsplanung. Vicuna in der Variante mit 13 Billionen Parametern schnitt kaum besser ab als Vicuna-7B.

Nach Ansicht der Forschenden liefert der Test drei wichtige Erkenntnisse: Das Beispiel Vicuna zeige, dass die Modellgröße allein die Leistung nicht verbessere, sondern dass die Qualität der Trainingsdaten entscheidend für die Leistung sei. Zudem sei die Kontextlänge von Sprachmodellen für EHR-basierte Aufgaben zentral - und biete damit eine Motivation für Forschende, die Länge zu erweitern.

Der MedAlign-Benchmark soll nun als neues Ziel für die Entwicklung von KI-Modellen für den klinischen Einsatz dienen. Die eingesetzten Methoden wie der COMET-Score, bei dem die Forschenden eine hohe Übereinstimmung mit den Präferenzen menschlicher Expert:innen feststellten, sowie der verwendete Prozess zur Datenerhebung könnten zudem bald noch größere Datensätze ermöglichen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

KI in der Medizin: Studie testet GPT-4 mit elektronischen Gesundheitsakten

Auch GPT-4 macht noch viele Fehler

KI-System "StreamDiT" generiert Livestream-Videos aus Textbeschreibungen

KI-Modelle lassen sich von Fail-Videos in die Irre führen

KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

KI in der Medizin: Studie testet GPT-4 mit elektronischen Gesundheitsakten

Auch GPT-4 macht noch viele Fehler

KI-System "StreamDiT" generiert Livestream-Videos aus Textbeschreibungen

KI-Modelle lassen sich von Fail-Videos in die Irre führen

KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen