Inhalt
summary Zusammenfassung

Forschende der Stanford University stellen MedAlign vor, einen Benchmark-Datensatz zur Bewertung der Fähigkeit großer Sprachmodelle, mit echten elektronischen Gesundheitsakten (EHRs) umzugehen.

Anzeige

MedAlign umfasst knapp 1.000 Anweisungen von 15 Ärzt:innen aus sieben Fachgebieten, inklusive knapp 300 Referenzantworten und etwa 275 EHRs, die mehrere Besuche bei unterschiedlichen Ärzt:innen enthalten. Der Datensatz soll eine authentische Testumgebung schaffen, die die Vielfalt und die Besonderheiten von EHR-Daten widerspiegelt.

Das Team testete drei Sprachmodelle mit MedAlign: OpenAIs GPT-4, Vicuna und MPT-7B-Instruct. Die Modelle mussten EHRs zusammenfassen, Fragen beantworten, Diagnosen stellen oder Behandlungspläne beschreiben. Dabei stieß das Team schnell auf ein Problem: Die Kontextlängen der Sprachmodelle sind für EHR-Daten einfach zu klein. Nur GPT-4 in der 32.000-Token-Variante konnte einen Teil der Patientenakten lesen (knapp 20 Prozent).

Auch GPT-4 macht noch viele Fehler

Das Team unterteilte daher die Daten, wo nötig, in einzelne Abschnitte, die von den Sprachmodellen Stück für Stück verarbeitet wurden. Das Team ließ die Antworten von menschlichen Expert:innen bewerten, unterstützt durch eine automatisierte Methode (COMET-Score). GPT-4 erreichte eine Genauigkeit von 65 % (32k) und 60 % (2k), deutlich höher als die kleineren Modelle (etwa 30 bis 35 %), aber immer noch eine Fehlerrate von 35 %. Der 32k Kontext erhöhte die Leistung von GPT-4 um 8,3 %. GPT-4-Antworten wurden am häufigsten am besten bewertet, insbesondere bei Aufgaben zur Versorgungsplanung. Vicuna in der Variante mit 13 Billionen Parametern schnitt kaum besser ab als Vicuna-7B.

Anzeige
Anzeige

Nach Ansicht der Forschenden liefert der Test drei wichtige Erkenntnisse: Das Beispiel Vicuna zeige, dass die Modellgröße allein die Leistung nicht verbessere, sondern dass die Qualität der Trainingsdaten entscheidend für die Leistung sei. Zudem sei die Kontextlänge von Sprachmodellen für EHR-basierte Aufgaben zentral - und biete damit eine Motivation für Forschende, die Länge zu erweitern.

Der MedAlign-Benchmark soll nun als neues Ziel für die Entwicklung von KI-Modellen für den klinischen Einsatz dienen. Die eingesetzten Methoden wie der COMET-Score, bei dem die Forschenden eine hohe Übereinstimmung mit den Präferenzen menschlicher Expert:innen feststellten, sowie der verwendete Prozess zur Datenerhebung könnten zudem bald noch größere Datensätze ermöglichen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende der Stanford University präsentieren MedAlign, einen Benchmark-Datensatz zur Bewertung von großen Sprachmodellen im Umgang mit elektronischen Gesundheitsakten (EHRs).
  • MedAlign wurde entwickelt, um eine authentische Testumgebung zu schaffen, die die Vielfalt und Besonderheiten von EHR-Daten widerspiegelt; der Datensatz beinhaltet fast 1.000 ärztliche Anweisungen, 300 Referenzantworten und 275 EHRs.
  • Die Ergebnisse zeigen, dass die Kontextlänge von Sprachmodellen für EHR-basierte Aufgaben entscheidend ist.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!