Inhalt
summary Zusammenfassung

Selbst ohne spezielles Training konnte GPT-4 medizinische Prüfungen auf hohem Niveau erfolgreich absolvieren. Dabei wurden jedoch auch die Mängel des Modells deutlich. 

Anzeige

Eine aktuelle, extern begutachtete Studie in der Fachzeitschrift Cureus hat gezeigt, dass OpenAIs großes, wenn auch etwas älteres Sprachmodell GPT-4 die staatliche Physiotherapeutenprüfung in Japan bestehen kann. Die Studie analysierte die Leistung von GPT-4 sowohl bei textbasierten als auch bei visuellen Fragen.

Die Physiotherapeutenprüfung in Japan besteht aus 160 allgemeinen und 40 praktischen Fragen, die Gedächtnis, Verständnis, Anwendung, Analyse und Bewertung testen. Die Forscher:innen gaben 1.000 Fragen in den GPT-4 ein und verglichen die Antworten mit den offiziellen richtigen Antworten.

Eine der Fragen, die GPT-4 in der Prüfung beantworten sollte. | Bild: Sawamura et al.

GPT-4 erfüllte die Anforderungen aller fünf Tests und beantwortete 73,4 Prozent der Fragen richtig. Damit hat GPT-4 die Prüfung bestanden.

Anzeige
Anzeige

Vor allem mangelhaftes Bildverständnis

Allerdings hatte das KI-Modell Schwierigkeiten mit fachpraktischen Fragen und Fragen, die Bilder oder Tabellen enthielten. Die Trefferquote bei den allgemeinen Fragen lag mit 80,1 % deutlich höher als bei den praktischen Fragen mit nur 46,6 Prozent.

Eine ähnliche Diskrepanz in den Trefferquoten zeigte sich auch beim Vergleich von reinen Textfragen (80,5 Prozent) und Fragen mit Bildern und Tabellen (35,4 Prozent). Dieser Befund wird durch frühere Studien gestützt.

In allen Prüfungen hatte GPT-4 weitaus mehr Schwierigkeiten, praktische Fragen zu beantworten. | Bild: Sawamura et al.

Interessanterweise ergab die Studie, dass die Leistung des GPT-4 weder vom Schwierigkeitsgrad des Frageformats noch von der Länge des Fragetextes wesentlich beeinflusst wurde.

Außerdem bemerkten die Forscher:innen die gute Leistung des Modells sogar bei japanischen Eingaben, obwohl GPT-4 hauptsächlich mit einem englischsprachigen Korpus entwickelt wurde.

Bessere Leistung mit GPT-4o?

Während die Studie das Potenzial des GPT-4 als Instrument für die klinische Rehabilitation und die medizinische Ausbildung aufzeigt, warnen die Forscher davor, dass das Modell nicht alle Fragen korrekt beantwortet.

Empfehlung

Sie betonen die Notwendigkeit, neuere Versionen und die Fähigkeiten des Modells in schriftlichen und argumentativen Tests weiter zu evaluieren. Das neuere Modell GPT-4o, das von Grund auf multimodal ist, könnte bessere Ergebnisse beim visuellen Verständnis erzielen.

Große Sprachmodelle zeigen schon seit längerem Potenzial für den Einsatz in der Medizin. Bessere Ergebnisse als mit allgemeinen Modellen wie GPT-4 versprechen spezialisierte Versionen. Google hat mit Med-PaLM 2 und Med-Gemini für medizinische Aufgaben optimierte Varianten seiner Sprachmodelle entwickelt. Med-Gemini hat jedoch trotz Spezialisierung nur einen geringen Vorteil gegenüber dem generisch trainierten GPT-4.

Bild: via Google

Auch Meta hat auf Llama 3 basierende Modellen für den medizinischen Bereich im Portfolio. Die Modelle sollen Ärzte und medizinisches Personal bei verschiedenen Aufgaben wie der Beantwortung komplexer Fragen, der Erstellung von Zusammenfassungen und der Auswertung multimodaler Daten unterstützen.

Es wird jedoch noch einige Zeit dauern, wenn überhaupt, bis sich die medizinischen LLMs in der Praxis durchsetzen. Selbst das derzeitige Benchmark-Niveau lässt noch zu viel Raum für falsche Antworten, die im medizinischen Kontext besonders kritisch sind. Auch hier scheint ein Durchbruch in den logischen Fähigkeiten notwendig, um LLMs wirklich sicher in den medizinischen Alltag zu bringen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine aktuelle Studie zeigt, dass das OpenAI-Sprachmodell GPT-4 die staatliche Prüfung für Physiotherapeuten in Japan mit einer Trefferquote von 73,4 Prozent bestehen würde, obwohl es nicht speziell für diese Prüfung trainiert wurde.
  • GPT-4 hatte jedoch Schwierigkeiten mit praktischen Fragen und Fragen, die Bilder oder Tabellen enthielten. Die Trefferquote bei allgemeinen Fragen war mit 80,1 Prozent deutlich höher als bei praktischen Fragen mit nur 46,6 Prozent.
  • Die Forscher:innen sehen Potenzial für den Einsatz von GPT-4 in der klinischen Rehabilitation und medizinischen Ausbildung, betonen aber die Notwendigkeit weiterer Evaluierungen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!