Inhalt
summary Zusammenfassung

OpenAI hat einen neuen Bewertungsstandard für KI-Systeme im Gesundheitswesen vorgestellt. "HealthBench" soll realitätsnahe medizinische Gespräche systematisch auswerten. Laut OpenAI erreichen die neuesten Sprachmodelle des Unternehmens in diesem Test bessere Ergebnisse als die Vergleichsantworten von Ärztinnen und Ärzten.

Anzeige

Bisherige Tests für medizinische KI-Systeme weisen laut OpenAI erhebliche Schwächen auf: Sie bilden reale Gesprächssituationen nur unzureichend ab, wurden nicht ausreichend von medizinischen Experten geprüft oder bieten zu wenig Raum, um Verbesserungen fortgeschrittener Modelle zu messen.

Für HealthBench haben 262 Ärztinnen und Ärzte aus 60 Ländern 5.000 medizinische Gesprächsszenarien entwickelt. Die beteiligten Mediziner decken 26 Fachgebiete ab und sprechen zusammen 49 Sprachen.

Der Test prüft sieben medizinische Bereiche - von der Notfallmedizin bis zu Fragen der globalen Gesundheit. Ein KI-gestütztes Bewertungssystem analysiert die Antworten nach fünf Kriterien: Kommunikationsqualität, Befolgung der Instruktion, Genauigkeit, Kontextbewusstsein und Vollständigkeit. Dabei kommen insgesamt 48.000 Einzelkriterien zum Einsatz, die auf medizinischer Expertise basieren.

Anzeige
Anzeige

Die Bewertung der Antworten erfolgt durch ein KI-Modell (GPT-4.1), das die Erfüllung vorgegebener Kriterien prüft. Um die Zuverlässigkeit dieses automatisierten Bewertungssystems zu validieren, verglich OpenAI dessen Urteile mit Bewertungen durch Ärztinnen und Ärzte. Dabei zeigte sich laut OpenAI, dass die Übereinstimmung zwischen dem KI-Bewerter und den Ärzten ähnlich hoch war wie die Übereinstimmung zwischen verschiedenen Ärzten untereinander.

GPT-4.1 und o3 übertreffen ärztliche Basisantworten

Laut OpenAI schneiden die neuesten Modelle des Unternehmens, GPT-4.1 und das Reasoning-Modell o3, im HealthBench-Test besser ab als die Vergleichsantworten von Ärztinnen und Ärzten.

Das Unternehmen betont jedoch, dass diese Ergebnisse differenziert betrachtet werden müssen: Das Verfassen von Chat-Antworten auf medizinische Fragen gehöre nicht zu den üblichen Aufgaben von Medizinern. Daher sei ein direkter Vergleich zwischen KI-Systemen und ärztlichem Personal in diesem spezifischen Kontext nur begrenzt aussagekräftig.

Die Testergebnisse zeigen demnach primär die Fähigkeiten der KI-Modelle in einer sehr spezifischen Aufgabenstellung. Sie lassen keine unmittelbaren Rückschlüsse auf die Gesamtqualität medizinischer Versorgung durch Menschen oder KI zu.

OpenAI berichtet von deutlichen Verbesserungen seiner Modelle im HealthBench-Test. Das neue Modell o3 (0,60) erreicht nach Unternehmensangaben etwa doppelt so hohe Bewertungen wie sein Vorgänger GPT-4o (0.32) vom August 2024. Vergleichbare Leistungen zeigen laut OpenAI nur die Konkurrenzmodelle Grok 3 (0.54) und Google Gemini 2.5 (0.52).

Empfehlung
Balkendiagramm: HealthBench Scores verschiedener KI-Modelle, aufgeschlüsselt nach Konversationsthema.
Die Grafik zeigt die HealthBench-Scores verschiedener KI-Modelle. Die Leistung der Modelle unterscheidet sich je nach medizinischem Konversationsthema erheblich. | Bild: OpenAI

In einer ersten Testreihe vom September 2024 konnten Mediziner die Antworten älterer KI-Modelle noch verbessern, wenn sie diese als Ausgangspunkt für ihre eigenen Antworten nutzten. Ärztliche Antworten ohne KI-Unterstützung erzielten die niedrigsten Bewertungen.

In einer zweiten Testreihe im April 2025 mit den neueren Modellen GPT-4.1 und o3 änderte sich das Bild: Die Antworten der Ärztinnen und Ärzte erreichten keine besseren Bewertungen mehr als die KI-Systeme allein.

Balkendiagramm: HealthBench Scores von Arzt- und KI-Antworten im Vergleich, aufgeteilt nach Achse und Referenzmodell.
Die Grafik aus dem OpenAI-Paper zeigt: Bei allen fünf Bewertungsachsen liegen die aktuellen Modelle gleichauf oder über den ärztlichen Antworten. | Bild: OpenAI

Bewertungen für Sicherheit, Kosten und Verlässlichkeit

Gerade im Gesundheitswesen ist die Zuverlässigkeit von Modellen entscheidend: Eine einzige unsichere oder falsche Antwort kann den Nutzen vieler guter Antworten zunichtemachen. HealthBench prüft daher auch die Zuverlässigkeit der Modelle im schlechtesten Fall – also wie gut das schlechteste von mehreren generierten Ergebnissen ausfällt. Die neuesten Modelle zeigen hier ebenfalls deutliche Verbesserungen, auch wenn laut OpenAI noch Raum für Fortschritte besteht.

Balkendiagramm: HealthBench Fehlerraten verschiedener KI-Modelle, aufgeschlüsselt nach Konversationsthema.
Die Grafik zeigt die HealthBench Konsensus-Fehlerraten verschiedener KI-Modelle, aufgeschlüsselt nach Konversationsthema. Man sieht einen deutlichen Sprung von GPT-3.5, dem ersten ChatGPT-Modell, und dem aktuelle GPT-4.1 (nur via API verfügbar). | Bild: OpenAI

Ein weiterer Schwerpunkt liegt auf der Effizienz. Das kompakte Modell GPT-4.1 nano arbeitet laut OpenAI 25-mal kostengünstiger als sein Vorgänger GPT-4o vom August 2024 - bei gleichzeitig besserer Leistung. Dies könnte den Einsatz in Regionen mit begrenzten Ressourcen erleichtern.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Mit zwei Zusatzdatensätzen – HealthBench Consensus und HealthBench Hard – will OpenAI zudem eine Grundlage für besonders zuverlässige und besonders schwierige Testszenarien schaffen. Während "Consensus" nur mehrfach validierte Kriterien enthält, listet "Hard" 1.000 besonders anspruchsvolle Fälle, an denen auch Spitzenmodelle noch scheitern.

OpenAI hat alle Testdaten und Bewertungsmethoden von HealthBench (Paper) auf GitHub veröffentlicht und lädt die Forschungsgemeinschaft ein, den Benchmark zu nutzen und weiterzuentwickeln.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI hat mit HealthBench einen neuen Bewertungsmaßstab für KI-Systeme im Gesundheitsbereich vorgestellt, der auf 5.000 simulierten Arzt-Patienten-Gesprächen basiert und Antworten anhand von 48.000 medizinisch fundierten Kriterien bewertet.
  • Die neuesten Modelle GPT-4.1 und o3 liefern laut OpenAI medizinische Antworten, die in Tests teilweise besser abschneiden als die von Ärztinnen und Ärzten – insbesondere bei Vollständigkeit und Genauigkeit; eine nachträgliche Überarbeitung durch Menschen brachte bei den aktuellen Modellen keinen messbaren Mehrwert mehr.
  • OpenAI stellt alle Daten öffentlich zur Verfügung und ruft die Forschung zur gemeinsamen Weiterentwicklung auf.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!