Ein Forscherteam des Shenzhen Research Institute of Big Data und der Chinese University of Hong Kong hat ein KI-System namens DiagnosisGPT entwickelt, das KI-Diagnosen transparent und nachvollziehbar machen soll. Das System kann über 9.600 Krankheiten erkennen und übertrifft andere KI-Modelle in diagnostischen Tests.
DiagnosisGPT kann nach Angaben der Forscher mehr als 9.600 Krankheiten erkennen und den Diagnoseprozess für Ärzte und Patienten nachvollziehbar machen. Das System basiert auf der so genannten "Chain of Diagnosis" (CoD) Methode. Dabei wird der Diagnoseprozess in einzelne, transparente Schritte zerlegt: Zuerst werden die Symptome des Patienten zusammengefasst. Dann schlägt das System mögliche Krankheiten vor, analysiert, welche am wahrscheinlichsten ist, und gibt diese Wahrscheinlichkeiten für jeden Kandidaten an. Basierend auf dieser Einschätzung stellt das System eine Diagnose und fragt dann nach weiteren Symptomen.
Diese Orientierung an menschlichen Diagnose-Entscheidungen unterscheidet das System von anderen Ansätzen wie Googles MedLM-Modellen oder Microsofts Medprompt.
Um DiagnosisGPT zu trainieren, erstellten die Forscher einen synthetischen Datensatz mit mehr als 48.000 synthetischen Patientenfällen und trainierten Yi-6B und Yi-34B damit. Als Grundlage dienten medizinische Enzyklopädien.
DiagnosisGPT schlägt in Benchmarks Claude 3 Opus
In Tests mit öffentlichen Diagnose-Datensätzen schnitt DiagnosisGPT besser ab als andere große Sprachmodelle wie GPT-4 oder Claude 3 Opus. Es erreichte bei zwei Datensätzen eine Genauigkeit von bis zu 76%. Auch in dem neuen DxBench-Datensatz mit 1.148 Fällen, den das Team mit echten Patientendaten erstellt hat, erzielte es die besten Ergebnisse. Die von DiagnosisGPT angezeigten Wahrscheinlichkeiten korrelieren auch mit der Genauigkeit der Diagnose: Liegt die angezeigte Wahrscheinlichkeit über 55 %, ist die Diagnose in über 90 % der Fälle korrekt.
Durch Anpassung der Wahrscheinlichkeitsschwelle lässt sich außerdem der Kompromiss zwischen Geschwindigkeit und Genauigkeit steuern: Je höher die geforderte Wahrscheinlichkeit, desto mehr Fragen stellt das System, um sicherer zu werden - was aber mehr Zeit benötigt.
Die Forscher sehen in CoD einen Weg, KI-gestützte Diagnosen durch Interpretierbarkeit praktikabler zu machen. Systeme wie DiagnosisGPT sollen den Arzt unterstützen und nicht ersetzen - die endgültige Diagnose soll weiterhin ein Mensch stellen. Gleichzeitig weisen sie darauf hin, dass DiagnosisGPT derzeit nur für die Forschung gedacht ist, da das Risiko von Fehldiagnosen besteht.
Die Modelle gibt es über GitHub.