Forschende vom EMBL-EBI in Cambridge und dem Deutschen Krebsforschungszentrum (DKFZ) stellen mit Delphi-2M ein generatives Transformer-Modell vor, das aus Gesundheitsakten lernt, individuelle Krankheitsrisiken in Zeitverläufen schätzt und plausible Zukunftsszenarien simuliert.
Laut der in Nature veröffentlichten Studie zu Delphi-2M lernt die KI die Abfolge von Diagnosen und Basisangaben aus großen Gesundheitsdatenbanken und sagt daraus die Wahrscheinlichkeit für mehr als 1.000 Erkrankungen voraus – inklusive eines zeitlichen Verlaufs der Risiken.
Trainiert wurde das Modell auf knapp über 400.000 Teilnehmenden der UK Biobank und anschließend ohne Nachjustierung auf Daten von 1,93 Millionen Menschen aus dänischen Registern geprüft. Die Forschenden betonen, dass Delphi-2M Wahrscheinlichkeiten und Trends liefert, keine medizinischen Gewissheiten oder Kausalzusammenhänge. Es handelt sich zudem um ein Proof-of-Concept, das zeigen soll, das der Ansatz vielversprechend ist.
Wie das Modell funktioniert
Technisch basiert Delphi-2M auf einer an Gesundheitsdaten angepassten GPT-Architektur: Statt Wörter verarbeitet das System Ereignisse im Leben eines Menschen entlang einer Zeitachse. Wichtig ist, dass es nicht nur das "was" (nächste Diagnose) schätzt, sondern auch das "wann" (Zeit bis dahin).
Eingegeben werden die bisherige Krankengeschichte als Liste von Diagnosen mit dem Alter zum Erstauftreten (ICD‑10), dazu Geschlecht sowie grobe Angaben zu BMI, Rauchen und Alkoholkonsum. Das Modell verarbeitet diese Ereignisse entlang einer Zeitachse und gibt für jeden Zeitpunkt geschätzte Tagesraten zurück: also die Wahrscheinlichkeit pro Tag, mit der eine der über 1.000 Diagnosen (oder der Tod) als nächstes eintritt.
Zusätzlich schätzt es die Zeit bis zum nächsten Ereignis und kann auf dieser Basis komplette zukünftige Trajektorien "durchspielen". Die Vorhersagen werden jedes Mal aktualisiert, wenn neue Informationen hinzukommen.
Um lange Lücken in der Krankengeschichte zu überbrücken, setzt Delphi-2M neutrale Platzhalter ein. Code und Unterlagen sind bei GitHub verfügbar, das Modell selbst unterliegt den Zugangsvorgaben der UK Biobank.
Wie gut sind die Vorhersagen?
Wie gut ist das in der Praxis? In den internen Tests erkannte Delphi‑2M Muster für fast alle Krankheiten deutlich besser als Zufall, bei der kurzfristigen Vorhersage des nächsten Todesfalls besonders zuverlässig. Auch über längere Zeiträume bleiben die Aussagen brauchbar: Nach zehn Jahren wird das Modell etwas ungenauer, die Tendenzen bleiben aber erhalten.
Laut dem Team fielen die externen Tests auf dänischen Daten zudem nur leicht schwächer aus als die internen - ein Zeichen, dass die Methode das Potenzial haben könnte mit mehr Daten und größeren Modellen auf breite Bevölkerungsgruppen zu skalieren.
Einsatzmöglichkeiten und Zeitplan
Die Forschenden sehen Potenzial in der Versorgungsplanung: Aggregierte Prognosen können helfen, die Zahl erwarteter Fälle für bestimmte Krankheiten in Regionen und Altersgruppen besser abzuschätzen. Für den Einsatz bei einzelnen Patientinnen und Patienten rechnen sie mit einem Zeitraum von fünf bis zehn Jahren, auch weil regulatorische Hürden zu nehmen sind, berichtet die Financial Times.
Das System liefert besonders für Krankheiten mit gut erkennbaren Mustern (z.B. Herz-Kreislauf, Diabetes, Blutvergiftung) die robustesten Vorhersagen. Weniger geeignet ist es für seltene angeborene Leiden oder Diagnosen, die stark von äußeren Einflüssen abhängen. Das Team prüft, zusätzliche Datenebenen wie Genomik und Proteomik einzubinden. Kernelemente zur Risiko- und Zeitmodellierung wurden patentiert.
Grenzen und offene Fragen
Die Studie macht die Einschränkungen von Delphi-2M transparent: Die UK Biobank umfasst mehrheitlich gesündere, besser gebildete Teilnehmende im Alter 40–70 Jahre, Todesfälle vor der Rekrutierung fehlen und sehr alte Jahrgänge sind unterrepräsentiert. Außerdem stammen Diagnosen aus unterschiedlichen Quellen (Selbstauskunft, Hausarzt, Klinik, Register).
Fehlen etwa Krankenhausdaten, unterschätzt das Modell hospitaltypische Erkrankungen – und umgekehrt: Diagnosen, die fast nur im Krankenhaus kodiert werden, sagt es bei Personen mit Krankenhaus‑Historie im Schnitt deutlich häufiger voraus; Sepsis ist zu 93 Prozent hospitalbasiert und wird bei vorhandenen Krankenhausdaten etwa achtmal häufiger erwartet. Solche Muster spiegeln reale Versorgungspfade, enthalten aber auch Artefakte. Die Autorinnen und Autoren warnen deshalb ausdrücklich vor kausalen Interpretationen und sehen Delphi‑2M als Ergänzung, nicht als Ersatz für ärztliche Diagnostik.