Google Deepmind stellt KI-Assistenten für Ärzte vor, der Patienten per Video untersuchen soll
Kurz & Knapp
- Google Deepmind entwickelt einen "AI co-clinician", der Ärzte bei der Patientenversorgung unterstützen soll.
- In Blindvergleichen mit realistischen Hausarztanfragen bevorzugten Mediziner die Antworten dieses Systems gegenüber anderen KI-Tools wie GPT-5.4-thinking-with-search.
- In einer Simulationsstudie schnitten erfahrene Ärzte jedoch weiterhin besser ab als die KI, insbesondere beim Erkennen von Warnsignalen und bei körperlichen Untersuchungen.
Google Deepmind forscht an einem "AI co-clinician", der Ärzte bei der Patientenversorgung unterstützen soll. In Simulationsstudien zeigt das System vielversprechende Ergebnisse, bleibt aber hinter erfahrenen Medizinern zurück. Die Untersuchung zeigt auch, weshalb man den Audio-Sprachchat-Modus von ChatGPT nicht für ernsthafte Aufgaben und schon gar nicht für KI-Arztgespräche nutzen sollte.
Das Konzept des "AI co-clinician" basiert auf dem, was die Forscher als "triadische Versorgung" bezeichnen: KI-Agenten sollen Patienten in ihrem Behandlungsverlauf helfen, während der Arzt die klinische Autorität und Kontrolle behält. Das Ziel ist ein KI-System, das als kollaboratives Mitglied des ärztlichen Teams fungiert und Patienten unter klinischer Aufsicht unterstützt.
Für die kliniker-seitige Evaluation adaptierten die Forscher gemeinsam mit akademischen Ärzten das NOHARM-Framework, um das System auf zwei Fehlertypen zu prüfen: falsche Informationen ("errors of commission") und das Versäumnis, kritische Informationen zu liefern ("errors of omission").
In einem Blindvergleich mit 98 realistischen Hausarztanfragen bevorzugten Ärzte die Antworten des AI co-clinician konsistent gegenüber führenden Evidenz-Synthese-Tools. Gegen ein bestehendes klinisches KI-System lag die Präferenz bei 67 zu 26, gegen GPT-5.4-thinking-with-search bei 63 zu 30. In der objektiven Analyse verzeichnete das System in 98 Fällen einen kritischen Fehler.

Deutlich zeigte sich der Vorsprung bei Fragen zu Medikamenten: Der sogenannte RxQA-Benchmark umfasst 600 Fragen zu Wirkstoffen, Wechselwirkungen und Dosierungen, die aus nationalen Arzneimittelverzeichnissen zweier Länder abgeleitet und von approbierten Apothekern geprüft wurden. Für Hausärzte sind diese Fragen schwierig: Mit Nachschlagewerken erreichten sie nur 61,3 Prozent richtige Antworten, ohne Hilfsmittel sogar nur 48,3 Prozent.
Der AI co-clinician erzielte 73,3 Prozent, GPT-5.4-thinking-with-search 72,7 Prozent. Noch deutlicher wurde der Unterschied, wenn die Fragen nicht als Multiple-Choice, sondern offen gestellt wurden, also so, wie Ärzte in der Praxis tatsächlich nachschlagen: Hier erreichte der AI co-clinician einen Qualitätswert von 95,0 Prozent, verglichen mit 90,9 Prozent für OpenAIs Modell.
Multimodale Telemedizin: KI mit Augen, Ohren und Stimme
Über die reine Textunterstützung hinaus erforscht Google Deepmind, wie der AI co-clinician mit Echtzeit-Audio und -Video in telemedizinischen Szenarien eingesetzt werden kann. In Zusammenarbeit mit Ärzten an Harvard und Stanford führten die Forscher eine randomisierte Simulationsstudie durch: 20 synthetische klinische Szenarien, 10 Ärzte als Patientendarsteller, insgesamt 120 hypothetische telemedizinische Begegnungen.
Der AI co-clinician demonstrierte dabei Fähigkeiten, die über reine Textsysteme hinausgehen: Er korrigierte etwa die Inhalator-Technik eines Patienten und leitete Schulteruntersuchungen an, um eine Rotatorenmanschettenverletzung zu identifizieren.
Für den Einsatz in patientenseitigen telemedizinischen Gesprächen nutzt der AI co-clinician eine Dual-Agent-Architektur: Ein "Planner"-Modul überwacht kontinuierlich die Konversation und prüft, ob der "Talker"-Agent innerhalb sicherer klinischer Grenzen bleibt. Für die ärzteseitige Nutzung priorisiert das System klinisch fundierte Evidenz und führt Verifizierungs- und Zitationsprüfungen bei der Informationssuche durch.
Erfahrene Ärzte bleiben überlegen
Die Studie bewertete über 140 Aspekte der Konsultationsqualität in sieben Domänen: Triage, Anamnese, klinisches Denken, Kommunikation und Beratung, Behandlungsschritte, Erkennung von Warnsignalen und körperliche Untersuchungen. Das Ergebnis ist ernüchternd für alle, die KI als Arztersatz sehen: Erfahrene Ärzte schnitten insgesamt besser ab als das KI-System, insbesondere beim Erkennen von "Red Flags" und bei der Anleitung kritischer körperlicher Untersuchungen.
Gleichzeitig erreichte der AI co-clinician in 68 der 140 bewerteten Bereiche ein vergleichbares oder besseres Niveau als Hausärzte. GPT-realtime von OpenAI schnitt in allen sieben Domänen deutlich schlechter ab als beide. Die Forscher folgern daraus, dass solche Systeme derzeit am besten als unterstützende Werkzeuge für Ärzte geeignet seien und nicht als Ersatz für klinisches Urteilsvermögen.

Ob und wann aus der Forschungsinitiative ein marktfähiges Produkt wird, bleibt offen. Die Ergebnisse zeigen einerseits beachtliche Fortschritte bei der KI-gestützten Evidenzsynthese und telemedizinischen Konsultation. Andererseits verdeutlichen sie, dass die Lücke zu erfahrenen Ärzten gerade in sicherheitskritischen Bereichen wie der Erkennung von Warnsignalen noch vorhanden ist. "Wir stehen noch ganz am Anfang, aber das Versprechen ist klar", sagt Deepmind-Forscher Alan Karthikesalingam.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren