Mit Med-PaLM M stellt Google Deepmind eine multimodale Variante der medizinischen KI-Modellreihe Med-PaLM vor, die neben Text auch medizinische Bilder oder sogar Genome für die Diagnose verarbeiten kann.
Med-PaLM M (MPM) basiert auf PaLM-E, Googles Robotermodell, das Sprache und Vision kombiniert, und ist keine multimodale Weiterentwicklung von Med-PaLM 2, Googles Sprachmodell, das für medizinische Aufgaben verfeinert wurde. Das ergibt insofern Sinn, als Med-PaLM M in der Lage sein soll, Diagnosen aus visuellen Daten zu erstellen.
So wie Med-PaLM 2 eine mit medizinischen Daten verfeinerte Variante des reinen Sprachmodells PaLM 2 ist, so ist MPM eine mit medizinischen Daten verfeinerte Variante von PaLM E.
Der KI-Allzweckdoktor
Google Deepmind bezeichnet MPM als einen Schritt in Richtung eines allgemeinen biomedizinischen Modells. Das kann man sich als eine Art Universaldoktor vorstellen, der zu allen medizinischen Themen und Bildern eine passende Diagnose oder Antwort parat hat.
Med-PaLM M verarbeitet verschiedene medizinische Informationen. Es kann wie Med-PaLM 2 schlicht auf Fragen antworten und erreicht annähernd dessen Niveau. Ebenso kann es Röntgenbilder untersuchen oder sogar DNA-Sequenzen auf Mutationen scannen.
In fast allen Disziplinen erreicht Med-PaLM M die derzeitige Bestleistung spezialisierter Systeme und setzt in einigen Bereichen wie der Röntgendiagnostik oder der Beantwortung visueller Fragen sogar neue Bestmarken.
Um die Fähigkeiten des KI-Modells zu testen, hat das Forschungsteam MultiMedBench erstellt, einen multimodalen Benchmark mit 14 verschiedenen Aufgaben aus sieben multimedizinischen Disziplinen. MultiMedBench umfasst mehr als eine Million Beispiele und soll die Entwicklung der biomedizinischen KI vorantreiben.
MPM zeigt Potenzial zur medizinischen Generalisierung
Das Forschungsteam hat die Fähigkeiten von Med-PaLM M bei der Diagnose von Röntgenbildern des menschlichen Brustkorbs ausführlich getestet. In rund 40 Prozent der Fälle gaben die Kliniker in einem Blindtest den von der KI erstellten Röntgenberichten den Vorzug.
Pro Bericht soll MPM 0,25 klinisch signifikante Fehler machen, was auf dem Niveau menschlicher Expert:innen liegen und damit einen klinischen Einsatz zulassen soll.
Das Forschungsteam hebt auch die Zero-Shot-Fähigkeit von MPM hervor, also die Fähigkeit, ohne explizite Beispiele allein durch natürlichsprachliche Anweisungen auf neue Aufgaben zu verallgemeinern.
So kann Med-PaLM M neue medizinische Konzepte wie Tuberkulose auf Röntgenbildern des Brustkorbs präzise erkennen und beschreiben, obwohl es nie mit entsprechenden Beispielen trainiert wurde. MPM könnte daher auch in Fällen nützlich sein, in denen es nur wenige medizinische Beispieldaten gibt.
Weitere Entwicklung und "rigorose Validierung" seien nötig, schreibt das Team, aber MPM sei ein "wichtiger Schritt" in Richtung einer allgemeinen biomedizinischen KI. Weitere Herausforderungen seien zum Beispiel die für die Skalierung benötigten hochwertigen und teilweise seltenen Daten, zudem müsse das Benchmarking deutlich ausgebaut werden. Der vorgestellte MultiMedBench sei in Umfang und Vielfalt der möglichen Aufgaben noch begrenzt.