Googles Open-Source-Modell MedGemma analysiert Röntgenbilder und Hautfotos

Google Research und Deepmind haben mit MedGemma eine neue Kollektion medizinisch spezialisierter KI-Modelle veröffentlicht. Die Open-Source-Modelle sollen die Entwicklung von KI-Anwendungen im Gesundheitswesen beschleunigen.

Die auf Gemma 3 basierende MedGemma-Kollektion umfasst verschiedene Varianten: ein 4B-Modell, das Text, Bilder oder beides verarbeiten kann, sowie ein 27B-Modell in Text- und multimodaler Ausführung. Google hatte die Veröffentlichung auf der diesjährigen I/O angekündigt.

Die Modelle decken verschiedene medizinische Bereiche ab, darunter Radiologie, Dermatologie, Histopathologie (Gewebeuntersuchung) und Ophthalmologie (Augenheilkunde). Laut den Entwickler:innen sollen sie als Grundlage für die Entwicklung von KI-Anwendungen im Gesundheitswesen dienen und sowohl eigenständig als auch in agentischen Frameworks eingesetzt werden können.

Collage: Thoraxröntgen mit linksseitigem Pneumothorax m. Drainage und Konsolidation; perlmuttfarbene Papula; rote Papeln. — In diesen Beispielen stellt MedGemma anhand von Röntgenaufnahmen oder Hautfotos Diagnosen an. | Bild: Google

Erhebliche Leistungssteigerungen gegenüber Standardmodellen

Laut dem technischen Bericht übertreffen die medizinisch spezialisierten Modelle vergleichbar große Foundation-Modelle erheblich. Bei speziellen medizinischen Aufgaben erreichen sie Verbesserungen von 2,6 bis 10 Prozent bei multimodalen Frage-Antwort-Systemen, 15,5 bis 18,1 Prozent bei der Klassifikation von Röntgenbefunden und 10,8 Prozent bei komplexeren agentischen Evaluierungen.

In standardisierten Tests zeigt sich dieser Fortschritt konkret: Bei MedQA, einem Test mit medizinischen Prüfungsfragen, erreicht das 4B-Modell 64,4 Prozent Genauigkeit gegenüber 50,7 Prozent des Basismodells. Das größere 27B-Modell erreicht sogar 87,7 Prozent gegenüber 74,9 Prozent.

Genauigkeitswerte kleiner und großer LLMs auf textbasierten medizinischen Benchmarks (MedQA, MedMCQA, PubMedQA) und MMLU-Teilfächern. — MedGemma übertrifft sein Basismodell auf medizinischen Benchmarks deutlich. | Bild: Google

Bei der medizinischen Bildanalyse übertrifft MedGemma die Gemma 3-Baselines und zeigt auch überlegene Leistung im Vergleich zu deutlich größeren kommerziellen Modellen. Bei Tests mit dem MIMIC-CXR-Datensatz, einer Sammlung von Röntgenbildern mit zugehörigen Berichten, erreicht das Modell einen Makro-F1-Wert von 88,9 im Vergleich zu 81,2 beim 4B-Modell von Gemma 3. Der F1-Wert misst dabei die Genauigkeit bei der Erkennung verschiedener Krankheitsbilder.

MedSigLIP als spezialisierter Bildencoder

Für die Bildverarbeitung stellen die Forschenden zusätzlich MedSigLIP vor, einen medizinisch angepassten Bildencoder mit 400 Millionen Parametern. Dieser basiert auf SigLIP, einem von Google entwickelten System zur Verknüpfung von Bildern und Text. SigLIP steht für "Sigmoid Loss for Language Image Pre-training" und ist darauf spezialisiert, Bilder und deren Beschreibungen miteinander zu verknüpfen.

Schema: MedSigLIP kodiert medizinische Bilder für MedGemma 4B, während MedGemma 27B medizinischen Text verarbeitet. — MedSigLIP kodiert medizinische Bilddaten, MedGemma 27B verarbeitet klinische Texte. Gemeinsam bilden sie ein Multimodal-System für medizinische Anwendungen. | Bild: Google

MedSigLIP erweitert diese Grundfunktion um medizinische Fähigkeiten und ermöglicht MedGemma die Interpretation medizinischer Bilder. Als eigenständiger Encoder erreicht er nach Angaben der Entwickler eine Leistung, die mit spezialisierten medizinischen Bildencodern vergleichbar oder besser ist. Dabei arbeitet MedSigLIP mit einer Auflösung von 448 x 448 Pixeln, was effizienter ist als die 896 x 896 Pixel der in MedGemma integrierten Version.

Das Training erfolgte mit über 33 Millionen medizinischen Bild-Text-Paaren, darunter 635.000 Beispiele aus verschiedenen medizinischen Modalitäten und 32,6 Millionen Histopathologie-Patches. Um die bestehende Leistung von SigLIP zu erhalten, wurden die ursprünglichen Trainingsdaten beibehalten und medizinische Daten mit einem Gewicht von zwei Prozent hinzugefügt. Das ermöglicht es dem Encoder, sowohl allgemeine als auch medizinische Bildinhalte zu verstehen.

Empfehlung

KI-Forschung

Ex-OpenAI-Forscher erklärt das Rückwärtsrennen bei KI-Modellen

Fine-Tuning zeigt Potenzial für spezialisierte Anwendungen

Die Forschenden demonstrieren das Anpassungspotenzial von MedGemma durch Fine-Tuning-Experimente für spezifische Aufgaben. Bei der automatischen Generierung von Röntgenberichten verbessert sich der RadGraph F1-Score von 29,5 auf 30,3. RadGraph ist eine Metrik, die misst, wie gut ein KI-generierter Bericht die medizinisch relevanten Informationen aus dem ursprünglichen Arztbericht erfasst.

Video: Google

Bei der Erkennung von Pneumothorax, einem Kollaps der Lunge, steigt die Erkennungsgenauigkeit (F1-Score) von 59,7 auf 71,5. Bei der Klassifikation von Gewebeproben in der Histopathologie verbessert sich die gewichtete F1-Bewertung drastisch von 32,8 auf 94,5.

Bemerkenswert ist die Verbesserung bei der Analyse elektronischer Patient:innenakten. Nach der Anpassung mit Reinforcement Learning reduziert sich die Fehlerrate bei der Informationsabfrage um 50 Prozent. Dies könnte die Effizienz bei der Auswertung von Patient:innendaten erheblich steigern.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Die MedGemma-Kollektion ist über Hugging Face verfügbar. Das Modell darf laut Lizenz zu Forschungs-, Entwicklungs- und allgemeinen KI-Zwecken genutzt werden – jedoch nicht direkt für medizinische Diagnostik oder Behandlung ohne regulatorische Freigabe. Kommerzielle Nutzung ist grundsätzlich möglich, sofern sie nicht gegen die Nutzungsbeschränkungen verstößt.

Benchmark-Ergebnisse können nicht 1:1 in die Praxis übertragen werden

Google hatte bereits im letzten Jahr ein spezielles Medizinmodell vorgestellt, das jedoch auf der geschlossenen Gemini-Familie basierte. Die Open-Source-Grundlage von MedGemma mit seiner Möglichkeit zur Spezialisierung könnte eine weitere Verbreitung begünstigen.

Auch wenn ein Modell wie MedGemma in Benchmarks überzeugen kann, heißt das nicht, dass sich diese Fähigkeiten eins zu eins in die Praxis übertragen lassen. Eine Studie zeigte etwa, dass die Wirksamkeit im realen Einsatz möglicherweise durch Missverständnisse oder fehlerhafte Interaktionen mit Nutzer:innen eingeschränkt werden könnte.

Googles Open-Source-Modell MedGemma analysiert Röntgenbilder und Hautfotos

Erhebliche Leistungssteigerungen gegenüber Standardmodellen

MedSigLIP als spezialisierter Bildencoder

Ex-OpenAI-Forscher erklärt das Rückwärtsrennen bei KI-Modellen

Fine-Tuning zeigt Potenzial für spezialisierte Anwendungen

Benchmark-Ergebnisse können nicht 1:1 in die Praxis übertragen werden

Anthropic-Studie deckt strategisches Verhalten von KI zum Schutz eigener Ziele auf

Studie enthüllt "strategische Fingerabdrücke" von KI-Modellen im Spieltheorie-Klassiker

Sakana AI kombiniert mehrere KI-Modelle zur besseren Problemlösung

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Googles Open-Source-Modell MedGemma analysiert Röntgenbilder und Hautfotos

Erhebliche Leistungssteigerungen gegenüber Standardmodellen

MedSigLIP als spezialisierter Bildencoder

Fine-Tuning zeigt Potenzial für spezialisierte Anwendungen

Benchmark-Ergebnisse können nicht 1:1 in die Praxis übertragen werden

Artikel teilen

Bankverbindung