Microsoft zeigt multimodalen KI-Assistent für die Biomedizin

Midjourney prompted by THE DECODER

Forschende von Microsoft zeigen mit LLaVA-Med einen multimodalen KI-Assistenten für die Biomedizin, der neben Text auch Bilder verarbeiten kann.

Für das Training des multimodalen KI-Modells wurde ein umfangreicher Datensatz biomedizinischer Bild- und Textpaare verwendet. Der Datensatz umfasst unter anderem Thorax-Röntgenbilder, MRT, Histologie, Pathologie und CT-Bilder. Zunächst lernt das Modell, den Inhalt solcher Bilder und damit wichtige biomedizinische Konzepte zu beschreiben. Anschließend wurde LLaVA-Med (Large Language and Vision Assistant for BioMedicine) mit einem von GPT-4 generierten Instruktionsdatensatz verfeinert.

Dieser Datensatz wird von GPT-4 auf der Basis von biomedizinischen Texten erstellt, die alle Informationen zu den jeweiligen Bildern enthalten und somit zur Generierung von Frage-Antwort-Paaren zu den Bildern verwendet werden können. In der Feinabstimmung wird LLaVA-Med dann mit den Bildern und den entsprechenden GPT-4 Beispielen trainiert.

GPT-4 generiert einen Instruktionsdatensatz aus den Bildbeschreibungen. | Bild: Microsoft

Das Ergebnis ist ein Assistent, der Fragen zu einem biomedizinischen Bild in natürlicher Sprache beantworten kann.

LLaVA-Med im Vergleich mit LLaVA. Beide sind multimodal, doch das erste Modell ist auf die Biomedizin spezialisiert und gibt so bessere Antworten. | Bild: Microsoft

LLaVA-Med wurde in 15 Stunden trainiert

Das verwendete Trainingsverfahren ermöglichte es, LLaVA-Med in weniger als 15 Stunden auf acht Nvidia A100-Grafikprozessoren zu trainieren. Als Basis dienen ein Vision Transformer und das Sprachmodell Vicuna, das wiederum auf Metas LLaMA aufbaut. Dem Team zufolge verfügt das Modell über "ausgezeichnete multimodale Gesprächsfähigkeiten". In drei biomedizinischen Standarddatensätzen zur Beantwortung visueller Fragen übertrifft LLaVA-Med frühere State-of-the-Art-Modelle in einigen Metriken.

Multimodale Assistenten wie LLaVA-Med könnten eines Tages in verschiedenen biomedizinischen Anwendungen eingesetzt werden, etwa in der medizinischen Forschung, bei der Interpretation komplexer biomedizinischer Bilder und als Gesprächsunterstützung im Gesundheitswesen.

Aber die Qualität ist noch nicht gut genug: "Obwohl wir glauben, dass LLaVA-Med ein wichtiger Schritt auf dem Weg zu einem nützlichen biomedizinischen visuellen Assistenten ist, stellen wir fest, dass LLaVA-Med durch Halluzinationen und schwache logische Fähigkeiten, die vielen großen Sprachmodellen eigen sind, eingeschränkt ist", so das Team. Zukünftige Arbeiten werden sich auf die Verbesserung der Qualität und Zuverlässigkeit konzentrieren.

Mehr Informationen gibt es auf GitHub.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Microsoft zeigt multimodalen KI-Assistent für die Biomedizin

LLaVA-Med wurde in 15 Stunden trainiert

Microsoft Build 2025: Alle wichtigen Ankündigungen auf einen Blick

Microsoft kappt Rechenzentrum-Pläne deutlicher als bislang bekannt

BitNet: Microsoft zeigt, wie man KI-Modelle auf Diät setzt

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Microsoft zeigt multimodalen KI-Assistent für die Biomedizin

LLaVA-Med wurde in 15 Stunden trainiert

Microsoft Build 2025: Alle wichtigen Ankündigungen auf einen Blick

Microsoft kappt Rechenzentrum-Pläne deutlicher als bislang bekannt

BitNet: Microsoft zeigt, wie man KI-Modelle auf Diät setzt