Med-PaLM 2: Google rollt medizinisches Sprachmodell für erste Tests aus

Update vom 17. Mai 2023:

Google hat das wissenschaftliche Paper zu Med-PaLM 2 veröffentlicht.

Update vom 14. April 2023:

Google Cloud kündigt an, dass Med-PaLM 2 in den kommenden Wochen an ausgewählte Google Cloud Kunden für einen "begrenzten Test" ausgerollt wird. Ziel sei es, sichere, verantwortungsvolle und sinnvolle Anwendungsszenarien zu untersuchen.

Das medizinische Sprachmodell könne "reichhaltige und informative Diskussionen erleichtern, komplexe medizinische Fragen beantworten und Erkenntnisse in komplizierten und unstrukturierten medizinischen Texten finden".

Darüber hinaus könne es kurze und lange Antworten auf medizinische Fragen generieren und Zusammenfassungen aus internen Dokumentationen und Datensätzen sowie aus wissenschaftlichen Quellen erstellen.

Laut Google ist Med-PaLM 2 das erste Sprachmodell, das bei Fragen im Stil der US Medical Licensing Examination (USMLE) mit einer Genauigkeit von mehr als 85 Prozent eine Leistung auf Expertenniveau erreicht hat. Im MedMCQA-Datensatz, der indische AIIMS- und NEET-Fragen für medizinische Prüfungen enthält, erreichte es ein "ausreichendes Ergebnis" von 72,3 Prozent.

Ursprünglicher Artikel vom 18. März 2023:

Med-PaLM 2: Googles Medizin-Sprachmodell soll Prüfungsfragen bestehen

Mit Med-PaLM entwickelt Google eine für medizinische Fragen optimierte Variante des PaLM-Sprachmodells. Die neueste Version soll bei medizinischen Prüfungsfragen verlässlich auf Experten-Niveau antworten.

Empfehlung

KI-Forschung

KI-Agenten übertreffen menschliche Hackerteams in Cybersecurity-Wettbewerben

Im Dezember letzten Jahres stellte Google Med-PaLM vor, eine für die Beantwortung medizinischer Fragen optimierte Version von Googles riesigem Sprachmodell PaLM (Pathways Language Model). Für die Entwicklung von Med-PaLM wurde eine spezielle Prompting-Methode in Kombination mit von Kliniker:innen geschriebenen Antworten auf medizinische Prompts verwendet.

In den anschließend getesteten Benchmarks erzielte Med-PaLM bei den meisten Aufgaben Ergebnisse auf dem Niveau von medizinischem Fachpersonal. Potenziell schädlich seien die generierten Antworten in 5,9 Prozent der Fälle gewesen, im Vergleich zu 5,7 Prozent bei menschlichen Expert:innen, so das Forschungsteam.

Med-PaLM sei zudem das erste KI-Modell, das medizinische Zulassungsfragen in den USA bestanden habe (67,2 Prozent korrekte Antworten), Multiple Choice und offene Fragen korrekt beantworten und seine Antworten begründen könne.

Med-PaLM 2 ist noch akkurater - aber hat noch Lücken

Im Rahmen der Google-Health-Veranstaltung "The Check Up" hat Google die Weiterentwicklung von Med-PaLM angekündigt: Die aktuelle Version, Med-PaLM 2, soll medizinische Prüfungsfragen auf Facharztniveau beantworten können und 85 Prozent der medizinische Zulassungsfragen richtig beantworten.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Eine Grafik zeigt die Leistung von Med-PaLM 2 bei medizinischen Zulassungsfragen im Vergleich zu anderen Sprachmodellen. Med-PaLM 2 erreicht über 85 % richtige Antworten, alle anderen Sprachmodelle bleiben unter der kritischen 60 %-Marke. — Die Leistung von Med-PaLM 2 bei medizinischen Zulassungsfragen im Vergleich zu anderen Sprachmodellen. Med-PaLM 2 erreicht über 85 Prozent richtige Antworten, alle anderen Sprachmodelle bleiben unter der kritischen 60-Prozent-Marke. | Bild: Google AI

Damit erreicht Med-PaLM 2 eine Leistungssteigerung von 18 Prozent gegenüber dem Vorgängermodell und liegt weit über dem Niveau vergleichbarer Sprachmodelle bei medizinischen Aufgaben. Dennoch sieht das Team erheblichen Verbesserungsbedarf, damit Med-PaLM 2 den eigenen Ansprüchen an die Produktqualität gerecht wird. Über die technischen Veränderungen gegenüber Med-PaLM 1 schweigt sich das Team noch aus.

Getestet wurden Med-PaLM 2 nach 14 Kriterien, darunter wissenschaftliche Faktizität, Genauigkeit, medizinischer Konsens, Argumentation, Voreingenommenheit und Schaden, bewertet von Klinikerinnen und Nichtklinikern mit unterschiedlichem Hintergrund und aus verschiedenen Ländern. Dabei stellte das Team "erhebliche Lücken bei der Beantwortung medizinischer Fragen" fest, ohne die Defizite näher zu beschreiben.

In Zusammenarbeit mit Forschungsteams will Google Med-PaLM weiterentwickeln, um diese Lücken zu schließen und zu verstehen, wie das Sprachmodell die Gesundheitsversorgung verbessern kann. Das folgende Video zeigt die Ankündigung von Med-PaLM 2 ab circa Minute 16:30.

Med-PaLM 2: Google rollt medizinisches Sprachmodell für erste Tests aus

Med-PaLM 2: Googles Medizin-Sprachmodell soll Prüfungsfragen bestehen

KI-Agenten übertreffen menschliche Hackerteams in Cybersecurity-Wettbewerben

Med-PaLM 2 ist noch akkurater - aber hat noch Lücken

Googles AMIE ist ein medizinischer Chatbot für Differentialdiagnosen auf Expertenniveau

Google veröffentlicht MedLM-Modelle für KI-Anwendungen im Gesundheitswesen

KI in der Medizin: Google testet generatives Sprachmodell im klinischen Alltag

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Med-PaLM 2: Google rollt medizinisches Sprachmodell für erste Tests aus

Med-PaLM 2: Googles Medizin-Sprachmodell soll Prüfungsfragen bestehen

Med-PaLM 2 ist noch akkurater - aber hat noch Lücken

Artikel teilen

Bankverbindung