"Dr. Google fragen" könnte in Zukunft viel verlässlicher sein

Forschende von Google und Deepmind experimentieren mit einem großen Sprachmodell für Antworten auf medizinische Fragen von Laien. Med-PaLM generiert wissenschaftlich fundierte Antworten auf dem Niveau menschlicher Expert:innen.

Das Forschungsteam setzt auf PaLM, Googles großes Sprachmodell mit 540 Milliarden Parametern, etwa dreimal so viele wie GPT-3. PaLM übertrifft laut Google GPT-3 bei anspruchsvollen Sprach- und Code-Aufgaben und bildet den Sprachteil der großen Pathways-Vision des Suchmaschinenkonzerns. PaLM steht für Pathways Language Model.

Mit Instruction Prompt Tuning zum medizinischen Sprachmodell

Für die medizinische Variante von PaLM entwickelte das Forschungsteam eine neue Prompt-Methode, um eine Flan-PaLM-Variante auf das medizinische Feld auszurichten. Flan-PaLM ist eine mit Instruktionen für Aufgaben (etwa Dialoge, FAQs, Begründungen) feingetunte Variante von PaLM, die Google Brain im Oktober vorstellte.

Anstelle eines technisch und organisatorisch aufwendigeren Nachtrainings von PaLM mit medizinischen Daten verwendete das Forschungsteam eine Kombination aus bei einem Prompt Tuning mit wenigen medizinischen Daten gelernten Soft Prompts mit von Menschen für spezifische medizinische Antworten geschriebenen Prompts. Für diese Fach-Prompts arbeitete das Forschungsteam mit vier Kliniker:innen aus den USA und UK zusammen.

Das Forschungsteam verwendete unter anderem Instruktionen und Beispiele von einem Gremium qualifizierter Kliniker:innen für die Abstimmung von Flan-PaLM auf den medizinischen Bereich. | Bild: Google

Diese Kombination aus gelernten und programmierten Prompts taufen die Forschenden "Instruction Prompt Tuning". Die neue Methode sei "Daten- und Parameter-effizient", schreibt das Team.

Unseres Wissens nach ist dies das erste veröffentlichte Beispiel für das Erlernen eines Soft Prompts, der einem vollständigen Hard Prompt vorangestellt ist, der eine Mischung aus Anweisungen und Few-Shot-Beispielen enthält.

Aus dem Paper

Das aus dem "Instruction Prompt Tuning" resultierende Modell Med-PaLM übertrifft die Leistung eines unangepassten Flan-PaLM-Modells bei medizinischen Antworten deutlich und erreicht laut des Forschungsteams "ermutigende Ergebnisse", bleibe jedoch hinter der Leistung von Mediziner:innen zurück.

Schaut man sich die Ergebnisse an, ist diese Feststellung zwar korrekt, wirkt aber wie eine Untertreibung: Med-PaLM agiert in allen Tests auf Augenhöhe mit Fachpersonal. Die Bewertung der Antwortqualität wurde ebenfalls von Fachpersonal vorgenommen.

Im Unterschied zu einem nicht mit medizinischen Daten optimierten Flan-PaLM erzielt Med-PaLM bei Antworten auf medizinische Fragen Ergebnisse auf Augenhöhe mit Fachpersonal. | Bild: Google

Med-PaLM soll zudem deutlich weniger potenziell schädliche Antworten geben. Bei Flan-PaLM hätten 29,7 Prozent der Antworten zu gesundheitlichen Schäden führen können. Bei Med-PaLM waren es nur noch 5,9 Prozent in Relation zu 5,7 Prozent bei menschlichen Expert:innen. Auch hier agiert das medizinische Sprachmodell auf Augenhöhe mit Menschen.

Von Med-PaLM generierte Beispiel-Antworten auf medizinische Fragen von Laien. | Bild: Google

Bei einer Beurteilung von Laien wurden die Antworten von menschlichen Expert:innen zwar als etwas hilfreicher bewertet, aber auch hier schnitt Med-PaLM deutlich besser ab als Flan-PaLM. Beide Sprachmodelle adressierten die Fragen.

Empfehlung

KI-Forschung

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

Das mit medizinischen Daten optimierte Med-PaLM gibt deutlich hilfreichere Antworten als das nicht mit Medizindaten optimierte Flan-PaLM, urteilen Laien. | Bild: Google

Sprachmodelle könnten medizinisches Fachpersonal unterstützen

Die starke Leistung von Med-PaLM bei medizinischen Fachfragen könne eine emergente Fähigkeit von Sprachmodellen sein, schreiben die Forschenden in ihrem Fazit. Denn die Leistung des Modells skalierte bei Tests mit der Anzahl der Parameter der verschiedenen PaLM-Modelle (acht bis 540 Milliarden).

Skalierung allein genüge jedoch nicht für eine hohe Verlässlichkeit der Antworten, wie die vergleichsweise schwache Leistung des Flan-PaLM-Modells zeige. Hier kommt das neu eingeführte Instruction Prompt Tuning ins Spiel.

Laut des Forschungsteams wurden 92,6 Prozent der Med-PaLM-Antworten als mit dem wissenschaftlichen Konsens übereinstimmend bewertet. Die Antworten medizinischer Expert:innen erzielten 92,9 Prozent, Flan-PaLM-Antworten nur 61,9 Prozent. Dies sei ein Zeichen, dass das "Instruction Prompt Tuning" als Abgleichtechnik zur Erzeugung wissenschaftlich fundierter Antworten geeignet sei.

Die Med-PaLM-Ergebnisse zeigen, dass wir mit Instruction Prompt Tuning eine daten- und parametereffiziente Abgleichtechnik haben, die zur Verbesserung von Faktoren im Zusammenhang mit Genauigkeit, Faktizität, Konsistenz, Sicherheit, Schaden und Verzerrung geeignet ist und dazu beiträgt, die Lücke mit klinischen Experten zu schließen und diese Modelle näher an reale klinische Anwendungen heranzuführen.

Aus dem Paper

Das Aufkommen grundlegender KI-Modelle sei eine "signifikante Chance", die Entwicklung medizinischer KI neu zu denken und sie "einfacher, sicherer und gerechter" zu machen, schreiben die Forschenden. Ihre Arbeit sehen sie als Anstoß für weiteren Austausch.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Ergänzend zu Med-PaLM stellt das Forschungsteam MutliMedQA vor, einen Benchmark, der sechs bestehende offene Datensätze zur Beantwortung von Fragen aus den Bereichen medizinische Fachuntersuchungen, Forschung und Verbraucheranfragen kombiniert, und HealthSearchQA, ein neuer Freitext-Datensatz von medizinischen Fragen, die online gesucht wurden.

"Dr. Google fragen" könnte in Zukunft viel verlässlicher sein

Mit Instruction Prompt Tuning zum medizinischen Sprachmodell

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

Sprachmodelle könnten medizinisches Fachpersonal unterstützen

OpenAI: KI ersetzt nicht Ärzte, sondern das Nicht-zum-Arzt-Gehen

Deepmind-Tochter bereitet erste klinische Tests mit KI-Medikamenten vor

ChatGPT löst medizinische Rätsel, an denen Ärzteteams jahrelang scheiterten

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Denkprotokolle zeigen: Grok sucht bei Streitfragen häufig gezielt nach Musks X-Posts

"Dr. Google fragen" könnte in Zukunft viel verlässlicher sein

Mit Instruction Prompt Tuning zum medizinischen Sprachmodell

Sprachmodelle könnten medizinisches Fachpersonal unterstützen

Artikel teilen

Bankverbindung