Eine Vergleichsstudie der Leistung von OpenAI ChatGPT (GPT-3.5), Google Bard und Microsoft Bing (Präzisionsmodus) bei der Beantwortung von 77 physiologischen Fallvignetten zeigte, dass ChatGPT die anderen signifikant übertraf (ChatGPT 3.19±0.3, Bard 2.91±0.5, Bing Chat 2.15±0.6 auf einer Skala von 0 bis 4). Zwei Physiologen bewerteten unabhängig voneinander die Genauigkeit der Antworten der LLMs.
Während die Ergebnisse das Potenzial für die Integration von KI-Systemen in die medizinische Ausbildung aufzeigen, weist die Studie auch auf die Notwendigkeit weiterer Forschung hin, um die Effektivität dieser Modelle in verschiedenen medizinischen Bereichen zu untersuchen. Es ist auch möglich, dass spezielle KI-Modelle, die auf medizinische Aufgaben zugeschnitten sind, das Rennen machen werden, wie das kürzlich von Google vorgestellte Med-PaLM M, das auch maschinelles Sehen einbezieht.