Künstliche-Intelligenz-Systeme von Alibaba und Microsoft stellen nacheinander Bestmarken bei einem etablierten Leseverständnis-Test der Stanford Universität auf. Sie schneiden erstmals besser ab als Menschen.
Mit dem Stanford-Test können maschinelle Lernverfahren auf ihre Fähigkeit überprüft werden, aus großen Datenmengen auf Anfrage gezielt einzelne Fakten herauszugreifen. Der Datensatz für den Leseverständnis-Test enthält rund 100.000 Fragen und Antworten in natürlicher Sprache, die aus circa 500 Wikipedia-Artikeln extrahiert wurden.
Das KI-System muss einen Wikipedia-Artikel lesen und daraus die notwendigen Informationen ziehen, um eine Frage richtig beantworten zu können. Wenn sie zum Beispiel den Text zur TV-Serie "Akte X" liest, muss sie anschließend beantworten können, welchen Beruf Fox Mulder ausübt.
Gemessen mit dem Bewertungsschema der Wissenschaftler, die den Lesetest entwickelten, erzielte Alibabas Lernverfahren eine Exakte-Antwort-Quote von 82,44 Prozent und platzierte sich so knapp vor menschlichen Probanden mit 82,304 Prozent. Ein Programm von Microsoft antwortete kurz darauf mit 82,650 Prozent exakten Rückmeldungen noch präziser.
Alexa und Co. könnten besser antworten
Luo Si, leitender KI-Forscher bei Alibaba, geht davon aus, dass Fragen wie "Was verursacht Regen" zukünftig mit hoher Genauigkeit von Maschinen beantwortet werden können. Als mögliche Anwendungsszenarien für die neue Software nennt er die Kundenbetreuung, Führungen in Museen oder im medizinischen Kontext Online-Antworten auf Patientenfragen. Das KI-System reduziere den Aufwand menschlicher Eingabe auf eine "noch nie dagewesene Art".
Dennoch ist das KI-Ergebnis nicht unmittelbar mit dem des menschlichen Textverständnisses zu vergleichen, auch wenn auf derselben Skala gemessen wird. Während der Mensch potenziell ein grundlegendes Verständnis für die Inhalte eines Textes in einem größeren Zusammenhang und damit eine höhere Flexibilität bei der Beantwortung der Fragen hat, ist das KI-System eher ein mächtiges Rechercheinstrument, das passende Sätze aneinanderreiht - aus einer Frage wird eine Aussage formuliert und um die angeforderten Fakten ergänzt. Umso mehrdeutiger und komplexer die Fragen werden und je weniger eindeutig die Antwort ist, desto eher kommt das KI-System ins Straucheln.