Künstliche Intelligenz ist ein boomendes Forschungsfeld, jährlich erscheinen tausende wissenschaftliche Veröffentlichungen. Forscher haben einige der Arbeiten untersucht – ihre Ergebnisse werfen Fragen auf.
Eine der ersten kommerziellen Anwendungen für Künstliche Intelligenz waren Empfehlungsalgorithmen, wie sie etwa Amazon, Google oder Netflix einsetzen. Fortschritte versprechen noch kundenspezifischere Empfehlungen für mehr Umsatz.
Forscher haben jetzt 18 Veröffentlichungen, die solche Verbesserungen versprechen, untersucht. Das Ergebnis: Elf der Verbesserungen sind nicht reproduzierbar.
Nicht nachvollziehbare Ergebnisse und fragwürdige Fortschritte
Alle 18 untersuchten Veröffentlichungen wurden in jüngster Zeit auf renommierten KI-Konferenzen vorgestellt. In einem ersten Schritt versuchten die Forscher, die dort vorgestellten Ergebnisse zu reproduzieren. Anders als in anderen Wissenschaften sollte das in der KI-Forschung leichtfallen, indem man den entwickelten Algorithmus am selben Datensatz testet.
Das gelang jedoch nur bei sieben der Veröffentlichungen. Elf Ergebnisse ließen sich nicht reproduzieren.
In einem zweiten Schritt untersuchten die Forscher die Leistung der sieben nachvollziehbaren KIs genauer. Welche führt im Vergleich zu Vorgängeralgorithmen wirklich zu besseren Leistungen?
Die Antwort: Nur eine. Sechs von sieben KIs schnitten schlechter ab als gut abgestimmte, altbekannte Methoden. So konnten die Forscher meist ein einschichtiges neuronales Netz für eine Nächste-Nachbarn-Klassifikation trainieren – eine Methode, die zu den Grundlagen des Data-Mining gehört und besser funktionierte als die Deep-Learning-Varianten.
Wissenschaftskrise oder Schlamperei?
Die Arbeit der Forscher zeigt, dass es – zumindest bei den Empfehlungsalgorithmen – wenige reproduzierbare Ergebnisse gibt. Ursachen vermuten die Forscher bei unterschlagenen Arbeitsschritten, wie der Feinoptimierung des Algorithmus oder der Vorverarbeitung von Daten.
Doch selbst wenn sich die Ergebnisse reproduzieren ließen, seien sie "besorgniserregend", da sie ältere Methoden nicht überträfen. Die Forscher sprechen in diesem Kontext von einem "Phantom-Fortschritt": Die in den Veröffentlichungen beschriebenen KIs würden mit anderen aktuellen KI-Methoden verglichen, die jedoch selbst nicht unbedingt zu den Besten gehörten.
So entstehe der Eindruck eines Fortschritts, der keiner ist: Im direkten Vergleich mit altbekannten und einfacherern Algorithmen fielen sechs von sieben getesteten KIs durch. Der Grad des Fortschritts sei daher im besten Fall unklar – zumindest in den untersuchten Beiträgen.
Die Forscher wollen ihre Analyse in Zukunft ausweiten und weitere Veröffentlichungen untersuchen. Ob andere Felder der KI-Forschung von solchen Problemen betroffen sind, ist bisher unklar. Die Forscher verweisen jedoch auf einige Untersuchungen, die ähnliche Ergebnisse erzielten.
Quelle: Arxiv