Forschende der Stanford University haben mit STORM ein KI-System entwickelt, das die Vorbereitungsphase beim Schreiben von Wikipedia-Artikeln automatisiert. Es recherchiert selbstständig zu einem Thema, sammelt Quellen und erstellt eine detaillierte Gliederung.
Warum nicht KI-Systeme in der Vorbereitungsphase und Recherche von neuen Themen einbinden? Forschende der Stanford University haben nun mit STORM ein KI-System entwickelt, das diese Vorbereitungsphase automatisiert.
STORM steht für "Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking". Es zerlegt die Aufgabe in zwei Schritte: Zuerst recherchiert es zu einem Thema, sammelt Referenzen und erstellt eine Gliederung. Dann nutzt es die Gliederung und Referenzen, um den vollständigen Artikel zu schreiben.
Der Kern von STORM ist ein Mechanismus, der das KI-Sprachmodell dazu bringt, effektive Fragen zu stellen, um ein Thema zu recherchieren. Dazu verwendet STORM zwei Strategien:
- Perspektivengesteuertes Fragen: STORM entdeckt verschiedene Perspektiven, indem es Wikipedia-Artikel zu ähnlichen Themen analysiert. Diese Perspektiven dienen dann als Vorwissen, um gezieltere Fragen zu generieren.
- Simulierte Konversation: STORM simuliert einen Dialog zwischen einem Wikipedia-Autor und einem Experten für das Thema. Die Antworten des Experten basieren auf "vertrauenswürdigen Internetquellen", bereitgestellt von der KI-Suchmaschine you.com. So kann das Sprachmodell sein Verständnis des Themas iterativ aktualisieren und Folgefragen stellen.
Basierend auf dem gesammelten Wissen und dem internen Wissen des Sprachmodells erstellt STORM dann eine detaillierte Gliederung. Diese wird abschnittsweise zu einem vollständigen Artikel ausformuliert. Das System erinnert an Perplexity Pages.
Begrenzte Aktualität aber gute Übersicht
Zur Evaluation haben die Forschenden den FreshWiki-Datensatz erstellt, der aktuelle, hochwertige Wikipedia-Artikel enthält. Sie definierten Metriken, um die Qualität der generierten Gliederungen und Artikel im Vergleich zu von Menschen geschriebenen Artikeln zu bewerten.
In einer Expertenevaluation mit erfahrenen Wikipedia-Autoren schnitt STORM besser ab als ein Vergleichssystem, das Artikel basierend auf Suchergebnissen generiert. Die von STORM erzeugten Artikel wurden als besser strukturiert (25% absoluter Anstieg) und mit breiterer Abdeckung (10% Anstieg) bewertet.
Die Expertenbefragung deckte aber auch neue Herausforderungen auf: So überträgt sich teilweise die Voreingenommenheit der Internetquellen auf die generierten Artikel. Zudem stellt das Sprachmodell manchmal Zusammenhänge zwischen eigentlich unabhängigen Fakten her. Nach meinen ersten Tests erstellte STORM eine gute Übersicht zum Thema "Was sind die aktuellen politischen Entwicklungen in Ostddeutschland?", vergaß aber die aktuellen Wahlergebnisse der Landtagswahlen in Brandenburg, Thüringen und Sachsen zu inkludieren.
Insgesamt waren sich die befragten Wikipedia-Autoren aber einig, dass ihnen STORM in der Vorbereitungsphase beim Schreiben neuer Artikel helfen kann. Die Qualität der maschinell erzeugten Texte erreicht zwar noch nicht das Niveau sorgfältig von Menschen überarbeiteter Artikel. Dennoch sehen die Forschenden ihr System als vielversprechenden Ansatz, um die Erstellung fundierter Artikel zu erleichtern und zu beschleunigen.
Es kann sicherlich hilfreich sein, in der Vorbereitung von Rechercheprojekten KI-Unterstützung zu haben. Allerdings sind etwa 30 % der befragten Wikipedia-Editoren der Meinung, dass STORM zukünftig kein nützliches Werkzeug für die Wikipedia Community sein könnte.