Metas neuestes KI-Modell soll automatisch zeitgleich hunderttausende Wikipedia-Quellen prüfen und gegebenenfalls bessere Vorschläge machen können.
Um rund 17.000 Artikel wächst die Wikipedia pro Monat. Darunter sind lange und kurze Texte, aber gemein haben sie eines: Jede Behauptung im Text soll durch eine doppelt geprüfte Quelle verifiziert werden.
Umso größer die Wikipedia wird, desto anspruchsvoller wird es für die Community, dieses Qualitätsversprechen zu erfüllen und Quellen aktuell zu halten. Metas neuestes KI-Modell "Side" könnte zukünftig dabei unterstützen.
Wissensquellen aus dem WWW
Das Open Source KI-Modell Side kann laut Meta hunderttausende Quellenangaben automatisch prüfen und bewerten, ob und wie gut die in der Quelle vorhandenen Informationen die Behauptung im Wikipedia-Artikel verifizieren.
Das System soll die Quellen automatisch im Hintergrund prüfen und Wikipedia-Editor:innen auf möglicherweise falsche oder nicht relevante Quellen hinweisen. Das soll den Editor:innen den Aufwand ersparen, alle Quellen manuell durchzusehen. Side kann zudem bei fehlenden oder veralteten Zitationen Vorschläge für (bessere) Quellen machen.
Side zieht sein Wissen aus einem Text-Datensatz mit Informationen von 134 Millionen öffentlich verfügbaren Webseiten. Die für das Sphere-Projekt entwickelten Indizes enthalten laut Meta 40 Mal mehr Inhalte als andere Wikipedia-Indizes.
Meta brachte der KI beim Training bei, für vier Millionen Wikipedia-Aussagen jeweils eine einzelne Quelle aus dem riesigen Pool von Webseiten herauszufinden. Bei der Quellensuche vergleicht das Modell laut Meta "mathematische Darstellungen der Bedeutung ganzer Aussagen" statt nur einzelner Wörter. Bei langen Texten soll das Modell so in der Lage sein, nur die für die Wikipedia-Stelle relevantesten Passagen herauszufinden, bevor es eine Quell-URL empfiehlt.
Meta will langfristig auch Fakten checken und die Quellqualität bewerten
Im nächsten Schritt will Meta das Verifizierungsprinzip erweitern. Entsprechende Modelle sollen lernen, die Qualität von abgerufenen Dokumente zu bewerten, sie sollen mögliche Widersprüche in Aussagen erkennen und vertrauenswürdige Quellen priorisieren und transparent angeben, wenn es keine überzeugenden Beweise für eine Aussage gibt.
"In der realen Welt könnten diese Modelle schädlichen Inhalten einen Riegel vorschieben und in Kombination mit einer gut gestalteten Benutzeroberfläche die digitale Kompetenz und das kritische Denken der Menschen fördern", schreibt Meta.
Das System könne etwa in zukünftige Editoren integriert werden, Fakten checken, Fehler korrigieren und Texte ergänzen. Im Optimalfall greife es dabei auf Informationen aus allen Medienformaten in vielen unterschiedlichen Sprachen zu.
Open-Source-Experiment als Baustein für die KI-Zukunft
Metas Forschungsteam gibt zudem einen Ausblick, wie das Side-Projekt zum KI-Fortschritt insgesamt beitragen könnte: Über das umfassende Training mit komplexen, komplizierten Inhalten könne KI ein besseres Verständnis für die Welt entwickeln. Das Ergebnis seien intelligentere und flexiblere Algorithmen.
Das Faktenüberprüfungssystem könne etwa als vortrainiertes Grundmodell Fortschritte bei der Sprachverarbeitung bringen, für die Informationssuche bei Frage-Antwort-Systemen und beim Few-Shot-Learning, also der Feinjustierung eines großen KI-Modells auf spezifische Anwendungen mit wenigen Daten.
Meta macht Side als Open Source frei verfügbar. Eine Wikipedia-Demo ist hier online. Meta hat für das Side-Projekt nicht mit dem Wikipedia-Betreiber Wikimedia kooperiert. Ob und wie das System für die Wikipedia genutzt wird, ist nicht bekannt.