Mit OLMoTrace will das Allen Institute for AI die Blackbox großer Sprachmodelle öffnen. Das Tool zeigt, ob ein Textabschnitt auf gelernten Mustern oder reiner Wiederholung beruht.
Das Allen Institute for AI (Ai2) hat mit OLMoTrace eine neue Funktion vorgestellt, die es ermöglicht, Textausgaben großer Sprachmodelle auf ihre Trainingsdaten zurückzuführen. Das Tool ist Teil des Ai2 Playgrounds und derzeit mit einigen OLMo-Modellen kompatibel.
Ziel von OLMoTrace ist es, mehr Transparenz über die Funktionsweise großer Sprachmodelle zu schaffen. Nutzerinnen und Nutzer können nachvollziehen, ob eine Modellantwort auf auswendig gelerntem Wissen, kreativer Kombination oder reiner Halluzination basiert. Laut Ai2 soll dies nicht nur die Forschung unterstützen, sondern auch das öffentliche Vertrauen in generative KI stärken. Grundlage dafür sind die vollständig offene Modelle, Datensätze und Quellcodes des Teams.
OLMoTrace durchsucht Milliarden Trainingsdaten in Echtzeit
Das Tool analysiert die Modellantwort auf lange, einzigartige Wortspannen, die wörtlich in den Trainingsdaten vorkommen. Diese Abschnitte werden farblich hervorgehoben und mit entsprechenden Dokumentausschnitten im Seitenpanel verknüpft. Ein Klick auf eine Textpassage oder ein Dokument schränkt die Ansicht gezielt ein. Farbunterschiede geben Auskunft über die Relevanz der Fundstellen.
Die Auswahl der hervorgehobenen Abschnitte erfolgt nach einem mehrstufigen Verfahren. Zunächst werden nur solche Wortspannen berücksichtigt, die vollständig in den Trainingsdaten vorkommen und keine Satz- oder Zeilenumbrüche enthalten. Anschließend bewertet OLMoTrace die Seltenheit der enthaltenen Tokens, um besonders spezifische Passagen hervorzuheben. Zu jeder Wortspanne werden bis zu zehn Dokumente angezeigt. Überlappende Wortspannen werden zusammengeführt, um die Darstellung übersichtlich zu halten.
Einsatzbeispiele des Teams zeigen, wie OLMoTrace genutzt werden kann: So ließ sich etwa eine falsche Angabe zum Wissens-Cutoff eines Modells auf Beispiele in den Nachtrainingsdaten zurückführen. Auch die mathematische Lösung einer Kombinatorik-Aufgabe konnte als auswendig gelernt identifiziert werden. In anderen Fällen können Nutzer prüfen, ob eine Modellantwort durch kreative Kombination oder generisches Wissen entstanden ist. Die Trainingsdaten umfassen insgesamt rund 4,6 Billionen Tokens aus fünf Datensätzen.
Das Tool kann auf dem Ai2-Playground ausprobiert werden.