Inhalt
summary Zusammenfassung

Microsoft Research hat mit KBLaM eine neue Methode entwickelt, die es ermöglicht, externe Wissensdatenbanken effizienter in Sprachmodelle zu integrieren. Der Ansatz skaliert linear statt quadratisch und kommt ohne separate Retrieval-Module aus.

Anzeige

Die Methode mit dem unhandlichen Namen Knowledge Base-Augmented Language Models (KBLaM) könnte tatsächlich einen Durchbruch beim Einbinden von externem Wissen in Sprachmodelle darstellen. Laut den Forschenden integriert KBLaM strukturierte Wissensdatenbanken nach dem "Plug-and-Play"-Prinzip in vortrainierte Sprachmodelle, ohne dass diese modifiziert werden müssen.

Weniger Speicherbedarf für große Wissensbasen

Der neue Ansatz unterscheidet sich fundamental von bisherigen Methoden wie Retrieval-Augmented Generation (RAG) oder In-Context Learning. Statt separate Retrieval-Module zu verwenden oder das gesamte Modell neu zu trainieren, wandelt KBLaM Wissen in Vektorpaare um und bettet diese mittels einer speziellen rechteckigen Attention-Struktur in die Modellarchitektur ein. Im letzten Schritt erfolgt das dynamische Abrufen relevanter Wissenselemente während der Inferenz.

Diagramm zur Architektur von KBLaM: Tokenisierung von Frage und Wissensbasis, Rectangulare Attention, Sprachmodell zur Antwortgenerierung.
Im Gegensatz zu Systemen mit externer Retriever-Komponente ermöglicht KBLaM eine eingebettete Verarbeitung der Wissensinhalte für schnellere und effizientere Antwortgenerierung. | Bild: Microsoft Research

Die quadratische Skalierung bei RAG entsteht laut Microsoft Research durch den Self-Attention-Mechanismus: Jeder Token muss mit jedem anderen Token interagieren. Wenn also beispielsweise 1.000 Tokens aus der Wissensbasis in den Kontext eingefügt werden, muss das Modell – in der Theorie – eine Million (1.000 x 1.000) Token-Paare verarbeiten. Bei 10.000 Tokens steigt diese Zahl bereits auf 100 Millionen Interaktionen.

Anzeige
Anzeige
Liniendiagramm zu Leistungsvergleich: Zeit bis erstes Token und Speichernutzung für KBLaM vs. RAG bei steigender Tripelanzahl in Wissensbasis
Die Zeit zum ersten Token bei 4.096 Tripeln im Kontext mit KBLaM ist geringer als bei 5 Tripeln im Kontext von RAG, so Microsoft. | Bild: Microsoft Research

KBLaM umgeht dieses Problem durch seine rechteckige Attention-Struktur: Die Tokens der Nutzereingabe können zwar auf alle Wissens-Tokens zugreifen, die Wissens-Tokens selbst interagieren aber weder untereinander noch mit der Nutzereingabe. Dadurch wächst der Rechenaufwand nur linear mit der Größe der Wissensbasis.

Damit wächst auch KBLaMs Speicherbedarf nur linear mit der Größe der Wissensbasis. Nach Angaben der Forschenden können so über 10.000 Wissens-Tripel (etwa 200.000 Tokens) auf einer einzelnen GPU verarbeitet werden.

Open Source und breite Modellunterstützung

Microsoft hat den Code und die Datensätze von KBLaM als Open Source auf GitHub veröffentlicht. Das System unterstützt derzeit verschiedene Modelle wie Metas Llama 3 und Microsofts Phi-3. Eine Integration in die Hugging Face Transformers Bibliothek ist laut den Forschenden für die Zukunft geplant.

Die Methode zeigt sich Microsofts Untersuchungen zufolge besonders effektiv bei der Vermeidung von Halluzinationen: Ab einer Wissensbasis von etwa 200 Einträgen verweigert das System präziser als herkömmliche Modelle Antworten auf Fragen, zu denen es keine Informationen hat. Außerdem sei es transparenter als In-Context Learning, da Wissen genau mit bestimmten Tokens verknüpft werden könne.

Noch nicht serienreif

Die Entwickler:innen betonen jedoch, dass noch weitere Forschung nötig ist, bevor KBLaM im großen Maßstab eingesetzt werden kann. Bisher wurde das System hauptsächlich mit faktischen Frage-Antwort-Paaren trainiert. Die Erweiterung auf komplexere Reasoning-Aufgaben steht noch aus.

Empfehlung

Unabhängig von der sich nur langsam verbessernden Leistung vortrainierter Modelle bleibt eine der größten Herausforderungen für möglichst halluzinationsfreie Antworten die effiziente Versorgung der Sprachmodelle mit aktueller und spezifischer Information.

Zwar wird das Kontextfenster der Sprachmodelle immer größer, so dass immer mehr Daten auf einmal in das KI-System eingespeist werden können. Die Verarbeitung dieser großen Datenmengen im Kontextfenster ist jedoch nicht zuverlässig.

Deswegen hat sich die RAG-Architektur als effiziente Möglichkeit etabliert, dem Modell mehr und spezifischere Informationen je nach Anfrage zur Verfügung zu stellen und gleichzeitig die Zuverlässigkeit zu erhöhen.  Auch Microsoft hatte in der Vergangenheit hierzu geforscht.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft Research hat eine neue Methode namens KBLaM entwickelt, die strukturierte Wissensdatenbanken direkt in Sprachmodelle integriert, ohne separate Retrieval-Module zu benötigen oder das Modell neu zu trainieren.
  • Im Gegensatz zu herkömmlichen Methoden wie RAG, die quadratisch mit der Datenmenge skalieren, wächst der Rechenaufwand bei KBLaM nur linear. Das System soll besonders effektiv Halluzinationen vermeiden.
  • Der Code und die Datensätze wurden als Open Source veröffentlicht und unterstützen verschiedene Modelle wie Llama-3 und Phi-3. Laut Microsoft muss die Methode jedoch noch weiter erforscht werden, bevor sie in großem Maßstab eingesetzt werden kann.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!