Inhalt
summary Zusammenfassung

Das "Speculative RAG" Framework kombiniert zwei Sprachmodelle, um Retrieval Augmented Generation (RAG) Systeme effizienter und akkurater zu machen.

Anzeige

Standard-RAG-Systeme ergänzen Large Language Models (LLMs) mit externen Wissensdatenbanken. Das kann faktische Fehler und "Halluzinationen" der Modelle reduzieren.

RAGs sind jedoch kein Allheilmittel, da auch sie fehleranfällig sein können, insbesondere bei großen Datenmengen und komplexen Zusammenhängen. Es gibt daher verschiedene Ansätze, RAG-Systeme zu erweitern, etwa durch eine kontextbasierte Suche mit Ranking (Knowledge Graph), die Ergebnisse aus der Datenbank für das LLM vorfiltert.

Ein neuer Ansatz ist Speculative RAG, der darauf abzielt, RAG-Systeme zu verbessern, indem die Stärken eines kleineren spezialisierten Sprachmodells und eines größeren allgemeinen Sprachmodells kombiniert werden.

Anzeige
Anzeige
Bild: Wang et al.

Das Speculative RAG Framework teilt die Aufgabe in zwei Schritte auf: Zuerst generiert ein kleineres, spezialisiertes "RAG Drafter"-Modell mehrere Antwortvorschläge parallel, basierend auf verschiedenen Teilmengen der abgerufenen Dokumente. Das Drafter-Modell wird durch Instruction Tuning auf Tripeln aus (Frage, Antwort, Dokument) trainiert. Dabei wird auch eine Begründung für die Antwort generiert.

Anschließend überprüft ein größeres allgemeines "RAG Verifier"-Modell die Vorschläge und wählt die beste Antwort aus.

Durch die parallele Generierung aus verschiedenen Untermengen von Dokumenten erzeugt das spezialisierte Modell laut der Forscher qualitativ hochwertige Antwortmöglichkeiten mit einer reduzierten Anzahl von Input-Tokens. Das generische Modell kann dann die Vorschläge effizient verifizieren, ohne lange Kontexte verarbeiten zu müssen.

Das Speculative RAG Framework erreichte in Tests mit mehreren Referenzdatensätzen eine um bis zu 12,97 Prozent höhere Genauigkeit bei 51 Prozent geringerer Latenz im Vergleich zu herkömmlichen RAG-Systemen.

Die Forscherinnen und Forscher der Universität California und von Google sehen in der Aufteilung in spezialisierte und allgemeine Modelle einen vielversprechenden Ansatz, um RAG-Systeme leistungsfähiger zu machen. Das Speculative RAG Framework zeige das Potenzial kollaborativer Architekturen für wissensintensive KI-Aufgaben.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der University of California und Google stellen das "Speculative RAG" Framework vor, das zwei spezialisierte Sprachmodelle kombiniert, um Retrieval Augmented Generation (RAG) Systeme effizienter und akkurater zu machen als herkömmliche RAG-Ansätze.
  • Im ersten Schritt generiert ein kleineres "RAG Drafter"-Modell parallel mehrere qualitativ hochwertige Antwortvorschläge aus Teilmengen abgerufener Dokumente. Anschließend verifiziert ein größeres generisches "RAG Verifier"-Modell die Vorschläge effizient und wählt die beste Antwort aus.
  • In Tests erreichte das Speculative RAG Framework eine um bis zu 12,97 Prozent höhere Genauigkeit bei 51 Prozent geringerer Latenz als Standard-RAG-Systeme.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!