Das KI-Unternehmen Anthropic stellt eine Methode vor, um die Genauigkeit von Wissensdatenbank-Abfragen deutlich zu verbessern. Der Ansatz nutzt zusätzlichen Kontext, um präzisere Antworten zu generieren.
Contextual Retrieval soll ein grundlegendes Problem bisheriger Retrieval-Augmented Generation (RAG) Systeme lösen: Beim Aufteilen von Dokumenten in kleinere Einheiten, sogenannte Chunks, geht oft wichtiger Kontext verloren.
Anthropic fügt nun jedem Chunk eine kurze Zusammenfassung des Gesamtdokuments hinzu, bevor er in der Datenbank indexiert wird. Die Kontextinformation ist in der Regel bis zu 100 Wörter lang.
Ein Beispiel verdeutlicht den Ansatz:
Ursprünglicher Chunk: "Der Umsatz des Unternehmens stieg im Vergleich zum Vorquartal um 3 Prozent."
Erweiterter Chunk: "Dieser Abschnitt stammt aus einem SEC-Bericht über die Leistung von ACME Corp im zweiten Quartal 2023. Der Umsatz im Vorquartal betrug 314 Millionen Dollar. Der Umsatz des Unternehmens stieg im Vergleich zum Vorquartal um 3 Prozent."
Laut Anthropic kann die neue Methode die Fehlerrate bei der Informationssuche um bis zu 49 Prozent reduzieren. In Kombination mit einer zusätzlichen Neusortierung der Ergebnisse sei sogar eine Verbesserung um 67 Prozent möglich.
Anthropic betont, dass Contextual Retrieval mit relativ geringem Aufwand in bestehende RAG-Systeme integriert werden kann und sich jeder Entwickler, der an einer RAG-Leistungssteigerung interessiert ist, damit beschäftigen sollte. Das Unternehmen stellt eine detaillierte Anleitung mit Code-Beispielen bei Github zur Verfügung.
Forscher bestätigen Vorteile der Kontext-Methode
Die Wirksamkeit des Kontextansatzes wird auch durch aktuelle Forschungsergebnisse der Cornell University untermauert. In einem Paper untersuchten Wissenschaftler eine ähnliche Methode namens "Contextual Document Embeddings" (CDE). Sie entwickelten zwei sich ergänzende Techniken:
1. Kontextuelles Training: Hierbei werden die Trainingsdaten so umgeordnet, dass jeder Batch aus ähnlichen, aber schwer zu unterscheidenden Dokumenten besteht. Dies zwingt das Modell dazu, feinere Unterschiede zwischen Dokumenten zu lernen.
2. Kontextuelle Architektur: Ein zweistufiger Encoder-Prozess integriert Informationen aus benachbarten Dokumenten direkt in die Dokumenten-Embeddings. Dies ermöglicht es dem Modell, relative Termhäufigkeiten und andere kontextabhängige Informationen zu berücksichtigen.
Die Forscher betonen, dass beide Methoden unabhängig voneinander zu Verbesserungen führen, die besten Ergebnisse jedoch durch ihre Kombination erzielt werden. Sie stellen ihr CDE-Modell zusammen mit einer Anleitung auf Hugging Face zur Verfügung.
In Experimenten auf dem MTEB-Benchmark (Massive Text Embedding Benchmark) erzielte das CDE-Modell Bestwerte in seiner Größenklasse. In Experimenten zeigte sich, dass CDE besonders bei kleineren Datensätzen aus spezifischen Bereichen wie Finanzen oder Medizin Vorteile bietet. Verbesserungen wurden auch bei Aufgaben wie Klassifikation, Clustering und semantischer Ähnlichkeit festgestellt.
Die Wissenschaftler weisen jedoch darauf hin, dass bisher nicht geklärt ist, wie sich CDE auf riesige Wissensdatenbanken mit Milliarden von Dokumenten auswirkt. Auch die optimale Größe und Auswahl der Kontextdokumente müsse noch genauer untersucht werden.