Inhalt
summary Zusammenfassung

Das KI-Unternehmen Anthropic stellt eine Methode vor, um die Genauigkeit von Wissensdatenbank-Abfragen deutlich zu verbessern. Der Ansatz nutzt zusätzlichen Kontext, um präzisere Antworten zu generieren.

Anzeige

Contextual Retrieval soll ein grundlegendes Problem bisheriger Retrieval-Augmented Generation (RAG) Systeme lösen: Beim Aufteilen von Dokumenten in kleinere Einheiten, sogenannte Chunks, geht oft wichtiger Kontext verloren.

Anthropic fügt nun jedem Chunk eine kurze Zusammenfassung des Gesamtdokuments hinzu, bevor er in der Datenbank indexiert wird. Die Kontextinformation ist in der Regel bis zu 100 Wörter lang.

Ein Beispiel verdeutlicht den Ansatz:

Anzeige
Anzeige

Ursprünglicher Chunk: "Der Umsatz des Unternehmens stieg im Vergleich zum Vorquartal um 3 Prozent."

Erweiterter Chunk: "Dieser Abschnitt stammt aus einem SEC-Bericht über die Leistung von ACME Corp im zweiten Quartal 2023. Der Umsatz im Vorquartal betrug 314 Millionen Dollar. Der Umsatz des Unternehmens stieg im Vergleich zum Vorquartal um 3 Prozent."

Laut Anthropic kann die neue Methode die Fehlerrate bei der Informationssuche um bis zu 49 Prozent reduzieren. In Kombination mit einer zusätzlichen Neusortierung der Ergebnisse sei sogar eine Verbesserung um 67 Prozent möglich.

Anthropic betont, dass Contextual Retrieval mit relativ geringem Aufwand in bestehende RAG-Systeme integriert werden kann und sich jeder Entwickler, der an einer RAG-Leistungssteigerung interessiert ist, damit beschäftigen sollte. Das Unternehmen stellt eine detaillierte Anleitung mit Code-Beispielen bei Github zur Verfügung.

Forscher bestätigen Vorteile der Kontext-Methode

Die Wirksamkeit des Kontextansatzes wird auch durch aktuelle Forschungsergebnisse der Cornell University untermauert. In einem Paper untersuchten Wissenschaftler eine ähnliche Methode namens "Contextual Document Embeddings" (CDE). Sie entwickelten zwei sich ergänzende Techniken:

1. Kontextuelles Training: Hierbei werden die Trainingsdaten so umgeordnet, dass jeder Batch aus ähnlichen, aber schwer zu unterscheidenden Dokumenten besteht. Dies zwingt das Modell dazu, feinere Unterschiede zwischen Dokumenten zu lernen.

2. Kontextuelle Architektur: Ein zweistufiger Encoder-Prozess integriert Informationen aus benachbarten Dokumenten direkt in die Dokumenten-Embeddings. Dies ermöglicht es dem Modell, relative Termhäufigkeiten und andere kontextabhängige Informationen zu berücksichtigen.

Empfehlung

Die Forscher betonen, dass beide Methoden unabhängig voneinander zu Verbesserungen führen, die besten Ergebnisse jedoch durch ihre Kombination erzielt werden. Sie stellen ihr CDE-Modell zusammen mit einer Anleitung auf Hugging Face zur Verfügung.

In Experimenten auf dem MTEB-Benchmark (Massive Text Embedding Benchmark) erzielte das CDE-Modell Bestwerte in seiner Größenklasse. In Experimenten zeigte sich, dass CDE besonders bei kleineren Datensätzen aus spezifischen Bereichen wie Finanzen oder Medizin Vorteile bietet. Verbesserungen wurden auch bei Aufgaben wie Klassifikation, Clustering und semantischer Ähnlichkeit festgestellt.

Die Wissenschaftler weisen jedoch darauf hin, dass bisher nicht geklärt ist, wie sich CDE auf riesige Wissensdatenbanken mit Milliarden von Dokumenten auswirkt. Auch die optimale Größe und Auswahl der Kontextdokumente müsse noch genauer untersucht werden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Anthropic hat eine Technik namens "Contextual Retrieval" entwickelt, die die Fehlerquote von KI-Systemen bei der Informationssuche in Wissensdatenbanken um bis zu 49 % senken soll, indem jedem Textabschnitt eine Zusammenfassung des gesamten Dokuments hinzugefügt wird.
  • Forscher der Cornell University haben eine ähnliche Methode namens "Contextual Document Embeddings" (CDE) vorgestellt, die neben RAG in verschiedenen Bereichen wie Retrieval, Klassifikation und Clustering bessere Ergebnisse erzielt.
  • Beide Ansätze weisen darauf hin, dass die Integration von Kontextinformationen in Wissensdatenbanken das Potenzial hat, die Genauigkeit und Zuverlässigkeit von KI-gestützten Informationssystemen zu verbessern.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!