Inhalt
summary Zusammenfassung

Forschende der Hebrew University of Jerusalem haben herausgefunden, dass die Anzahl der verarbeiteten Dokumente bei RAG (Retrieval Augmented Generation) die Leistung von KI-Sprachmodellen beeinträchtigt, auch wenn die Gesamtlänge des Textes gleich bleibt.

Anzeige

Die Forscher verwendeten dafür den Validierungsdatensatz von MuSiQue, einem Multi-Hop Question Answering Datensatz mit 2.417 beantwortbaren Fragen. Jede Frage ist mit 20 Absätzen aus einzelnen Wikipedia-Dokumenten verknüpft, von denen zwei bis vier die relevanten Informationen zur Beantwortung enthalten, während die übrigen als realistische Distraktoren dienen.

Diagramm mit vier Gruppen von Dokumenten in Pink und Blau, Anzahl pinker Dokumente konstant, Anzahl blauer Dokumente abnehmend nach rechts.
Jede Sammlung enthält eine Frage mit mehreren Zwischenschritten, die unterstützenden Dokumente (pink) zur Beantwortung und eine variierende Anzahl ablenkender Dokumente (blau). Bei weniger Dokumenten werden die verbliebenen verlängert, um die Gesamtlänge konstant zu halten. | Bild: Levy et al.

Basierend auf der Struktur von MuSiQue erstellten die Forscher mehrere Datenpartitionen, um den Einfluss der Anzahl der abgerufenen Dokumente kontrolliert zu untersuchen. Sie reduzierten die Anzahl der Dokumente schrittweise von 20 auf 15, 10, acht und schließlich auf die zwei bis vier Dokumente mit den relevanten Informationen.

Dabei behielten sie immer die Dokumente, die die Antwort stützen, und wählten die restlichen zufällig aus der nicht unterstützenden Menge aus. Um die ursprüngliche Token-Anzahl beizubehalten und sicherzustellen, dass die relevanten Informationen in allen Datensätzen an ähnlichen Positionen erscheinen, erweiterten sie die ausgewählten Dokumente mit Text aus den ursprünglichen Wikipedia-Artikeln.

Anzeige
Anzeige

Höhere RAG-Leistung mit weniger Dokumenten

Die Auswertung mehrerer Open-Source-Modelle wie Llama-3.1, Qwen2 und Gemma 2 ergab, dass in den meisten Fällen eine Reduzierung der Dokumentenanzahl die Leistung um bis zu 10 Prozent verbesserte.

Eine Ausnahme bildete Qwen2, das möglicherweise besser mit Sammlungen mehrerer Dokumente zurechtkommt. Die getesteten Modelle sind zwar erst wenige Monate alt, wurden jedoch bereits durch aktuellere Versionen wie Llama-3.3, Qwen2.5 und Gemma 3 abgelöst.

Balkendiagramm: F1-Score verschiedener Großer Sprachmodelle bei unterschiedlicher Anzahl abgerufener Dokumente für Retrieval-Aufgaben.
Während Qwen2 unbeeinträchtigt bleibt, verschlechtert sich bei Llama-3.1 und Gemma-2 die Leistung bei zu vielen Dokumenten um bis zu 10 Prozent. | Bild: Levy et al.

Die Leistung der Sprachmodelle war deutlich höher, wenn sie nur die unterstützenden Dokumente erhielten, was einen viel kürzeren Kontext und die Eliminierung ablenkender Inhalte bedeutete. Die Ergebnisse zeigten auch, dass ähnliche, aber nicht verwandte Dokumente, die oft in RAG abgerufen werden, das Modell verwirren und die Leistung verringern können.

Balkendiagramm mit F1-Scores für Qwen-2 72B, Qwen-2 7B, Llama-3.1 72B, Llama-3.1 8B, Gamma-2 27B und Gamma-2 9B auf verschiedenen Datensätzen.
Die Forschenden entdeckten, dass das Einfügen gänzlich zufälliger und irrelevanter Dokumente die Leistung der Modelle steigerte. Möglicherweise, weil die Modelle die offensichtliche Irrelevanz dieser Dokumente schneller erkennen und den Fokus dadurch leichter auf die tatsächlich relevanten Inhalte richten können | Bild: Levy et al.

Die Studie zeigt, dass die Eingabe mehrerer Dokumente die Aufgabe in einer Retrieval-Umgebung erschwert und hebt die Notwendigkeit hervor, dass Retrieval-Systeme Relevanz und Vielfalt ausbalancieren müssen, um Konflikte zu minimieren. Zukünftige Modelle könnten von Mechanismen profitieren, die widersprüchliche Informationen erkennen und verwerfen und gleichzeitig die Dokumentenvielfalt nutzen.

Die Forscher:innen weisen auch auf einige Einschränkungen der Studie hin, wie fehlende Untersuchungen zu Promptvariationen oder Auswirkungen der Datenreihenfolge. Die Datensätze der Studie sind öffentlich zugänglich, um weitere Forschungen zur Verarbeitung mehrerer Dokumente zu erleichtern.

Empfehlung

RAG vs. große Kontextfenster

Ob RAG-Systeme angesichts immer weiter wachsender Kontextfenster überhaupt noch notwendig sind, ist eine anhaltende Diskussion in der KI-Entwicklung. Obwohl Sprachmodelle zwar immer besser darin werden, große Mengen von Text auf einmal zu verarbeiten, zeigt sich gerade beim Einsatz von eher kleineren Open-Source-Modellen der Vorteil von RAG-Architekturen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende der Hebrew University of Jerusalem haben herausgefunden, dass die Anzahl der verarbeiteten Dokumente die Leistung von KI-Sprachmodellen bei Retrieval Augmented Generation (RAG) beeinträchtigt, selbst wenn die Gesamtlänge des Textes gleich bleibt.
  • Die Forscher verwendeten einen Datensatz mit Fragen und Wikipedia-Absätzen, um kontrolliert zu untersuchen, wie sich eine Reduzierung der Dokumentenanzahl bei gleichbleibender Textlänge auswirkt. In den meisten Fällen verbesserte dies die Leistung der getesteten Modelle wie Llama-3.1 und Gemma 2 um bis zu 10 Prozent.
  • Die Studie zeigt, dass die Eingabe mehrerer Dokumente die Aufgabe in einer RAG-Umgebung erschwert. Retrieval-Systeme müssen Relevanz und Vielfalt ausbalancieren, um Konflikte zu minimieren.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!