Weniger ist mehr: RAG-Systeme arbeiten besser mit reduzierter Dokumentenzahl

Forschende der Hebrew University of Jerusalem haben herausgefunden, dass die Anzahl der verarbeiteten Dokumente bei RAG (Retrieval Augmented Generation) die Leistung von KI-Sprachmodellen beeinträchtigt, auch wenn die Gesamtlänge des Textes gleich bleibt.

Die Forscher verwendeten dafür den Validierungsdatensatz von MuSiQue, einem Multi-Hop Question Answering Datensatz mit 2.417 beantwortbaren Fragen. Jede Frage ist mit 20 Absätzen aus einzelnen Wikipedia-Dokumenten verknüpft, von denen zwei bis vier die relevanten Informationen zur Beantwortung enthalten, während die übrigen als realistische Distraktoren dienen.

Diagramm mit vier Gruppen von Dokumenten in Pink und Blau, Anzahl pinker Dokumente konstant, Anzahl blauer Dokumente abnehmend nach rechts. — Jede Sammlung enthält eine Frage mit mehreren Zwischenschritten, die unterstützenden Dokumente (pink) zur Beantwortung und eine variierende Anzahl ablenkender Dokumente (blau). Bei weniger Dokumenten werden die verbliebenen verlängert, um die Gesamtlänge konstant zu halten. | Bild: Levy et al.

Basierend auf der Struktur von MuSiQue erstellten die Forscher mehrere Datenpartitionen, um den Einfluss der Anzahl der abgerufenen Dokumente kontrolliert zu untersuchen. Sie reduzierten die Anzahl der Dokumente schrittweise von 20 auf 15, 10, acht und schließlich auf die zwei bis vier Dokumente mit den relevanten Informationen.

Dabei behielten sie immer die Dokumente, die die Antwort stützen, und wählten die restlichen zufällig aus der nicht unterstützenden Menge aus. Um die ursprüngliche Token-Anzahl beizubehalten und sicherzustellen, dass die relevanten Informationen in allen Datensätzen an ähnlichen Positionen erscheinen, erweiterten sie die ausgewählten Dokumente mit Text aus den ursprünglichen Wikipedia-Artikeln.

Höhere RAG-Leistung mit weniger Dokumenten

Die Auswertung mehrerer Open-Source-Modelle wie Llama-3.1, Qwen2 und Gemma 2 ergab, dass in den meisten Fällen eine Reduzierung der Dokumentenanzahl die Leistung um bis zu 10 Prozent verbesserte.

Eine Ausnahme bildete Qwen2, das möglicherweise besser mit Sammlungen mehrerer Dokumente zurechtkommt. Die getesteten Modelle sind zwar erst wenige Monate alt, wurden jedoch bereits durch aktuellere Versionen wie Llama-3.3, Qwen2.5 und Gemma 3 abgelöst.

Balkendiagramm: F1-Score verschiedener Großer Sprachmodelle bei unterschiedlicher Anzahl abgerufener Dokumente für Retrieval-Aufgaben. — Während Qwen2 unbeeinträchtigt bleibt, verschlechtert sich bei Llama-3.1 und Gemma-2 die Leistung bei zu vielen Dokumenten um bis zu 10 Prozent. | Bild: Levy et al.

Die Leistung der Sprachmodelle war deutlich höher, wenn sie nur die unterstützenden Dokumente erhielten, was einen viel kürzeren Kontext und die Eliminierung ablenkender Inhalte bedeutete. Die Ergebnisse zeigten auch, dass ähnliche, aber nicht verwandte Dokumente, die oft in RAG abgerufen werden, das Modell verwirren und die Leistung verringern können.

Balkendiagramm mit F1-Scores für Qwen-2 72B, Qwen-2 7B, Llama-3.1 72B, Llama-3.1 8B, Gamma-2 27B und Gamma-2 9B auf verschiedenen Datensätzen. — Die Forschenden entdeckten, dass das Einfügen gänzlich zufälliger und irrelevanter Dokumente die Leistung der Modelle steigerte. Möglicherweise, weil die Modelle die offensichtliche Irrelevanz dieser Dokumente schneller erkennen und den Fokus dadurch leichter auf die tatsächlich relevanten Inhalte richten können | Bild: Levy et al.

Die Studie zeigt, dass die Eingabe mehrerer Dokumente die Aufgabe in einer Retrieval-Umgebung erschwert und hebt die Notwendigkeit hervor, dass Retrieval-Systeme Relevanz und Vielfalt ausbalancieren müssen, um Konflikte zu minimieren. Zukünftige Modelle könnten von Mechanismen profitieren, die widersprüchliche Informationen erkennen und verwerfen und gleichzeitig die Dokumentenvielfalt nutzen.

Die Forscher:innen weisen auch auf einige Einschränkungen der Studie hin, wie fehlende Untersuchungen zu Promptvariationen oder Auswirkungen der Datenreihenfolge. Die Datensätze der Studie sind öffentlich zugänglich, um weitere Forschungen zur Verarbeitung mehrerer Dokumente zu erleichtern.

Empfehlung

KI-Forschung

Studie deckt gravierende Logik-Schwächen bei kleinen KI-Sprachmodellen auf

RAG vs. große Kontextfenster

Ob RAG-Systeme angesichts immer weiter wachsender Kontextfenster überhaupt noch notwendig sind, ist eine anhaltende Diskussion in der KI-Entwicklung. Obwohl Sprachmodelle zwar immer besser darin werden, große Mengen von Text auf einmal zu verarbeiten, zeigt sich gerade beim Einsatz von eher kleineren Open-Source-Modellen der Vorteil von RAG-Architekturen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Weniger ist mehr: RAG-Systeme arbeiten besser mit reduzierter Dokumentenzahl

Höhere RAG-Leistung mit weniger Dokumenten

Studie deckt gravierende Logik-Schwächen bei kleinen KI-Sprachmodellen auf

RAG vs. große Kontextfenster

Anthropic verbessert KI-Antworten mit erweitertem Kontext-Retrieval

KI-Skalierung könnte bis 2030 um Faktor 10.000 zunehmen

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Weniger ist mehr: RAG-Systeme arbeiten besser mit reduzierter Dokumentenzahl

Höhere RAG-Leistung mit weniger Dokumenten

Studie deckt gravierende Logik-Schwächen bei kleinen KI-Sprachmodellen auf

RAG vs. große Kontextfenster

Anthropic verbessert KI-Antworten mit erweitertem Kontext-Retrieval

KI-Skalierung könnte bis 2030 um Faktor 10.000 zunehmen