Inhalt
summary Zusammenfassung

Eine grundlegende Entscheidung beim Einsatz großer Sprachmodelle: Speichert man eigene Informationen extern und ruft sie per RAG ab oder fügt man sie dank großer Kontextfenster direkt in den Prompt ein? Eine neue Studie weist in eine klare Richtung. 

Anzeige

Die Kontextfenster großer Sprachmodelle sind über die letzten Jahre rapide gewachsen. Während GPT-3 etwa noch nur rund 2.000 Token pro Prompt verarbeiten konnte, versteht das neuste OpenAI-Modell GPT-4o bis zu 128.000. Das Unternehmen Magic AI wirbt bei seinem kürzlich vorgestellten Modell sogar mit einem Kontextfenster von bis zu 100 Millionen Token.

Das lässt manche an der Notwendigkeit von Retrieval-Augmented Generation (RAG) zweifeln. Bei RAG werden Informationen üblicherweise zunächst in einer Vektordatenbank gespeichert und dynamisch bei jeder Anfrage abgerufen.

Eine neue Studie von Nvidia-Forschenden stellt diese Annahme, dass man RAG mit wachsenden Kontextfenstern nicht brauchen würde, in Frage. Sie zeigt, dass RAG in Kombination mit einem bestimmten Mechanismus LLMs mit großen Kontextfenstern übertreffen kann.

Anzeige
Anzeige

Das Paper "In Defense of RAG in the Era of Long-Context Language Models" schlägt konkret einen reihenfolgeerhaltenden RAG-Ansatz (OP-RAG, OP steht für order-preserving) vor, der die ursprüngliche Reihenfolge der abgerufenen Teile (Chunks) im LLM-Kontext beibehält. Dies steht im Gegensatz zu herkömmlichen RAG-Methoden, die die Chunks meist nach absteigender Relevanz anordnen.

RAG übertrifft langen Kontext deutlich

Die Forschenden bewerteten ihren OP-RAG-Ansatz anhand der En.QA- und En.MC-Datensätze des ∞Bench-Benchmarks. Dieser ist speziell für Frage-Antwort-Aufgaben mit langem Kontext konzipiert. Sie fanden heraus, dass OP-RAG mit dem LLaMA-3.1-70B-Modell einen F1-Score von 44,43 erreichte, während nur 16.000 abgerufene Token verwendet wurden.

Der F1-Score ist ein Maß im maschinellen Lernen, das Genauigkeit (Precision) und die Fähigkeit, bestimmte Informationen abzurufen (Recall), ausbalanciert. Im Vergleich dazu erzielte dasselbe Modell ohne RAG mit seinem vollen 128.000-Token-Kontextfenster nur einen Wert von 34,32. GPT-4o und Gemini-1.5-Pro erreichten ohne RAG F1-Scores von 32,36 bzw. 43,08.

Bild: Yu et al.

Die Studie untersuchte auch den Einfluss der Kontextlänge auf die Leistung von OP-RAG. Die Ergebnisse zeigten, dass die Antwortqualität mit zunehmender Kontextlänge zunächst verbessert, dann aber abnahm.

Bild: Yu et al.
Bild: Yu et al.

Die Forscher:innen führen dies auf den Kompromiss zwischen dem Abruf potenziell relevanter Informationen und der Einführung irrelevanter oder ablenkender Informationen zurück. Sie fanden heraus, dass die optimale Balance die Antwortqualität maximiert. Über diesen Punkt hinaus verschlechtert die Einbeziehung zu vieler irrelevanter Informationen die Leistung des Modells.

Empfehlung

Richtige Reihenfolge verbessert RAG-Abruf

Darüber hinaus verglichen die Forschenden OP-RAG mit herkömmlichem RAG. Sie stellten fest, dass OP-RAG bei einer großen Anzahl abgerufener Chunks deutlich besser abschnitt. Beim En.QA-Datensatz erreichte OP-RAG beispielsweise einen F1-Score von 44,43 beim Abruf von 128 Chunks, während herkömmliches RAG nur einen Score von 38,40 erzielte.

Bild: Yu et al.
Bild: Yu et al.

Die Ergebnisse weisen in die entgegengesetzte Richtung als vorherige Forschungen. Paper wie jenes von Li et al. aus dem Juli 2024 argumentierten, dass Long-Context-LLMs RAG-Ansätze in Bezug auf die Antwortqualität durchweg übertreffen würden.

Die Einführung von Sprachmodellen mit großen Kontextfenstern ging ohnehin immer mit Kritik einher. Auch wenn Modelle theoretisch hunderttausende Token als Prompt akzeptieren, gehen Informationen aus der Mitte häufig verloren: das sogenannte "Lost in the Middle"-Phänomen.

Trotz Fortschritten auf diesem Gebiet scheint das Problem noch nicht vollständig gelöst zu sein. Modelle mit kleineren Kontextfenstern punkten außerdem unter anderem mit geringerem Energieverbrauch.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Nvidia-Studie zeigt, dass ein reihenfolgeerhaltender RAG-Ansatz (OP-RAG) in Kombination mit großen Sprachmodellen wie LLaMA deutlich bessere Ergebnisse bei Frage-Antwort-Aufgaben erzielt als die Modelle allein mit ihren großen Kontextfenstern.
  • Die Forscher:innen fanden heraus, dass es eine optimale Balance zwischen dem Abruf potenziell relevanter Informationen und der Einführung irrelevanter oder ablenkender Informationen gibt. Zu viele irrelevante Informationen verschlechtern die Leistung des Modells.
  • OP-RAG schnitt beim Abruf einer großen Anzahl von Chunks auch deutlich besser ab als herkömmliches RAG. Die Ergebnisse widersprechen früheren Forschungen, die argumentierten, dass Long-Context-Sprachmodelle RAG-Ansätze durchweg übertreffen würden.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!