Große Sprachmodelle sollen Millionen Satzbausteine verarbeiten können. Doch je länger der Kontext, desto schlechter die Ergebnisse.
Das bestätigt jetzt erneut eine Studie von Chroma Research. Chroma, Anbieter einer Vektordatenbank für KI-Anwendungen, hat ein Interesse daran, dass Modelle nicht allein mit riesigen Kontextfenstern zuverlässig arbeiten, da ihr Geschäftsmodell auf externer Informationsabfrage basiert.
Umfang und Methodik machen die Studie dennoch relevant: Die Forscher testeten 18 aktuelle KI-Modelle, darunter GPT, Claude, Gemini und Qwen, mit vier systematischen Aufgaben – darunter semantische Suche, Wiederholungsaufgaben und Frage-Antwort-Tests in langen Dokumenten.
Vom Wortlaut zur Bedeutung
Grundlage der Untersuchung ist der weitverbreitete "Needle in a Haystack"-Benchmark (Nadel im Heuhaufen), bei dem ein Modell einen bestimmten Satz in einem langen, irrelevanten Text finden muss. Die Forscher kritisieren, dass dieser Test meist nur die wörtliche Wiedererkennung misst und erweiterten ihn daher um Aufgaben, die semantisches Verständnis erfordern.
Zur Messung der semantischen Ähnlichkeit zwischen Frage und Antwort nutzten sie den Mittelwert aus fünf Embedding-Modellen. Das Ergebnis: Die Modelle reagieren empfindlich auf semantische Zweideutigkeit, irrelevante Inhalte und logisch strukturierte Texte – vor allem bei wachsender Kontextlänge. Besonders bei semantisch formulierten Fragen ohne exakte Wortübereinstimmung brach die Leistung deutlich ein.
Auch sogenannte Distraktoren wurden untersucht – inhaltlich ähnliche, aber falsche Aussagen. Schon ein einziger Ablenker reduzierte die Erfolgsrate spürbar, vier verstärkten den Effekt. Dabei zeigte sich, dass nicht alle Ablenker gleich stark wirken: Je näher sie thematisch an der korrekten Antwort lagen, desto größer ihr negativer Einfluss. Claude-Modelle tendierten zur Antwortverweigerung, GPT-Modelle lieferten häufiger falsche, aber plausibel klingende Aussagen.
Chaos schlägt Logik
Überraschend war auch der Einfluss der Textstruktur: Modelle schnitten besser ab, wenn die Sätze zufällig durchmischt waren, als bei logisch aufgebauten Abschnitten. Woran das liegt, bleibt offen – die Studie zeigt jedoch, dass nicht nur der Inhalt, sondern auch die Struktur des Kontexts entscheidend für die Modellleistung ist.
Auch die Struktur des Kontexts spielte eine Rolle: Entgegen der Intuition schnitten Modelle besser ab, wenn der Text zufällig durcheinandergewürfelt war, als wenn er in einer logischen Argumentationskette organisiert war. Die Studie liefert keine Erklärung für dieses Phänomen, merkt aber an, dass auch die Struktur des Kontexts die Leistung stark beeinflusst.
In praxisnäheren Tests mit LongMemEval – einem Benchmark mit über 100.000 Tokens langen Chatverläufen – zeigte sich ein ähnliches Bild: Im Vergleich zu fokussierten Prompts mit nur den relevanten Abschnitten brach die Leistung bei voller Kontexthistorie deutlich ein.
Viele Modelle scheiterten daran, die relevanten Informationen korrekt zu extrahieren. Teilweise kam es zu kuriosen Fehlern, etwa Verweigerungen aus Urheberrechtsgründen oder halluzinierten Zufallstexten.
Die Studie empfiehlt daher gezieltes „Context Engineering“ – also die bewusste Auswahl und Anordnung relevanter Informationen im Prompt –, um die Leistung großer Sprachmodelle in realen Anwendungsszenarien zu stabilisieren. Die vollständigen Ergebnisse sind auf Chroma Research veröffentlicht.
Deepmind, LMU und Microsoft kommen zu ähnlichen Ergebnissen
Die Ergebnisse der Chroma-Studie decken sich mit mehreren früheren Aussagen und Untersuchungen. So erklärte Nikolay Savinov von Google Deepmind im Mai 2025, dass große Kontextfenster zwar theoretisch nützlich seien, in der Praxis aber zu Verteilungsproblemen führten: "Man sollte einfach keine irrelevanten Kontexte einfügen", sagte Savinov in einem Interview.
Eine Studie der LMU München und Adobe Research stützt diese Einschätzung: Im NOLIMA-Benchmark, der gezielt auf wörtliche Übereinstimmungen verzichtet, zeigten selbst spezialisierte Reasoning-Modelle bei längeren Kontexten massive Leistungseinbußen.
Auch eine Untersuchung von Microsoft und Salesforce zeigt, wie instabil Sprachmodelle in längeren Konversationen werden. In Mehrfachrunden-Gesprächen, bei denen Nutzer ihre Anforderungen schrittweise spezifizieren, sank die Erfolgsquote im Durchschnitt von 90 auf 51 Prozent.
Das Negativbeispiel ist derzeit Metas Llama-4-Maverick-Modell, das bis zu zehn Millionen Token zwar technisch aufnehmen, aber nicht sinnvoll verarbeiten kann. In realitätsnahen Tests erreichte "Maverick" bei 128.000 Tokens nur 28,1 Prozent Genauigkeit.