Inhalt
summary Zusammenfassung

Große Sprachmodelle sollen Millionen Satzbausteine verarbeiten können. Doch je länger der Kontext, desto schlechter die Ergebnisse.

Anzeige

Das bestätigt jetzt erneut eine Studie von Chroma Research. Chroma, Anbieter einer Vektordatenbank für KI-Anwendungen, hat ein Interesse daran, dass Modelle nicht allein mit riesigen Kontextfenstern zuverlässig arbeiten, da ihr Geschäftsmodell auf externer Informationsabfrage basiert.

Umfang und Methodik machen die Studie dennoch relevant: Die Forscher testeten 18 aktuelle KI-Modelle, darunter GPT, Claude, Gemini und Qwen, mit vier systematischen Aufgaben – darunter semantische Suche, Wiederholungsaufgaben und Frage-Antwort-Tests in langen Dokumenten.

Vom Wortlaut zur Bedeutung

Grundlage der Untersuchung ist der weitverbreitete "Needle in a Haystack"-Benchmark (Nadel im Heuhaufen), bei dem ein Modell einen bestimmten Satz in einem langen, irrelevanten Text finden muss. Die Forscher kritisieren, dass dieser Test meist nur die wörtliche Wiedererkennung misst und erweiterten ihn daher um Aufgaben, die semantisches Verständnis erfordern.

Anzeige
Anzeige

Zur Messung der semantischen Ähnlichkeit zwischen Frage und Antwort nutzten sie den Mittelwert aus fünf Embedding-Modellen. Das Ergebnis: Die Modelle reagieren empfindlich auf semantische Zweideutigkeit, irrelevante Inhalte und logisch strukturierte Texte – vor allem bei wachsender Kontextlänge. Besonders bei semantisch formulierten Fragen ohne exakte Wortübereinstimmung brach die Leistung deutlich ein.

Auch sogenannte Distraktoren wurden untersucht – inhaltlich ähnliche, aber falsche Aussagen. Schon ein einziger Ablenker reduzierte die Erfolgsrate spürbar, vier verstärkten den Effekt. Dabei zeigte sich, dass nicht alle Ablenker gleich stark wirken: Je näher sie thematisch an der korrekten Antwort lagen, desto größer ihr negativer Einfluss. Claude-Modelle tendierten zur Antwortverweigerung, GPT-Modelle lieferten häufiger falsche, aber plausibel klingende Aussagen.

Chaos schlägt Logik

Überraschend war auch der Einfluss der Textstruktur: Modelle schnitten besser ab, wenn die Sätze zufällig durchmischt waren, als bei logisch aufgebauten Abschnitten. Woran das liegt, bleibt offen – die Studie zeigt jedoch, dass nicht nur der Inhalt, sondern auch die Struktur des Kontexts entscheidend für die Modellleistung ist.

Auch die Struktur des Kontexts spielte eine Rolle: Entgegen der Intuition schnitten Modelle besser ab, wenn der Text zufällig durcheinandergewürfelt war, als wenn er in einer logischen Argumentationskette organisiert war. Die Studie liefert keine Erklärung für dieses Phänomen, merkt aber an, dass auch die Struktur des Kontexts die Leistung stark beeinflusst.

In praxisnäheren Tests mit LongMemEval – einem Benchmark mit über 100.000 Tokens langen Chatverläufen – zeigte sich ein ähnliches Bild: Im Vergleich zu fokussierten Prompts mit nur den relevanten Abschnitten brach die Leistung bei voller Kontexthistorie deutlich ein.

Empfehlung

Viele Modelle scheiterten daran, die relevanten Informationen korrekt zu extrahieren. Teilweise kam es zu kuriosen Fehlern, etwa Verweigerungen aus Urheberrechtsgründen oder halluzinierten Zufallstexten.

Die Studie empfiehlt daher gezieltes „Context Engineering“ – also die bewusste Auswahl und Anordnung relevanter Informationen im Prompt –, um die Leistung großer Sprachmodelle in realen Anwendungsszenarien zu stabilisieren. Die vollständigen Ergebnisse sind auf Chroma Research veröffentlicht.

Deepmind, LMU und Microsoft kommen zu ähnlichen Ergebnissen

Die Ergebnisse der Chroma-Studie decken sich mit mehreren früheren Aussagen und Untersuchungen. So erklärte Nikolay Savinov von Google Deepmind im Mai 2025, dass große Kontextfenster zwar theoretisch nützlich seien, in der Praxis aber zu Verteilungsproblemen führten: "Man sollte einfach keine irrelevanten Kontexte einfügen", sagte Savinov in einem Interview.

Eine Studie der LMU München und Adobe Research stützt diese Einschätzung: Im NOLIMA-Benchmark, der gezielt auf wörtliche Übereinstimmungen verzichtet, zeigten selbst spezialisierte Reasoning-Modelle bei längeren Kontexten massive Leistungseinbußen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Auch eine Untersuchung von Microsoft und Salesforce zeigt, wie instabil Sprachmodelle in längeren Konversationen werden. In Mehrfachrunden-Gesprächen, bei denen Nutzer ihre Anforderungen schrittweise spezifizieren, sank die Erfolgsquote im Durchschnitt von 90 auf 51 Prozent.

Das Negativbeispiel ist derzeit Metas Llama-4-Maverick-Modell, das bis zu zehn Millionen Token zwar technisch aufnehmen, aber nicht sinnvoll verarbeiten kann. In realitätsnahen Tests erreichte "Maverick" bei 128.000 Tokens nur 28,1 Prozent Genauigkeit.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie von Chroma Research hat 18 aktuelle KI-Modelle, darunter GPT, Claude und Gemini, daraufhin getestet, wie sie mit langen Texten umgehen. Mit wachsendem Kontext verschlechtert sich die Leistung aller Modelle deutlich, insbesondere bei Aufgaben, die ein tiefes Textverständnis erfordern.
  • Die Modelle reagieren empfindlich auf irrelevante Inhalte und sogenannte Ablenker: Schon ein einziger thematisch ähnlicher Ablenker kann die Erfolgsrate erheblich senken, mehrere verstärken diesen Effekt. Während Claude-Modelle eher zur Antwortverweigerung neigen, liefern GPT-Modelle häufiger falsche, aber plausibel wirkende Antworten.
  • Die Forscher beobachteten, dass KI-Modelle bei zufällig angeordneten Texten oft bessere Ergebnisse erzielen als bei logisch aufgebauten Argumentationsketten. Sie empfehlen deshalb gezieltes "Context Engineering", also die bewusste Auswahl und Platzierung relevanter Informationen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!