Googles Gemini 2.5 Pro schlägt OpenAI o3 beim Verständnis langer Texte

GPT-4 prompted by THE DECODER

Googles Gemini 2.5 erzielt Bestwerte beim Fiction.Live-Benchmark für lange Textverarbeitung. Dennoch sind große Kontextfenster kein Selbstzweck.

Googles Gemini 2.5 Pro erzielt im Fiction.Live-Benchmark derzeit die besten Ergebnisse unter den getesteten KI-Modellen. Der Test prüft die Fähigkeit von Sprachmodellen, komplexe Geschichten und Zusammenhänge in langen Texten zu verstehen und korrekt wiederzugeben – eine realitätsnahe Anwendung, die über reine Suchfunktionen wie im häufig zitierten "Needle in the Haystack"-Test hinausgeht.

Laut dem Bericht erreicht OpenAIs aktuelles Modell o3 bis zu einem Kontextfenster von 128.000 Tokens (etwa 96.000 Wörter) vergleichbare Leistungen. Bei 192.000 Tokens fällt die Leistung jedoch deutlich ab. Das neue Gemini 2.5 Pro aus dem Juni (preview-06-05) bleibt hingegen stabil.

Tabelle mit Genauigkeitswerten von O3 und Gemini 2.5 Pro (Juni) über Kontextlängen von 0 bis 192 K Tokens. — o3 liefert perfekte Genauigkeit bis 8 K Token, schwankt bei 16 K und 60 K und bricht bei 192 K ein. Gemini 2.5 Pro (Juni) erholt sich nach leichtem Abfall bei 8 K und hält über 90 % bis 192 K Kontextlänge. | Bild: Fiction.Live

Die getestete Tokenzahl liegt allerdings noch weit unter der maximalen Kontextfenstergröße von einer Million Token liegt, die Google für Gemini 2.5 Pro angibt. Mit zunehmender Fenstergröße dürfte auch bei Gemini die Genauigkeit abnehmen.

Meta etwa bewirbt für Llama 4 Maverick eine Kontextfenstergröße von bis zu zehn Millionen Token. In der Praxis zeigt sich jedoch, dass das Modell bei komplexen Langkontext-Aufgaben kaum brauchbar ist, weil schlicht zu viele Informationen ignoriert werden.

Fokus statt Fülle: Deepmind-Forsher warnt vor überlangen Kontexten

Dennoch gilt auch bei wachsenden Kontextfenstern die alte Regel: Shit in, shit out. Nikolay Savinov von Google Deepmind erklärte kürzlich, dass Sprachmodelle bei vielen Tokens im Kontext mit einem grundlegenden Verteilungsproblem kämpfen: "Mehr Aufmerksamkeit für ein Token bedeutet automatisch weniger für andere."

Savinov empfiehlt daher, irrelevante Informationen möglichst nicht in den Kontext aufzunehmen. Zwar arbeite man daran, dieses Problem durch bessere Modelle zu beheben. Aktuell sei es jedoch effizienter, den Kontext bewusst zu wählen: "Man sollte einfach keine irrelevanten Kontexte einfügen", so Savinov.

Auch aktuelle Studien kommen zu dem Schluss, dass KI-Modelle beim Schlussfolgern in langen Kontexten noch Schwächen zeigen. In der Praxis bedeutet das: Selbst wenn ein Sprachmodell große Dokumente wie sehr umfangreiche PDFs akzeptiert, sollte man vorab irrelevante Seiten entfernen – etwa Einleitungen, die für die konkrete Aufgabe keine Rolle spielen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Googles Gemini 2.5 Pro schlägt OpenAI o3 beim Verständnis langer Texte

Fokus statt Fülle: Deepmind-Forsher warnt vor überlangen Kontexten

Google veröffentlicht ein neues KI-Bildmodell mit deutlich verbesserter Bildbearbeitung

Analyse zeigt KI-Preissteigerung durch Reasoning-Prozesse

Googles Hybrid-Reasoning-Modell Gemini 2.5 Flash jetzt für Entwickler testbar

OpenAI entdeckt nach Sora-App-Launch plötzlich das Urheberrecht

OpenAI launcht neues Videomodell Sora 2 mit Sound und Social-App

Laut Google Deepmind können Videomodelle wie Veo 3 Generalisten für visuelle Aufgaben werden

Googles Gemini 2.5 Pro schlägt OpenAI o3 beim Verständnis langer Texte

Fokus statt Fülle: Deepmind-Forsher warnt vor überlangen Kontexten

Google veröffentlicht ein neues KI-Bildmodell mit deutlich verbesserter Bildbearbeitung

Analyse zeigt KI-Preissteigerung durch Reasoning-Prozesse

Googles Hybrid-Reasoning-Modell Gemini 2.5 Flash jetzt für Entwickler testbar