Inhalt
summary Zusammenfassung

OpenAIs GPT-4 Turbo kann 16 Mal mehr Tokens gleichzeitig verarbeiten als das alte GPT-4 in ChatGPT. Allerdings kommt dieses Feature mit einem großen Aber.

Anzeige

GPT-4 Turbo kann bis zu 100.000 Wörter (128.000 Token) oder 300 Seiten eines Standardbuches auf einmal verarbeiten. Das vorherige GPT-4 Modell in ChatGPT schaffte nur 8.000 Token, was etwa 4.000 bis 6.000 Wörtern entspricht.

Theoretisch könnte GPT-4 Turbo also wesentlich größere Gesamtzusammenhänge in Dokumenten aufdecken und Detailfragen zu komplexen Themen beantworten. Erste Tests zeigen jedoch, dass man sich auf diese Fähigkeit nicht verlassen sollte.

Ende Juli bewiesen Forschende der Stanford University, der University of California, Berkeley, und von Samaya AI erstmals, dass große Sprachmodelle Inhalte am Anfang und am Ende eines Dokuments besonders gut abrufen können.

Anzeige
Anzeige
Lost in the Middle: How Language Models Use Long Contexts | Bild: Nelson F. Liu et al.

Inhalte in der Mitte werden eher übersehen, ein Effekt, der sich verstärkt, wenn die Modelle sehr viel Input gleichzeitig verarbeiten. Die Forscherinnen und Forscher tauften diesen Effekt "Lost in the Middle".

Auch GPT-4-Turbo übersieht Informationen in der Mitte  und am Ende von Dokumenten

Angeregt durch diese Forschungsarbeit haben Greg Kamradt, Shawn Wang und Jerry Liu nun in ersten Tests untersucht, ob dieses Phänomen auch bei GPT-4 Turbo auftritt. Immerhin betonte OpenAI CEO Sam Altman bei der Vorstellung von GPT-4 Turbo sogar die Genauigkeit des neuen Modells in großen Kontexten.

Kamradts Testmethode bestand darin, Aufsätze von Paul Graham in das System zu laden und eine zufällige Aussage ("The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day") an verschiedenen Stellen des Dokuments zu platzieren.

Dann versuchte er, diese Information zu extrahieren, und ließ eine andere GPT-4-Instanz bewerten, wie gut dies funktionierte.

In seiner Analyse stellte Kamradt fest, dass die Auffindbarkeit durch GPT-4 oberhalb von 73.000 Token abnahm und mit der geringen Auffindbarkeit der Aussage korrelierte, die zwischen 7 Prozent und 50 Prozent der Dokumenttiefe platziert war. Befand sich die Aussage jedoch am Anfang des Dokuments, wurde sie unabhängig von der Kontextlänge gefunden.

Empfehlung
Bild: Greg Kamradt

Wangs Test zeigte, dass GPT-4 Turbo bei 16.000 Token zwar 3,5 Mal mehr genaue Informationen abrufen konnte als das bisherige GPT-4. Allerdings zeigte sich auch hier, dass die Zuverlässigkeit der Informationsabfrage am Anfang des Dokuments besonders hoch ist und danach stark abnimmt.

Bild: Shawn Wang
Bild: Shawn Wang

Liu untersuchte GPT-4 Turbo und Claude-2 hinsichtlich der Extraktion von Informationen aus sehr großen Dokumenten (>= 250.000 Token). Auch er kam zu dem Schluss, dass die Zusammenfassung und Analyse großer Dokumente immer noch problematisch ist. GPT-4 Turbo schnitt jedoch mit 128.000 Token signifikant besser ab als Claude-2 mit 100.000 Token.

Bild: Jerry Liu

Präzise Informationsabfrage weiter lieber per Vektordatenbank

Alle drei Tests sind zwar bisher nicht statistisch signifikant. Sie zeigen aber recht deutlich, dass OpenAI das Problem der großen Kontextfenster zwar verbessern, aber bisher nicht lösen konnte.

Die wichtigsten Erkenntnisse für Anwender aus diesen Tests sind, dass Fakten in großen Dokumente nicht garantiert wiedergefunden werden, dass eine Reduzierung des Kontextes die Genauigkeit erhöhen kann und die Position für die Wiederauffindbarkeit wichtig ist.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Der Nutzen eines großen Kontextfensters ist also nicht so offensichtlich, wie es auf den ersten Blick erscheinen mag, und die Unzuverlässigkeit der Informationen in der Mitte kann sich in der Praxis sogar als hinderlich erweisen.

Eingebettete Suchfunktionen oder Vektordatenbanken haben daher trotz großer Kontextfenster weiterhin ihre Daseinsberechtigung, da sie bei der gezielten Suche nach Informationen genauer und preiswerter sind. Die Ausführung von Modellen mit großen Kontextfenstern ist deutlich teurer als die Inferenz von Modellen mit kleinen Kontextfenstern.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAIs GPT-4 Turbo kann bis zu 100.000 Wörter (128.000 Token) auf einmal verarbeiten, eine deutliche Verbesserung gegenüber dem vorherigen GPT-4 Modell in ChatGPT, das nur 8.000 Token verarbeiten konnte.
  • Erste Tests zeigen jedoch, dass GPT-4 Turbo Informationen in der Mitte und am Ende von Dokumenten übersehen kann, ein Phänomen, das als "Lost in the Middle" bekannt ist. GPT-4 Turbo ist deutlich besser als frühere Modelle, hat aber immer noch erhebliche Schwächen.
  • Trotz des größeren Kontextfensters sind eingebettete Suchfunktionen oder Vektordatenbanken immer noch genauer und kostengünstiger, um Informationen gezielt abzurufen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!