Inhalt
summary Zusammenfassung

Google Gemini 1.5 bietet ein Kontextfenster mit bis zu einer Million Token. Damit kann es riesige Datenmengen auf einen Schlag verarbeiten. Aber ist es auch präzise?

Denn was nützt die Zusammenfassung eines Textes oder die Analyse eines Geschäftsberichts, wenn man immer damit rechnen muss, dass wichtige Details fehlen oder ein Sachverhalt ungenau wiedergegeben wird.

Tatsächlich ist das derzeit bei anderen Sprachmodellen mit großen Kontextfenstern wie GPT-4 Turbo mit 128K oder Claude 2 mit bis zu 200K der Fall. In der Praxis zeigt sich, dass selbst Modelle mit "kleinen" Kontextfenstern von 8K bis 32K relevante Details, insbesondere in der Mitte des Textes, auslassen können, obwohl sie nur mit kleinen Textmengen gefüttert und im Prompt spezifisch angewiesen werden, jedes Detail im Quelltext zu beachten. Dieses LLM-Phänomen wird als "Lost in the middle" bezeichnet.

Beim Auffinden einer einzelnen, spezifischen Information im "Needle in the haystack"-Test erreicht Gemini 1.5 über die gesamte Kontextlänge zwar eine in den sozialen Medien viel zitierte Trefferquote von bis zu 100 Prozent. Das schafft in Googles Tests allerdings auch GPT-4 Turbo bis 128K. Und aus Theorie und Praxis wissen wir, dass GPT-4 Turbo 128K bei langen Zusammenfassungen und Analysen nicht zuverlässig arbeitet.

Anzeige
Anzeige
Beim "Needle in the haystack"-Test muss das Modell eine einzelne Information im Kontextfenster finden. Das hat wenig mit realen Anwendungsszenarien von LLMs zu tun. | Bild: Google

Irreführende Benchmarks für Kontextfenster-Leistung

Schaut man sich Googles Modellbericht zu Gemini 1.5 genauer an, findet man eine Grafik, die zeigt, dass Google das Lost-in-the-Middle-Problem nicht gelöst hat. Der Test "Multiple needles in a haystack", bei dem bis zu 100 spezifische Informationen aus dem Text extrahiert werden sollen, zeigt eine durchschnittliche Genauigkeit zwischen 60 und 70 Prozent, mit zahlreichen Ausreißern unter die 60-Prozent-Marke.

Bild: Google

Das scheint bis 128K eine Verbesserung gegenüber GPT-4 Turbo zu sein, und die Genauigkeit scheint sich recht gleichmäßig über das Kontextfenster verteilt zu sein, was gut ist.

Aber würde man einen Textanalysten damit beauftragen, eine Zusammenfassung eines Dokuments zu erstellen, wenn man von vornherein weiß, dass er wahrscheinlich 30 Prozent des Inhalts einfach ignorieren wird?

Darüber hinaus ist selbst der "Multiple Needle in the Haystack"-Test noch zu einfach im Vergleich zu den meisten realen Anwendungsszenarien, in denen nicht nach bestimmten Informationen in einer Datenmenge gesucht wird, sondern komplexe, unkonkrete Probleme wie Zusammenfassungen und Analysen gelöst werden sollen.

Google hat in einem komplexeren Test 100 Fragen zum Buch "Les Misérables" von Victor Hugo mit insgesamt 710.000 Token gestellt und die Antworten nach der Methode "Attributable to Identified Sources" ausgewertet. Bei der menschlichen Auswertung konnten 80 Prozent der Antworten dem Quelldokument zugeordnet werden, bei der maschinellen Auswertung 91 Prozent.

Empfehlung

Das sagt jedoch nichts über die Vollständigkeit der Aussagen und deren Nuancierung aus. Ob das Buch und die Charaktere so wiedergegeben werden, wie von Victor Hugo beabsichtigt, kann mit diesem Benchmark nicht beurteilt werden. Zudem lag Gemini 1.5 Pro bei Prompts ohne zusätzlichen Kontext hinter Gemini 1.0 mit zusätzlicher Wissensdatenbank (RAG).

Bild: Google

Zwar gibt es derzeit viele begeisterte Tests in sozialen Medien von Personen, die bereits Zugang zu Gemini 1.5 haben. Es scheint jedoch, dass die Ergebnisse oft nur oberflächlich ausgewertet werden, eher im Sinne eines Funktionstests.

Ja, das Modell kann das gesamte Kontextfenster durchleuchten. Bei diesen analytischen Aufgaben steckt der Teufel jedoch im Detail. Ob eine Zusammenfassung wirklich auf den Punkt gebracht ist, kann nur bei hervorragender Kenntnis des Ausgangsmaterials beurteilt werden.

Solange die Zuverlässigkeit des Informationsabrufs auch bei komplexen Abfragen nicht deutlich über 90 Prozent liegt, bleibt ein riesiges Kontextfenster zwar ein beeindruckender technischer Benchmark, aber in der Praxis wahrscheinlich ein Feature ohne großen Wert oder sogar mit dem Risiko, die Informationsqualität zu mindern, wenn es unüberlegt oder zu vertrauensselig eingesetzt wird.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google Gemini 1.5 bietet ein Kontextfenster von bis zu einer Million Token, kann aber bei der Genauigkeit der Informationswiedergabe noch Schwächen aufweisen.
  • Im Test "Multiple needles in a haystack", bei dem bis zu 100 spezifische Informationen aus dem Text extrahiert werden müssen, zeigt Gemini 1.5 eine durchschnittliche Genauigkeit zwischen 60 und 70 Prozent. Diese Aufgabe ist immer noch wesentlich einfacher als z. B. eine komplexe Zusammenfassung eines langen Dokuments zu schreiben.
  • Die Zuverlässigkeit der Informationsextraktion bei komplexen Abfragen bleibt auch mit Gemini 1.5 Pro eine Herausforderung. Solange sie nicht deutlich über 90 Prozent liegt, dürfte ein großes Kontextfenster in der Praxis ein Feature ohne großen Wert bleiben.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!