Inhalt
summary Zusammenfassung

Die Anbieter großer Sprachmodelle werben damit, dass ihre Modelle zum Teil riesige Datenmengen verarbeiten können. Wie gut oder schlecht sie das tun, sagen sie nicht. Forschende stellen nun einen neuen Benchmark vor.

Anzeige

Große Sprachmodelle (LLMs) wie GPT-4 oder Claude 3 können theoretisch Texte mit Hunderttausenden von Wörtern verarbeiten. Das klingt beeindruckend, sagt aber wenig darüber aus, wie gut die Modelle die Inhalte tatsächlich verstehen und nutzen können.

Der "Needle In A Haystack (NIAH)" Test misst die Fähigkeit eines Modells, einzelne Informationen aus langen Texten präzise zu extrahieren. Führende Modelle wie Claude 3 Opus erreichen eine Genauigkeit von über 99 Prozent. Auch Google und OpenAI verwenden den NIAH-Test als Benchmark für die Leistungsfähigkeit ihres eigenen Kontextfensters.

Dieser Test sagt jedoch nichts darüber aus, ob LLMs auch Zusammenhänge verstehen und große Texte sinnvoll zusammenfassen oder analysieren können. In der Praxis gibt es je nach Anwendungsfall oft effizientere Suchfunktionen in großen Textdaten als LLMs - etwa die einfache Stichwortsuche mit "Strg + F".

Anzeige
Anzeige

LLM-Schlussfolgerungen auf großen Datenmengen sind noch lange nicht ausgereift

Forschende des Shanghai AI Laboratory und der Tsinghua University stellen nun mit NeedleBench einen neuen zweisprachigen (Englisch und Chinesisch) Benchmark vor, der die Kontext-Fähigkeiten von LLMs umfassender überprüft.

Er umfasst verschiedene Aufgaben, die die Fähigkeiten von LLMs zur Informationsextraktion und zum logischen Schlussfolgern in langen Texten auf die Probe stellen. NeedleBench deckt mehrere Längenintervalle ab (4k, 8k, 32k, 128k, 200k, 1000k und darüber hinaus) und verschiedene Texttiefenbereiche.

Besonders interessant ist dabei der "Multi-Needle Reasoning Task (M-RS)". Er beschreibt, was man von Sprachmodellen eigentlich erwartet: sinnvolle Schlüsse aus verstreuten Informationen in großen Dokumenten unter Berücksichtigung aller Daten zu ziehen, um komplexe Fragen zu beantworten. Diesen M-RS-Aufgaben führten die Forschenden mit verschiedenen Open-Source-Modellen durch (Ergebnisse siehe Grafik unten).

Bild: Li et al.
Weitere Benchmark-Ergebnisse stehen im Paper. | Bild: Li et al.

Um auch die kontextabhängige Leistung großer API-Modelle zu testen, haben die Forscher die Ancestral Trace Challenge (ATC) entwickelt, bei der das Modell in der Lage sein muss, die Verwandtschaftsbeziehungen von Personen anhand verschiedener Textdaten korrekt zu beschreiben. Ziel ist es, die Fähigkeit von LLMs zu testen, mehrstufige logische Herausforderungen zu bewältigen, wie sie in realen Szenarien mit langen Kontexten auftreten können.

Die API-Modelle von OpenAI und Anthropic schnitten in der Ancestral Trace Challenge am besten ab. Aber auch ihre Leistung nahm mit zunehmender Datenmenge und Komplexität der Aufgabe rapide ab. Unter den Open-Source-Modellen schnitt das große Sprachmodell DeepSeek-67B am besten ab.

Empfehlung
Bild: Li et al.

Die Ancestral Trace Challenge zeigt eine Diskrepanz zwischen den Werbeaussagen der LLM-Anbieter und den tatsächlichen Fähigkeiten ihrer Modelle. Während Firmen wie Google damit werben, weit über eine Million Token verarbeiten zu können, zeigt NeedleBench, dass die Modelle bereits bei wenigen tausend Token an ihre Grenzen stoßen, wenn es darum geht, komplexe Informationen aus langen Texten zu extrahieren und logisch zu verknüpfen.

"Unsere Ergebnisse deuten darauf hin, dass aktuelle LLMs für praktische Anwendungen mit langen Kontexten noch erheblich verbessert werden müssen", fassen die Forscher zusammen. Skripte, Code und Datensätze stellen sie auf Github zur Verfügung.

Interessante Teilergebnisse der Studie sind, dass viele Open-Source-Modelle grundsätzlich etwas besser abschneiden, wenn zuerst der Quellinhalt und dann der Prompt folgt, dass Chain-of-Thought-Prompting die Ergebnisse verbessert und die Aufgaben generell von größeren Modellen besser gelöst werden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher des Shanghai AI Laboratory und der Tsinghua University stellen mit NeedleBench einen neuen zweisprachigen Benchmark vor, der die kontextuellen Fähigkeiten großer Sprachmodelle (LLMs) umfassend testet.
  • Der Benchmark umfasst verschiedene Aufgaben zur Informationsextraktion und zum logischen Schlussfolgern in langen Texten. Besonders interessant ist die "Ancestral Trace Challenge (ATC)", die testet, ob LLMs anspruchsvolle Schlussfolgerungen aus verstreuten Informationen in großen Dokumenten ziehen können.
  • Die Ergebnisse zeigen, dass heutige LLMs bei komplexen Aufgaben mit langen Kontexten schnell an ihre Grenzen stoßen und für praktische Anwendungen noch erheblich verbessert werden müssen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!