Inhalt
summary Zusammenfassung

Eine neue Studie zeigt, dass die Leistung von Sprachmodellen bei Chain-of-Thought Prompts von Wahrscheinlichkeit, Auswendiglernen und verrauschtem Schlussfolgern beeinflusst wird. 

Anzeige

Ein Forschungsteam der Princeton University und der Yale University hat untersucht, welche Faktoren die Leistung von Large Language Models (LLMs) bei der Lösung von Aufgaben mit Chain-of-Thought (CoT) Prompts beeinflussen. CoT Prompts regen LLMs dazu an, eine Abfolge von Zwischenschritten zu generieren, bevor sie die endgültige Antwort ausgeben und sind ein zentraler Bestandteil von OpenAIs neuestem o1-Modell.

Die Forschenden führten eine detaillierte Fallstudie zur symbolischen Denkaufgabe der Entschlüsselung von Verschiebechiffren durch. Bei einer Verschiebechiffre wird jeder Buchstabe des Originaltextes um eine bestimmte Anzahl von Stellen im Alphabet verschoben. Beispielsweise bedeutet ROT-13, dass jeder Buchstabe um 13 Stellen nach vorne verschoben wird: Aus A wird N, aus B wird O, und so weiter. Aus dem Originaltext "HALLO" würde so der verschlüsselte Text "UNYYB". Die Aufgabe des Modells besteht darin, diesen verschlüsselten Text wieder zu entschlüsseln, um den Originaltext zu rekonstruieren.

Durch die Konzentration auf eine einzige, relativ einfache Aufgabe konnten sie drei Faktoren identifizieren, die die CoT-Leistung systematisch beeinflussen:

Anzeige
Anzeige

1. Wahrscheinlichkeit (probability): Die Wahrscheinlichkeit des erwarteten Aufgabenergebnisses
2. Auswendiglernen (memorization): Was das Modell während des Pre-Trainings implizit gelernt hat
3. Verrauschtes Schlussfolgern (noisy reasoning): Die Anzahl der an der Schlussfolgerung beteiligten Zwischenschritte

Die Forschenden zeigten, dass diese Faktoren die Genauigkeit bei allen drei untersuchten LLMs - GPT-4, Claude 3 und Llama 3.1 - drastisch beeinflussen können.

Einfaches probabilistisches Modell bildet CoT-Leistung ab

Um ihre Beobachtungen zu überprüfen, verwendeten die Forschenden ein statistisches Verfahren namens logistische Regression. Damit untersuchten sie, wie verschiedene Faktoren die Wahrscheinlichkeit beeinflussen, dass GPT-4 bei einem Beispiel die richtige Antwort gibt.

Sie betrachteten folgende Faktoren:

- Wie wahrscheinlich ist der verschlüsselte Eingabetext?
- Wie wahrscheinlich ist der korrekte entschlüsselte Text? Dieser Faktor soll zeigen, ob die Wahrscheinlichkeit des Ergebnisses eine Rolle spielt.
- Wie häufig kommt die jeweilige Verschiebung (z.B. ROT-13) in echten Texten vor? Je häufiger, desto besser könnte das Modell sie beim Training auswendig gelernt haben.
- Wie viele Schritte sind mindestens nötig, um jeden Buchstaben zu entschlüsseln? Das ist ein Maß für die Schwierigkeit der Aufgabe.

Empfehlung
Infografik: GPT-4 Leistung bei Verschiebechiffren-Entschlüsselung, Standard vs. Chain-of-Thought Prompting, verschiedene Aufgabentypen visualisiert.
Die Abbildung zeigt eine detaillierte Analyse der Leistung von GPT-4 bei der Entschlüsselung von Verschiebechiffren. Durch den Einsatz von Chain-of-Thought-Prompting erzielt das Modell eine verbesserte Genauigkeit, die auf probabilistischen Effekten und Memorisierung basiert. | Bild: Prabhakar et al.

Das Ergebnis: Die Wahrscheinlichkeit des entschlüsselten Textes, die Häufigkeit der Verschiebung und die Anzahl der nötigen Schritte hatten alle einen statistisch bedeutsamen Einfluss auf die Leistung von GPT-4. Laut des Teams stützt das die Vermutung, dass GPT-4 beim Schlussfolgern sowohl Wahrscheinlichkeiten als auch Auswendiggelerntes und eine Art "verrauschte Logik" verwendet. Die Modelle zeigen also Anzeichen von Auswendiglernen, können das Gelernte aber auch auf neue Fälle übertragen.

Besonders interessant ist, dass GPT-4 beim Schlussfolgern offenbar zwei Strategien kombiniert: Es kann die Buchstaben entweder vorwärts oder rückwärts verschieben, je nachdem, was weniger Schritte erfordert. Das führt zwar insgesamt zu guten Ergebnissen, trägt aber auch zum "Rauschen" bei, das die Genauigkeit mit zunehmender Verschiebung sinken lässt.

Außerdem zeigte sich, dass die Zwischenschritte, die GPT-4 in seiner Gedankenkette generiert, entscheidend für die Leistung sind. Sie liefern wichtigen Kontext, auf den sich das Modell beim Erzeugen der Endergebnisse stützt. Allein die Anweisung, "leise nachzudenken", bringt wenig - die Überlegungen müssen explizit als Text ausgegeben werden.

Überraschenderweise spielte es kaum eine Rolle, ob die Gedankenkette im Beispiel-Prompt fehlerfrei war oder nicht. GPT-4 scheint vor allem das Format zu übernehmen, um selbst eine korrekte Kette zu erzeugen. Die inhaltliche Korrektheit der Beispielkette ist weniger wichtig.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Insgesamt kommen die Forschenden zu dem Schluss, dass die Leistung bei CoT Prompts sowohl Auswendiglernen als auch eine probabilistische Version von echtem Schlussfolgern widerspiegelt. Mit "probabilistischer Version von echtem Schlussfolgern" meinen sie, dass das Modell zwar in der Lage ist, logische Schlussfolgerungen zu ziehen, dabei aber auch von Wahrscheinlichkeiten beeinflusst wird. Es handelt sich also nicht um rein symbolisches Schlussfolgern.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Princeton und Yale University untersuchten, wie Sprachmodelle bei Chain-of-Thought (CoT) Prompts Aufgaben lösen. Sie identifizierten drei Einflussfaktoren: Wahrscheinlichkeit des erwarteten Ergebnisses, implizit Gelerntes aus dem Pre-Training und die Anzahl der Zwischenschritte beim Schlussfolgern.
  • In einer Fallstudie zur Entschlüsselung von Verschiebechiffren zeigte sich, dass GPT-4 beim Schlussfolgern Wahrscheinlichkeiten, Auswendiggelerntes und eine Art "verrauschte Logik" kombiniert. Das Modell kann das Gelernte auf neue Fälle übertragen und nutzt zwei Strategien: Vorwärts- oder Rückwärtsverschiebung der Buchstaben.
  • Die explizite Ausgabe der Zwischenschritte in der Gedankenkette erwies sich als entscheidend für die Leistung von GPT-4. Überraschenderweise spielte die inhaltliche Korrektheit der Beispielkette im Prompt kaum eine Rolle. Die Forscher schließen, dass die CoT-Leistung sowohl Auswendiglernen als auch eine probabilistische Form des Schlussfolgerns widerspiegelt.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!