Inhalt
summary Zusammenfassung

Eine neue Studie untersucht das Phänomen des "Underthinking" in Large Reasoning Models wie OpenAI o1. Häufige Strategiewechsel während des Reasoning-Prozesses führen zu einer ineffizienten Ressourcennutzung und beeinträchtigen die Genauigkeit bei komplexen Aufgaben.

Anzeige

Die Studie zeigt, dass "o1-ähnliche" KI-Modelle ein Phänomen aufweisen, das die Forscher "Underthinking" nennen: Die Modelle neigen demnach dazu, vielversprechende Lösungsansätze zu früh aufzugeben und stattdessen häufig zwischen verschiedenen Strategien hin- und herzuspringen. Häufig leiten sie den Gedankensprung mit einem "Alternativ …" ein.

Textbeispiel: QwQ-32B-Modell zeigt 25 Reasoning-Ansätze während einer Aufgabe,
Das Beispiel zeigt, wie das QwQ-32B-Preview Modell während einer einzigen Aufgabe 25 verschiedene Lösungsansätze (Thoughts) verfolgt. Häufige Strategiewechsel führen zu ineffizienter Ressourcennutzung. | Bild: Wang et al.

Die Forscher stellten fest, dass die Modelle bei falschen Antworten deutlich häufiger zwischen verschiedenen Denkansätzen wechselten als bei richtigen Lösungen. Je schwieriger die Aufgaben waren, desto ausgeprägter war der "Gedankensprung-Effekt". 70 Prozent der falschen Antworten enthielten zudem mindestens einen richtigen Gedankengang, der aber offensichtlich nicht zu Ende gedacht wurde.

Weshalb ist das ein Problem? Mehr Gedankenwechsel führen zu mehr falschen Antworten führen zu mehr Tokenverbrauch. Underthinking führt so dazu, dass Modelle ihre Rechenressourcen ineffizient nutzen und letztlich weniger genaue Ergebnisse liefern, insbesondere bei anspruchsvollen mathematischen Aufgaben.

Anzeige
Anzeige
Zwei Balkendiagramme: Vergleich der generierten Token und Anzahl der "Thoughts" für verschiedene Modelle.
Die Grafik vergleicht die Anzahl der generierten Token und die Anzahl der "Thoughts" (Lösungsansätze) für verschiedene Modelle. Im Durchschnitt verbrauchen o1-ähnliche LLMs 225 Prozent mehr Token für falsche Antworten als für richtige, was auf 418 Prozent häufigere Gedankenwechsel zurückzuführen ist. | Bild: Wang et al.

Die Wissenschaftler untersuchten das Problem systematisch anhand von drei anspruchsvollen Testsätzen, darunter mathematische Wettbewerbsaufgaben und Fragen aus Physik und Chemie auf Hochschulniveau. Dabei zeigte sich, dass die untersuchten Modelle QwQ-32B-Preview und DeepSeek-R1-671B bei falschen Antworten durchschnittlich 225 Prozent mehr Token verbrauchten und 418 Prozent häufiger zwischen verschiedenen Gedankengängen wechselten als bei richtigen Antworten.

Neue Methode verbessert KI-"Denkprozesse"

Um das Ausmaß des "Underthinking" zu messen, entwickelten die Forscher eine Metrik, die die Token-Effizienz in fehlerhaften Antworten bewertet. Die Metrik ermittelt, welcher Anteil der generierten Tokens tatsächlich dazu beiträgt, einen korrekten Lösungsansatz zu verfolgen, bevor das Modell zu einer anderen Strategie übergeht.

Die Ergebnisse zeigten, dass o1-ähnliche LLMs unter erheblichem "Underthinking" leiden. Es zeigte sich auch, dass eine höhere Genauigkeit bei Antworten nicht immer mit weniger "Underthinking" einhergeht.

Tabelle: Underthinking-Scores und Genauigkeit verschiedener Modelle auf Testsets MATH500, GPQA, AIME24.
Die Tabelle zeigt die Underthinking-Scores (UT) verschiedener Modelle in Logikaufgaben. Der UT-Score misst die Häufigkeit von Strategiewechseln während des Reasoning-Prozesses. | Bild: Wang et al.

Als Lösungsansatz für das "Underthinking"-Problem schlagen die Studienautoren eine neue Decoding-Strategie namens "Thought Switching Penalty" (TIP, Gedankenwechsel-Strafe) vor.

Dabei wird der Wechsel zwischen verschiedenen Denkansätzen während des Reasoning-Prozesses "bestraft", indem die Wahrscheinlichkeit für entsprechende Token, etwa für "Alternativ", verringert wird. Auf diese Weise wird das Modell indirekt dazu gebracht, weniger häufig die Denkstrategie zu wechseln und stattdessen den aktuellen Ansatz weiterzuverfolgen.

Empfehlung

In Experimenten mit QwQ-32B-Preview konnten die Forscher zeigen, dass die TIP-Methode die Genauigkeit des Modells über verschiedene anspruchsvolle Datensätze im Bereich Mathe und STEM hinweg konsistent verbessert. Bei MATH500-Hard stieg die Genauigkeit von 82,8 auf 84,3 Prozent, während der Wert für "Underthinking" von 71,1 auf 69,7 sank.

Ähnliche Verbesserungen wurden auch bei GPQA Diamond und AIME2024 festgestellt. Die TIP-Methode lässt sich ohne Fine-Tuning und daher mit vergleichsweise geringem Aufwand auf bestehende "o1-ähnliche" LLMs anwenden.

Tabelle: Ergebnisse der TIP-Dekodierung, zeigt verbesserte Genauigkeit und niedrigere Underthinking-Scores für verschiedene Modelle.
Die Tabelle zeigt die Ergebnisse der vorgeschlagenen Decodierung mit "Thought Switching Penalty". Die TIP-Methode kann die Genauigkeit erhöhen und den UT-Score verringern, was auf eine leichte Verbesserung der Effizienz und Stabilität des Reasoning-Prozesses hindeutet. | Bild: Wang et al.

Effizientes Denken in KI-Modellen hängt also neben der reinen Rechenleistung auch von der Fähigkeit ab, vielversprechende Gedankengänge konsequent zu verfolgen. In zukünftigen Arbeiten wollen die Forscher unter anderem untersuchen, wie Underthinking durch adaptive Mechanismen reduziert werden kann, bei denen die Modelle selbst lernen, Gedankensprünge zu regulieren.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie untersucht das Phänomen des "Underthinking" in großen KI-Sprachmodellen wie OpenAI o1. Dabei wechseln die Modelle während des Reasoning-Prozesses häufig zwischen verschiedenen Lösungsstrategien, was zu einer ineffizienten Ressourcennutzung und geringerer Genauigkeit bei komplexen Aufgaben führt.
  • Die Forscher stellten fest, dass die Modelle bei falschen Antworten deutlich häufiger zwischen Denkansätzen wechselten als bei richtigen Lösungen. Dieser Effekt war umso ausgeprägter, je schwieriger die Aufgaben waren. Zudem enthielten 70 Prozent der falschen Antworten mindestens einen richtigen, aber nicht zu Ende gedachten Gedankengang.
  • Als Lösung schlagen die Autoren die "Thought Switching Penalty" (TIP) vor, die Strategiewechsel während des Reasoning-Prozesses "bestraft". In Experimenten verbesserte TIP die Genauigkeit von QwQ-32B-Preview konsistent über verschiedene anspruchsvolle Datensätze hinweg und reduzierte das Underthinking.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!