Sprachmodelle können grundsätzlich gute Entscheidungen treffen, tun es aber oft nicht. Mit gezieltem Training, durchdachter Belohnung und klaren Begründungen lassen sich diese Schwächen zumindest teilweise beheben.
Eine Preprint-Studie von Forschenden der JKU Linz und Google Deepmind untersucht, warum große Sprachmodelle (LLMs) in Entscheidungssituationen wie Multi-Armed Bandits oder Tic-Tac-Toe oft schlechter abschneiden als erwartet.
Die Forschenden nutzten textbasierte Versionen dieser Probleme, darunter Varianten mit fünf, zehn oder zwanzig möglichen Aktionen und unterschiedlicher Zufälligkeit. Die Tests liefen mit 50 Entscheidungsschritten pro Durchgang.
Die Analyse nennt drei Hauptprobleme: zu gieriges Verhalten (Greediness), Vorlieben für häufige Aktionen (Frequency Bias) und eine Lücke zwischen Wissen und Handeln (Knowing-Doing Gap). Die Forscher untersuchten speziell Googles Modellreihe Gemma 2 in drei verschiedenen Größen: 2B, 9B und 27B Parameter; die Übertragung auf größere "Frontier Models" erfordert weitere Forschung.
Gier und Routinen verhindern neue Entscheidungen
LLMs neigen dazu, sich früh auf eine scheinbar gute Aktion festzulegen – und ignorieren andere Möglichkeiten. Diese Gier (Greediness) führt dazu, dass die Modelle nur einen Teil der verfügbaren Optionen überhaupt ausprobieren. Bei zehn möglichen Aktionen testeten selbst die größten Modelle nur etwa zwei Drittel der Optionen (65 Prozent). Ohne "Denkschritte" (Chain-of-Thought, kurz CoT) lag die Quote noch deutlich niedriger.
Kleinere Modelle zeigen ein weiteres Problem: Sie wählen primär die Aktionen, die im bisherigen Verlauf am häufigsten vorkamen – selbst wenn diese keinen Erfolg bringen. Diese sogenannte Häufigkeitstendenz (Frequency Bias) trat bei einem Modell mit zwei Milliarden Parametern in 96 Prozent der Fälle auf, wenn eine Aktion mehrfach wiederholt wurde. Größere Modelle vermeiden diesen Fehler eher, zeigen dafür aber umso stärkeres gieriges Verhalten.
Modelle wissen oft, was richtig wäre – handeln aber anders
Ein weiteres Hindernis ist die "Wissens-Handlungs-Lücke" (Knowing-Doing Gap): Die Modelle wissen theoretisch, was sie tun sollten, setzen dieses Wissen aber nicht um. In einem Test mit dem KI-Lern-Algorithmus UCB konnten die Modelle in 87 Prozent der Fälle korrekt berechnen, welche Aktion die beste wäre. Trotzdem wählten sie in 58 Prozent dieser Fälle eine andere, weniger gute Möglichkeit – meist die, die bisher schon gute Ergebnisse gebracht hatte.
Das zeigt, dass LLMs zwar ein Problem verständlich erklären können, aber nicht konsequent danach handeln. Wer regelmäßig mit KI arbeitet, kennt dieses Phänomen aus dem Alltag: Obwohl das KI-Modell seinen Fehler korrekt beschreibt, wenn man es um Korrektur bittet, wiederholt es diesen Fehler direkt im Anschluss.
Um diesen Effekt abzuschwächen, setzten die Forschenden auf ein spezielles Training mit Verstärkendem Lernen (Reinforcement Learning Fine-Tuning, RLFT). Dabei erzeugten die Modelle selbst ihre Begründungen (CoT-Rationales) und lernten daraus, welche Entscheidungen zu besseren Ergebnissen führen.
Nach 30.000 Trainingsschritten verbesserten sich die Modelle deutlich. Das kleinere Modell Gemma2-2B erkundete nach dem Training mehr Optionen (+12 Prozent) und machte insgesamt weniger Fehler. In einem Tic-Tac-Toe-Test stieg die Gewinnrate gegen einen Zufallsgegner von 15 auf 75 Prozent. Gegen einen starken Gegner, der die von Googles AlphaZero-Systemen bekannte Monte Carlo Tree Search nutzte, gelang immerhin ein Unentschieden. Voraussetzung für den Erfolg war, dass das Modell Informationen zu erlaubten Aktionen im Kontext hatte.
Trotz Training bleibt die Erkundung ein Problem
Die anfängliche Analyse dieser Probleme zeigte: Bei zehn Aktionen deckte das kleinste Modell nur 40 Prozent der Möglichkeiten ab, während größere Modelle auf 65 Prozent kamen (etwa 6,5 Aktionen). Ohne CoT sank die Abdeckung bei zehn Aktionen sogar auf nur 25 Prozent. Bei zwanzig Aktionen deckten selbst die größten Modelle nur 45 Prozent ab. Dieses Verhalten führt dazu, dass die Erkundung schon nach etwa zehn Schritten stagniert.
Auch nach dem Training bleiben die Modelle beim Ausprobieren neuer Möglichkeiten zurückhaltend. Deshalb testeten die Forschenden weitere Methoden, um die Erkundung zu fördern – darunter zufällige Entscheidungen in frühen Phasen (ε-greedy), Belohnungen für neue Aktionen (Exploration Bonus) oder Strategien zur Selbstkorrektur (Self-Correction).
Am besten funktionierte eine einfache Methode: Das Modell musste zu Beginn jede mögliche Aktion einmal ausprobieren (Try-All). Damit kam es der optimalen Lösung nahe. Besonders effektiv war auch ein zusätzlicher Punkt für jede neu ausprobierte Aktion. Dadurch erhöhte sich der Anteil erkundeter Optionen (Action Coverage) von 50 auf 70 Prozent.
Mehr Denkzeit und Gedankenketten helfen
In weiteren Tests zeigte sich: Eine ausführliche Begründung der Entscheidung (CoT) ist entscheidend für den Erfolg. Ohne sie blieb auch das Nachtraining weitgehend wirkungslos. Auch die verfügbare "Denkzeit" – also wie viele Tokens das Modell für seine Überlegungen nutzen darf – hatte einen deutlichen Einfluss: Mehr Tokens führten zu besseren Entscheidungen, erhöhten aber auch die Rechenzeit.
Spezielles CoT-Training und eine daraus folgende höhere Token-Generierung sind auch der Ansatz hinter aktuellen Reasoning-Modellen.