Forschende entwickeln Quiet-STaR, eine Methode, mit der KI-Systeme lernen, zwischen den Zeilen mitzudenken. Das könnte den Weg für vielseitigere und effizientere KI ebnen, die komplexe Aufgaben besser löst.
Wenn wir schreiben oder sprechen, machen wir oft Denkpausen. Wir überlegen, wie wir ein Argument am besten formulieren oder was unser Gegenüber gerade denkt.
Dieses "Mitdenken" steckt zwischen den Zeilen fast aller Texte - zum Beispiel in den Zwischenschritten mathematischer Beweise, die nicht explizit genannt werden. Bisher fiel es KI schwer, solche unausgesprochenen Gedankengänge nachzuvollziehen. Doch das könnte sich jetzt ändern.
Interne Argumente sollen für bessere Antworten sorgen
Ein Forschungsteam der Stanford University hat eine Methode namens "Quiet-STaR" entwickelt, die KI-Systemen beibringt, selbstständig mitzudenken. Dabei generiert die KI an jeder Stelle eines Textes mögliche Begründungen, warum der Text so und nicht anders weitergeht.
Durch Ausprobieren lernt sie, welche Überlegungen zu den wahrscheinlichsten Fortsetzungen führen - sie denkt mit, bevor sie "spricht", also den Text weiter generiert.
Die Technik baut auf dem "Self-Taught Reasoner" (STaR) auf, der KI-Systemen beibringt, aus wenigen Beispielen Begründungen abzuleiten und aus richtigen Antworten zu lernen. Während STaR jedoch nur für bestimmte Frage-Antwort-Aufgaben funktioniert, soll Quiet-STaR Sprachmodellen beibringen, aus beliebigen Texten unausgesprochene Begründungen abzuleiten.
Das klingt einfach, birgt aber große Herausforderungen: Die KI muss erst lernen, wie man überhaupt "Gedanken" generiert und sie sinnvoll einsetzt. Außerdem ist es rechenintensiv, an jeder Textstelle viele Fortsetzungen zu berechnen und zu bewerten.
Die Forscherinnen und Forscher gehen dieses Problem mit ausgeklügelten Abtastalgorithmen und Techniken wie dem "Teacher Forcing", bei dem das System schrittweise an die richtigen Fortsetzungen herangeführt wird.
Quiet-Star verbessert Logik-Fähigkeiten von LLMs
Die Ergebnisse sind beeindruckend: Ohne spezielles Training auf bestimmte Aufgaben verbesserte sich die Fähigkeit der KI, Verständnisfragen in gängigen KI-Tests zu beantworten, teilweise um mehr als zehn Prozent (GSM8K von 5,9 Prozent auf 10,9 Prozent, CommonsenseQA von 36,3 Prozent auf 47,2 Prozent).
Diese Verbesserungen nahmen mit der Länge der generierten Begründungen zu. Sie halfen besonders bei schwierigen Textpassagen. Und je länger die KI "nachdachte", desto besser wurden die Ergebnisse.
Das zeigt: Indem die KI in vielfältigen Textdaten die Logik zwischen den Zeilen erkennt, wird sie anpassungsfähiger und kann ihr Wissen besser auf neue Probleme übertragen. Sie lernt, Zusammenhänge zu verstehen, statt sie nur auswendig zu lernen.
Allerdings hat die Technologie noch Limitierungen. Bisher wurde sie nur an einem kleinen 7B-Modell getestet. Und das System muss erst noch lernen, dynamisch zu entscheiden, wann sich das Nachdenken überhaupt lohnt - sonst verschwenden die zusätzlichen Denkschritte zu viel Rechenleistung. Die Forscherinnen und Forscher gehen davon aus, dass mit größeren Modellen noch deutlichere Verbesserungen möglich sind.
In jedem Fall weist Quiet-STaR einen vielversprechenden Weg zu intelligenteren und vielseitigeren KI-Systemen. Statt nur auf eng begrenzte Aufgaben trainiert zu werden, könnten sie selbstständig lernen, die Logik hinter Texten und Gesprächen zu verstehen. Sie könnten Argumente besser verstehen, Theorien aufstellen und kreativer und effizienter mit Sprache umgehen.
Hat Quiet-STaR etwas mit OpenAIs Q* zu tun?
Es gibt interessante Parallelen zwischen der Quiet-STaR-Methode der Stanford-Forscher und den Spekulationen um das mysteriöse Q*-System von OpenAI, das im vergangenen Herbst als großer Durchbruch gehandelt wurde.
Beide Methoden zielen darauf ab, die logischen Denk- und Problemlösungsfähigkeiten von KI über das hinaus zu verbessern, was aktuelle Sprachmodelle wie GPT leisten können.
Während Quiet-STaR Sprachmodellen beibringt, an jeder Stelle eines Textes mögliche Begründungen für die Fortsetzung zu generieren und daraus zu lernen, soll Q* Sprachmodelle mit Planungsalgorithmen kombinieren. Beides sind Ansätze, der KI Schritt für Schritt das "Argumentieren" oder "Denken" beizubringen, um zu besseren Lösungen zu kommen.
Ein weiteres gemeinsames Thema ist die Bedeutung der Rechenzeit während der Anwendung ("Test-Time Compute"): Je mehr Zeit die KI zum Nachdenken hat, desto besser sind die Ergebnisse, sowohl bei Quiet-STaR als auch vermutlich bei Q*. Dies erinnert an Schachprogramme wie AlphaZero, die ihre Leistung steigern, wenn sie länger rechnen dürfen.
Und natürlich der Name: Quiet-STaR könnte mit "Q*" abgekürzt werden.