Microsoft stellt ein neues Prompting-Verfahren vor, das wesentlich zuverlässigere Schlussfolgerungen in Sprachmodellen erlaubt und mit dem Expertenwissen integriert werden kann.
Komplexe Prompt-Engineering-Methoden zielen in der Regel darauf ab, große Sprachmodelle in ihren logischen Schlussfolgerungen zuverlässiger zu machen. Von einfacheren Methoden wie Chain-of-Thought-Prompting bis hin zu komplexeren Methoden wie Tree-of-Thought versuchen sie, Probleme in so genannte "Gedanken" zu zerlegen. Ein Gedanke ist in diesem Zusammenhang ein einfacher Satz, der ein einfacheres Teilproblem oder das Ergebnis einer Schlussfolgerung beschreibt, und eine damit verbundene Handlung, z. B. eine einfache Lösung für eines der Teilprobleme, die zu einem neuen Ergebnis führt.
Die neue Methode "Everything of Thoughts" (XOT), die von Forschenden von Microsoft, dem Georgia Institute of Technology und der East China Normal University entwickelt wurde, soll die Fähigkeiten von Sprachmodellen mit einem externen Modul erweitern, das von AlphaZero inspiriert ist. Nach Angaben des Teams nutzt XOT Reinforcement Learning und Monte-Carlo Tree Search (MCTS), um externes Domänenwissen in Gedanken zu integrieren. Dadurch sollen Sprachmodelle effizient auf unbekannte Probleme verallgemeinert werden können.
AlphaZero-inspirierte Methode XOT verlagert die Suche nach Gedankenstrukturen
Konkret verwendet XOT MCTS, um nach Denkstrukturen zu suchen, die bei der Problemlösung helfen können. Während der Trainingsphase wird MCTS verwendet, um mögliche Lösungen - d.h. Gedankenstrukturen - für eine bestimmte Aufgabe, wie ein Puzzlespiel, zu erforschen. Dieser Prozess beinhaltet die Aufzeichnung von Zuständen, Werten und Besuchshäufigkeiten von Gedankenknoten in der Suche. Die aufgezeichneten Daten werden dann verwendet, um das Modell durch Reinforcement Learning darauf zu trainieren, wahrscheinlich erfolgreiche Lösungswege vorherzusagen - also nicht mehr für jedes Problem den gesamten Lösungsbaum durchsuchen zu müssen - und im Idealfall kann das Modell dann auch auf neue Probleme innerhalb des Spiels generalisiert werden.
Das Team verknüpft das Modell dann mit dem Sprachmodell, um diesem Denkstrukturen zur Verfügung zu stellen, die ein dem Sprachmodell gestelltes Problem lösen könnten. In einem kollaborativen Prozess untersucht das Sprachmodell dann die Gedanken und Denkstrukturen und kann Überarbeitungen anfordern, um die Qualität der Lösungen zu verbessern. Mit XOT muss das Sprachmodell also nicht mehr selbst Gedanken erkunden und bewerten. Durch die Verwendung des externen Modells werden so die Anfragen an das Sprachmodell im Vergleich zu anderen Methoden um ein Vielfaches reduziert.
XOT bringt Leistungssprung in getesteten Szenarien
Die Forschenden testeten XOT an mehreren anspruchsvollen Problemlösungsaufgaben, darunter das Spiel "Game of 24", das "8-Puzzle" und der "Pocket Cube". Die Ergebnisse zeigten, dass XOT andere Ansätze deutlich übertraf und Probleme löste, an denen andere Methoden scheiterten. Eine 100-prozentige Zuverlässigkeit konnte jedoch auch mit XOT nicht erreicht werden.
Dennoch sieht das Team in dem XOT-Framework eine vielversprechende Methode, um externes Domänenwissen in die Inferenz von Sprachmodellen zu integrieren. Gleichzeitig wurde die Performance, Effizienz und Flexibilität verbessert - eine Kombination, die mit anderen Methoden nicht erreicht werden kann.
Ob und wann Microsoft die Methode für eigene Produkte einsetzen will, ist noch nicht bekannt. Möglicherweise könnte eine ähnliche Methode auch bei Google Gemini zum Einsatz kommen: Google Deepmind CEO Demis Hassabis verriet in einem Interview, dass man Ideen aus AlphaGo in Gemini einfließen lassen möchte.