Inhalt
summary Zusammenfassung

Microsoft stellt ein neues Prompting-Verfahren vor, das wesentlich zuverlässigere Schlussfolgerungen in Sprachmodellen erlaubt und mit dem Expertenwissen integriert werden kann.

Anzeige

Komplexe Prompt-Engineering-Methoden zielen in der Regel darauf ab, große Sprachmodelle in ihren logischen Schlussfolgerungen zuverlässiger zu machen. Von einfacheren Methoden wie Chain-of-Thought-Prompting bis hin zu komplexeren Methoden wie Tree-of-Thought versuchen sie, Probleme in so genannte "Gedanken" zu zerlegen. Ein Gedanke ist in diesem Zusammenhang ein einfacher Satz, der ein einfacheres Teilproblem oder das Ergebnis einer Schlussfolgerung beschreibt, und eine damit verbundene Handlung, z. B. eine einfache Lösung für eines der Teilprobleme, die zu einem neuen Ergebnis führt.

Die neue Methode "Everything of Thoughts" (XOT), die von Forschenden von Microsoft, dem Georgia Institute of Technology und der East China Normal University entwickelt wurde, soll die Fähigkeiten von Sprachmodellen mit einem externen Modul erweitern, das von AlphaZero inspiriert ist. Nach Angaben des Teams nutzt XOT Reinforcement Learning und Monte-Carlo Tree Search (MCTS), um externes Domänenwissen in Gedanken zu integrieren. Dadurch sollen Sprachmodelle effizient auf unbekannte Probleme verallgemeinert werden können.

AlphaZero-inspirierte Methode XOT verlagert die Suche nach Gedankenstrukturen

Konkret verwendet XOT MCTS, um nach Denkstrukturen zu suchen, die bei der Problemlösung helfen können. Während der Trainingsphase wird MCTS verwendet, um mögliche Lösungen - d.h. Gedankenstrukturen - für eine bestimmte Aufgabe, wie ein Puzzlespiel, zu erforschen. Dieser Prozess beinhaltet die Aufzeichnung von Zuständen, Werten und Besuchshäufigkeiten von Gedankenknoten in der Suche. Die aufgezeichneten Daten werden dann verwendet, um das Modell durch Reinforcement Learning darauf zu trainieren, wahrscheinlich erfolgreiche Lösungswege vorherzusagen - also nicht mehr für jedes Problem den gesamten Lösungsbaum durchsuchen zu müssen - und im Idealfall kann das Modell dann auch auf neue Probleme innerhalb des Spiels generalisiert werden.

Anzeige
Anzeige

Das Team verknüpft das Modell dann mit dem Sprachmodell, um diesem Denkstrukturen zur Verfügung zu stellen, die ein dem Sprachmodell gestelltes Problem lösen könnten. In einem kollaborativen Prozess untersucht das Sprachmodell dann die Gedanken und Denkstrukturen und kann Überarbeitungen anfordern, um die Qualität der Lösungen zu verbessern. Mit XOT muss das Sprachmodell also nicht mehr selbst Gedanken erkunden und bewerten. Durch die Verwendung des externen Modells werden so die Anfragen an das Sprachmodell im Vergleich zu anderen Methoden um ein Vielfaches reduziert.

XOT bringt Leistungssprung in getesteten Szenarien

Die Forschenden testeten XOT an mehreren anspruchsvollen Problemlösungsaufgaben, darunter das Spiel "Game of 24", das "8-Puzzle" und der "Pocket Cube". Die Ergebnisse zeigten, dass XOT andere Ansätze deutlich übertraf und Probleme löste, an denen andere Methoden scheiterten. Eine 100-prozentige Zuverlässigkeit konnte jedoch auch mit XOT nicht erreicht werden.

Dennoch sieht das Team in dem XOT-Framework eine vielversprechende Methode, um externes Domänenwissen in die Inferenz von Sprachmodellen zu integrieren. Gleichzeitig wurde die Performance, Effizienz und Flexibilität verbessert - eine Kombination, die mit anderen Methoden nicht erreicht werden kann.

Ob und wann Microsoft die Methode für eigene Produkte einsetzen will, ist noch nicht bekannt. Möglicherweise könnte eine ähnliche Methode auch bei Google Gemini zum Einsatz kommen: Google Deepmind CEO Demis Hassabis verriet in einem Interview, dass man Ideen aus AlphaGo in Gemini einfließen lassen möchte.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft und Forschungspartner stellen eine neue Methode namens "Everything of Thoughts" (XOT) vor, die Sprachmodelle mit externem Expertenwissen erweitert und zuverlässigere Schlussfolgerungen ermöglicht.
  • XOT verwendet Reinforcement Learning und Monte-Carlo Tree Search (inspiriert von AlphaZero) zur Integration von externem Domänenwissen in Gedanken.
  • In Tests zeigte XOT eine deutlich bessere Leistung bei anspruchsvollen Problemlösungsaufgaben als andere Ansätze, jedoch ist noch unklar, wann Microsoft die Methode in eigenen Produkten einsetzen wird.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!