Wie man einem großen Sprachmodell Mathe beibringt

Eine neue Methode zeigt, wie große Sprachmodelle wie GPT-3 zuverlässiger Matheaufgaben lösen können.

Große Sprachmodelle wie GPT-3 sind schlecht in Mathematik - eine Erkenntnis, die für viel Aufmerksamkeit sorgte, als OpenAI das Modell vorstellte. Denn dass GPT-3 überhaupt einige Zahlen addieren konnte, war so vorher nicht erwartet worden.

Seitdem entwickeln Forschende immer neue Methoden, die Mathematik-Fähigkeiten großer Sprachmodelle zu verbessern, etwa mit unterschiedlichen Formen von Prompt Engineering oder Zugriff auf einen externen Python-Interpreter.

Algorithmic Reasoning als Prompt-Eingabe

Beim Prompt Engineering experimentieren Forschende mit verschiedenen Eingabemustern und messen ihre Auswirkung auf die Ausgabe der Sprachmodelle. Dass unterschiedliche Eingaben teils deutlich bessere Ergebnisse hervorrufen, zeigt etwa das "Chain-of-thought"-Prompting.

Doch trotz dieser Fortschritte können Sprachmodelle ohne externen Zugriff selbst einfache algorithmische Aufgaben gar nicht oder nicht zuverlässig lösen. Forschende der Universite de Montreal und Google Research haben jedoch eine Methode des Prompt Engineering entwickelt, die die Leistung der Modelle deutlich steigert.

Das Team formuliert dafür detaillierte Algorithmen, etwa für Addition, als Prompt-Eingabe, die sicherstellt, dass das Sprachmodell diesen Algorithmus als Werkzeug einsetzen kann, um weitere vergleichbare Probleme zu lösen. Die Forschenden weisen nach, dass die Modelle diese Algorithmen tatsächlich nutzen können und evaluieren ihren Ansatz an einer Reihe von arithmetischen und quantitativen Reasoning-Aufgaben.

Algorithmic Prompting hängt andere Prompting-Methoden deutlich ab, auch Scratchpad-Varianten, die auf Additionsaufgaben spezialisiert wurden. | Bild: Zhou et al.

Durch ihren "Algorithmic Prompting"-Ansatz erreichen die Sprachmodelle eine signifikante Leistungssteigerung im Vergleich zu anderen Prompt-Strategien: Insbesondere bei langer Parität, Addition, Multiplikation und Subtraktion erreiche die Lösung bis zu 10-fach niedrigere Fehlerraten und kann Aufgaben mit deutlich mehr Zahlen lösen.

Die Forschenden zeigen zudem, dass die Sprachmodelle mehrere Fähigkeiten, etwa Addition und Subtraktion, akkumuliert lernen, verschiedene Fähigkeiten gemeinsam in einer Matheaufgabe anwenden und die gelernten Fähigkeiten auch als Werkzeuge in komplexeren Text-Aufgaben einsetzen können.

Das Team testet die eigene Methode in unterschiedlichen Szenarien und zeigt, dass die Modelle Fähigkeiten akkumulieren, kombinieren und auf komplexere Aufgaben anwenden können. | Bild: Zhou et al.

Algorithmic Prompting in Zeiten von ChatGPT

Am Beispiel der Addition zeigt das Team, dass große Sprachmodelle Anweisungen mit nur fünf Zahlen auf bis zu 19 Ziffern anwenden können. Das sei ein Beispiel für eine Generalisierung und ein direkter Effekt des Algorithmic Prompting. Eine Ausweitung auf größere Zahlen wird laut des Teams durch die verfügbare Kontextlänge der Sprachmodelle beschränkt.

Empfehlung

KI-Forschung

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

Leistung der Methode im Vergleich: Addition mit 19 Zahlen vs. Few-Shot, Substraktion mit 14 vs. Few-Shot, Multiplikation mit 7 vs. Chaint-of-Thought. Parität mit 20 vs. Scratchpad. | Bild: Zhou et al.

Wer jetzt versucht, die Methode auf ChatGPT anzuwenden, wird feststellen, dass der jüngste Chatbot von OpenAI auch ohne viel Prompt-Engineering korrekte Antworten auf Matheaufgaben ausspuckt. OpenAI nutzt hierfür vermutlich einen externen Interpreter. Warum also weitere Methoden des Prompt-Engineering für Mathematik erforschen?

Ein Bereich mit erheblichem Verbesserungspotenzial ist die Fähigkeit großer Sprachmodelle, komplexe logische Aufgaben zu lösen. In diesem Bereich stellt das mathematische Denken eine einzigartige Herausforderung dar. Es erfordert die Fähigkeit, ein Problem logisch zu analysieren, in Teilprobleme zu zerlegen und diese neu zu kombinieren, sowie das Wissen über Regeln, Transformationen, Prozesse und Axiome anzuwenden.

Aus dem Paper

Methoden wie das "Algorithmic Prompting" könnten also die Fähigkeiten der Modelle verbessern, logisch zu schlussfolgern. Modelle, die lernen, einen Algorithmus auszuführen, können gleichbleibende Ergebnisse erzeugen, Halluzinationen reduzieren und da "Algorithmen von Natur aus Input-unabhängig sind, sind sie bei ordnungsgemäßer Ausführung immun gegen Leistungseinbußen, die außerhalb der gelernten Verteilung auftreten können."

Als zentrale Erkenntnis sieht das Team die Rolle der Kontextlänge: Es könne möglich sein, eine größere Kontextlänge in eine bessere Leistung beim Schlussfolgern umzuwandeln, indem ausführlichere Lösungsbeispiele bereitgestellt werden. Statt eines Zugriffs auf einen externen Interpreter würde das Modell in diesem Fall für unterschiedliche Aufgaben passende Algorithmic Prompts aus einer externen Datenbank abrufen und im Kontext-Fenster ausführen.

Modelle wie GPT-4 sollen die Kontextlänge aktueller Sprachmodelle mutmaßlich verdoppeln. Ob sich mit Methoden wie dem Algorithmic Prompting dann noch bessere Schlussfolgerungen umsetzen lassen, wird sich zeigen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Wie man einem großen Sprachmodell Mathe beibringt

Algorithmic Reasoning als Prompt-Eingabe

Algorithmic Prompting in Zeiten von ChatGPT

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

KI-Training mit Reddit-Content: Plattform bittet zur Kasse

Unerwarteter Geldsegen: Wenn ChatGPT hilft, Bürokratie zu bewältigen

Vicuna: Diesen Chatbot findet GPT-4 fast so gut wie ChatGPT

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Wie man einem großen Sprachmodell Mathe beibringt

Algorithmic Reasoning als Prompt-Eingabe

Algorithmic Prompting in Zeiten von ChatGPT

Artikel teilen

Bankverbindung