KI-Forschung

GPT-4 Code Interpreter stellt neue Rekorde in Mathematik-Benchmarks auf

Maximilian Schreiner

Midjourney prompted by THE DECODER

Forschende haben mit dem GPT-4 Code Interpreter und neuen Prompting-Methoden eine neue Bestleistung beim MATH-Benchmark erreicht.

Das Team testete das neueste KI-System von OpenAI, den GPT-4 Code-Interpreter (GPT4-Code), an mathematischen Argumentationsdatensätzen wie MATH. Dieser Datensatz gilt als der anspruchsvollste mathematische Problemdatensatz, so die Forschenden.

Sie stellten fest, dass GPT4-Code die Leistung von GPT-4 deutlich übertraf und für MATH eine Genauigkeit von 69,7 % gegenüber 42,2 % erreichte und auch den bisherigen Bestwert von 53,9 % deutlich übertraf.

Bild: Zhou, Wang, Lu, Shi, Luo et al.

Mit Hilfe verschiedener Prompts beschränkte das Team die Häufigkeit, mit der GPT4 Code generieren konnte, um die Aufgaben zu lösen, und stellte fest, dass "sein Erfolg weitgehend auf seine starken Fähigkeiten zurückzuführen ist, Code zu generieren und auszuführen, die Ergebnisse der Codeausführung zu bewerten und seine Lösung zu korrigieren, wenn die Ergebnisse unangemessen waren".

Zwei Methoden verbessern die mathematischen Fähigkeiten des GPT-4 Code Interpreters erheblich

Ausgehend von diesen Erkenntnissen wollten die Forschenden die mathematischen Fähigkeiten des GPT-4 Code-Interpreters weiter verbessern, indem sie auf eine häufigere Code-Ausführung drängten, da dies die Leistung insbesondere bei schwierigeren Problemen verbessert.

Sie schlagen zwei Methoden vor:

Bild: Zhou, Wang, Lu, Shi, Luo et al.

Experimente zeigten, dass diese Methoden die Genauigkeit von GPT4-Code in MATH auf 84,3% verbesserte.

Die Methoden könnten genauere Datensätze für Open-Source-Modelle wie LLaMA 2 erzeugen

Die Forschenden bewerteten ihre Technik auch anhand des MMLU-Benchmarks für mathematische und naturwissenschaftliche Probleme. Auch hier wurde die Genauigkeit des GPT-4 Code-Interpreters bei allen Datensätzen verbessert.

Das Team will nun seine Erkenntnisse über die wichtige Rolle der Häufigkeit der Code-Nutzung und seine beiden Methoden auf andere LLMs außerhalb von GPT-4 anwenden. Die Methoden könnten auch genutzt werden, um genauere Datensätze zu erstellen, die "eine detaillierte, schrittweise, codebasierte Lösungsgenerierung und codebasierte Validierung beinhalten, was zur Verbesserung von Open-Source-LLMs wie LLaMA 2 beitragen könnte".

Quellen: