GPT-4 Code Interpreter stellt neue Rekorde in Mathematik-Benchmarks auf

Midjourney prompted by THE DECODER

Forschende haben mit dem GPT-4 Code Interpreter und neuen Prompting-Methoden eine neue Bestleistung beim MATH-Benchmark erreicht.

Das Team testete das neueste KI-System von OpenAI, den GPT-4 Code-Interpreter (GPT4-Code), an mathematischen Argumentationsdatensätzen wie MATH. Dieser Datensatz gilt als der anspruchsvollste mathematische Problemdatensatz, so die Forschenden.

Sie stellten fest, dass GPT4-Code die Leistung von GPT-4 deutlich übertraf und für MATH eine Genauigkeit von 69,7 % gegenüber 42,2 % erreichte und auch den bisherigen Bestwert von 53,9 % deutlich übertraf.

Mit Hilfe verschiedener Prompts beschränkte das Team die Häufigkeit, mit der GPT4 Code generieren konnte, um die Aufgaben zu lösen, und stellte fest, dass "sein Erfolg weitgehend auf seine starken Fähigkeiten zurückzuführen ist, Code zu generieren und auszuführen, die Ergebnisse der Codeausführung zu bewerten und seine Lösung zu korrigieren, wenn die Ergebnisse unangemessen waren".

Zwei Methoden verbessern die mathematischen Fähigkeiten des GPT-4 Code Interpreters erheblich

Ausgehend von diesen Erkenntnissen wollten die Forschenden die mathematischen Fähigkeiten des GPT-4 Code-Interpreters weiter verbessern, indem sie auf eine häufigere Code-Ausführung drängten, da dies die Leistung insbesondere bei schwierigeren Problemen verbessert.

Sie schlagen zwei Methoden vor:

Explizite Code-basierte Selbstüberprüfung
- Bei dieser Methode wird der GPT-4 Code-Interpreter aufgefordert, seine Antwort anhand des Codes zu überprüfen. Ist sie falsch, versucht er es so lange, bis die Überprüfung erfolgreich ist.
Verifikationsgesteuerte gewichtete Mehrheitsabstimmung
- Die Ergebnisse der Verifizierung fließen in die Mehrheitsentscheidung ein. Antworten, die als wahr verifiziert wurden, erhalten eine höhere Gewichtung, was ein höheres Vertrauen widerspiegelt.

Experimente zeigten, dass diese Methoden die Genauigkeit von GPT4-Code in MATH auf 84,3% verbesserte.

Die Methoden könnten genauere Datensätze für Open-Source-Modelle wie LLaMA 2 erzeugen

Die Forschenden bewerteten ihre Technik auch anhand des MMLU-Benchmarks für mathematische und naturwissenschaftliche Probleme. Auch hier wurde die Genauigkeit des GPT-4 Code-Interpreters bei allen Datensätzen verbessert.

Das Team will nun seine Erkenntnisse über die wichtige Rolle der Häufigkeit der Code-Nutzung und seine beiden Methoden auf andere LLMs außerhalb von GPT-4 anwenden. Die Methoden könnten auch genutzt werden, um genauere Datensätze zu erstellen, die "eine detaillierte, schrittweise, codebasierte Lösungsgenerierung und codebasierte Validierung beinhalten, was zur Verbesserung von Open-Source-LLMs wie LLaMA 2 beitragen könnte".

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI-Forschung

GPT-4 Code Interpreter stellt neue Rekorde in Mathematik-Benchmarks auf

Zwei Methoden verbessern die mathematischen Fähigkeiten des GPT-4 Code Interpreters erheblich

Die Methoden könnten genauere Datensätze für Open-Source-Modelle wie LLaMA 2 erzeugen

Google Deepminds neuer KI-Agent AlphaEvolve entwickelt eigenständig neue Algorithmen

Leaks zeigen GPT-4-Architektur, Datensätze, Kosten und mehr

Auto-GPT: Die besten Anwendungsfälle

Elon Musks "TruthGPT" ist kompliziert, sagt OpenAI-Mitgründer

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

GPT-4 Code Interpreter stellt neue Rekorde in Mathematik-Benchmarks auf

Zwei Methoden verbessern die mathematischen Fähigkeiten des GPT-4 Code Interpreters erheblich

Die Methoden könnten genauere Datensätze für Open-Source-Modelle wie LLaMA 2 erzeugen

Artikel teilen

Bankverbindung