OpenAI verbessert mathematische Fähigkeiten von GPT-4 mit menschlichem Feedback

OpenAI zeigt ein KI-Modell, das bei der Lösung einiger mathematischer Probleme neue Bestwerte erreicht. Der zugrunde liegende Prozess könnte zu allgemein besseren Sprachmodellen führen.

In der Arbeit "Let's Verify Step by Step" trainierte das OpenAI-Team mehrere Modelle auf Grundlage von GPT-4, um Aufgaben im MATH-Datensatz zu lösen. Ziel war es, zwei Varianten von Feedbackprozessen für das Training von Belohnungsmodellen zu vergleichen.

Konkret verglich das Team "Outcome Supervision", bei der das KI-Modell Feedback über das Endergebnis einer Aufgabe erhält, mit "Process Supervision", bei der das Modell Feedback für jeden konkreten Denkschritt erhält.

In der Praxis erfordert der letztgenannte Prozess menschliches Feedback und ist daher für große Modelle und vielfältige Aufgaben kostspielig. Die aktuelle Arbeit ist daher eine Untersuchung, die die zukünftige Richtung von OpenAI bestimmen könnte.

Process Supervision hat keine negativen Auswirkungen

Für mathematische Aufgaben konnte OpenAI sowohl für große als auch für kleine Modelle zeigen, dass "Process Supervision" deutlich bessere Ergebnisse liefert, die Modelle also häufiger richtig liegen und nach Ansicht des Teams auch einen menschenähnlicheren Denkprozess aufweisen. Halluzinationen oder logische Fehler, die auch in den derzeit besten Modellen immer wieder auftreten, können so reduziert werden.

Process Supervision erzeugt ein leistungsfähigeres Modell für Mathematik. | Bild: OpenAI

Außerdem vermeidet die Belohnung korrekter Zwischenschritte laut OpenAI das als "alignment tax" bezeichnete Phänomen, bei dem die Leistung eines Modells durch die Anpassung an menschliche Werte und Erwartungen reduziert wird. Im Falle der getesteten Mathematikaufgaben stellt das Unternehmen sogar eine negative "alignment tax" fest.

Es ist nicht bekannt, inwieweit diese Ergebnisse über den Bereich der Mathematik hinaus verallgemeinert werden können, und wir halten es für wichtig, in zukünftigen Arbeiten die Auswirkungen der Process Supervision in anderen Bereichen zu untersuchen. Wenn sich diese Ergebnisse verallgemeinern lassen, könnten wir feststellen, dass die Process Supervision uns das Beste aus beiden Welten bietet - eine Methode, die sowohl leistungsfähiger als auch angemessener ist als die Outcome Supervision.

OpenAI

OpenAI veröffentlicht Datensatz mit menschlichen Labels

Inwieweit "Process Supervision" auch für Bereiche außerhalb der Mathematik geeignet ist, muss weiter erforscht werden. Um diesen Prozess zu unterstützen, hat OpenAI den für das eigene Modell eingesetzten Datensatz PRM800K veröffentlicht, der 800.000 menschliche Labels für alle Zwischenschritte des MATH-Datensatzes enthält.

Der beteiligte Autor und OpenAI-Mitbegründer John Schulman hat die zentrale Rolle eines Belohnungsmusters bei der Ausbildung erwünschter Verhaltensweisen in großen Sprachmodellen kürzlich in einem Vortrag ausführlich erläutert.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

OpenAI verbessert mathematische Fähigkeiten von GPT-4 mit menschlichem Feedback

Process Supervision hat keine negativen Auswirkungen

OpenAI veröffentlicht Datensatz mit menschlichen Labels

Sicherheitsforschungsinstitut zeigt: o3 ist wohl das bisher riskanteste KI-Modell von OpenAI

OpenAI überarbeitet Sicherheitsrahmen für Hochrisiko-KI-Fähigkeiten

OpenAI beschleunigt KI-Entwicklung – Sicherheitstests geraten unter Druck

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

OpenAI verbessert mathematische Fähigkeiten von GPT-4 mit menschlichem Feedback

Process Supervision hat keine negativen Auswirkungen

OpenAI veröffentlicht Datensatz mit menschlichen Labels

Sicherheitsforschungsinstitut zeigt: o3 ist wohl das bisher riskanteste KI-Modell von OpenAI

OpenAI überarbeitet Sicherheitsrahmen für Hochrisiko-KI-Fähigkeiten

OpenAI beschleunigt KI-Entwicklung – Sicherheitstests geraten unter Druck