OpenAI führt Reinforcement Fine-Tuning (RFT) für Organisationen ein. Die Methode soll KI-Modelle wie o4-mini präziser auf spezifische Aufgaben abstimmen – mit Hilfe eines programmierbaren Bewertungssystems.
Ziel beim RFT ist es, Sprachmodelle gezielt für spezialisierte Aufgabenbereiche zu optimieren, etwa in Recht, Finanzen oder Sicherheit. OpenAI setzt dabei auf ein Bewertungssystem, das es erlaubt, Modelle auch entlang nuancierter Zielvorgaben wie Stil, Genauigkeit oder Sicherheit zu trainieren.
Im Unterschied zum bekannten Supervised Fine-Tuning basiert RFT nicht auf festen "richtigen" Antworten, sondern auf einem programmierbaren "Grader", der jede Modellantwort mit einem numerischen Score bewertet. Mehrere Grader können kombiniert werden.
Das Modell lernt so, bevorzugt Antworten mit hoher Bewertung zu generieren. Die Trainingsmethode greift dabei auf Prinzipien der Bestärkenden Lernverfahren zurück, der Ansatz, der auch hinter OpenAIs Reasoning-Modellen wie o3 steckt.
Feinabstimmung über Grader, Checkpoints und strukturierte Ausgaben
Der RFT-Prozess lässt sich in fünf Schritte gliedern: Zunächst wird ein Grader definiert, der Kriterien für gute Antworten festlegt. Danach werden Trainings- und Validierungsdaten hochgeladen und der Fine-Tuning-Job gestartet. Während des Trainings erzeugt das Modell mehrere Antwortvorschläge pro Eingabe, die vom Grader bewertet werden. Ein Policy-Gradient-Verfahren passt die Modellgewichte entsprechend an.
OpenAI demonstriert die Methode anhand eines Anwendungsfalls im Bereich Sicherheit: Ein Modell soll Fragen zur internen Sicherheitspolitik eines Unternehmens beantworten – in Form eines JSON-Objekts mit den Feldern "compliant" (ja, nein, oder "needs review") und "explanation". Bewertet wird sowohl die formale Übereinstimmung als auch die Qualität der Erläuterung. Die Trainingsdaten müssen im JSONL-Format vorliegen und die gewünschten strukturierten Ausgaben als Referenz enthalten.
Während des Trainings misst OpenAI unter anderem die mittlere Belohnung für Trainings- und Validierungsdaten. Checkpoints mit hohem Bewertungsscore lassen sich separat testen und bei Bedarf wieder aufnehmen. Die Trainingsjobs sind vollständig in OpenAIs Evaluierungstools integriert.
Video: OpenAI
OpenAI hatte RFT bereits im Dezember 2024 Rahmen eines Forschungsprogramms als experimentelle Trainingsmethode vorgestellt. Erste Tests zeigten laut OpenAI vielversprechende Ergebnisse in spezialisierten Anwendungen. OpenAI-Forscher Rohan Pandey sieht im RFT-Paradigma eine Chance für vertikale Start-ups, die mit seltenen Daten spezialisierte Agenten trainieren.
Auch Supervised Fine-Tuning für GPT-4.1 nano freigegeben
Parallel zur Erweiterung um RFT ermöglicht OpenAI nun auch Supervised Fine-Tuning für das Modell GPT-4.1 nano – laut Unternehmen das günstigste und schnellste GPT-4-Modell. Damit lassen sich klassische Anpassungen auf Basis fester Eingabe-Antwort-Paare durchführen.
Organisationen, die ihre Trainingsdaten mit OpenAI teilen, erhalten einen Preisnachlass über 50 Prozent. Die Ergebnisse können über die Standard-API abgerufen und in bestehende Anwendungen eingebunden werden.