Anzeige
Skip to content

OpenAI erweitert Fine-Tuning-Methoden für KI-Modelle o4-mini und GPT-4.1

Image description
GPT-Image-1 prompted by THE DECODER

OpenAI führt Reinforcement Fine-Tuning (RFT) für Organisationen ein. Die Methode soll KI-Modelle wie o4-mini präziser auf spezifische Aufgaben abstimmen – mit Hilfe eines programmierbaren Bewertungssystems.

Ziel beim RFT ist es, Sprachmodelle gezielt für spezialisierte Aufgabenbereiche zu optimieren, etwa in Recht, Finanzen oder Sicherheit. OpenAI setzt dabei auf ein Bewertungssystem, das es erlaubt, Modelle auch entlang nuancierter Zielvorgaben wie Stil, Genauigkeit oder Sicherheit zu trainieren.

Im Unterschied zum bekannten Supervised Fine-Tuning basiert RFT nicht auf festen "richtigen" Antworten, sondern auf einem programmierbaren "Grader", der jede Modellantwort mit einem numerischen Score bewertet. Mehrere Grader können kombiniert werden.

Das Modell lernt so, bevorzugt Antworten mit hoher Bewertung zu generieren. Die Trainingsmethode greift dabei auf Prinzipien der Bestärkenden Lernverfahren zurück, der Ansatz, der auch hinter OpenAIs Reasoning-Modellen wie o3 steckt.

Anzeige
DEC_D_Incontent-1

Feinabstimmung über Grader, Checkpoints und strukturierte Ausgaben

Der RFT-Prozess lässt sich in fünf Schritte gliedern: Zunächst wird ein Grader definiert, der Kriterien für gute Antworten festlegt. Danach werden Trainings- und Validierungsdaten hochgeladen und der Fine-Tuning-Job gestartet. Während des Trainings erzeugt das Modell mehrere Antwortvorschläge pro Eingabe, die vom Grader bewertet werden. Ein Policy-Gradient-Verfahren passt die Modellgewichte entsprechend an.

OpenAI demonstriert die Methode anhand eines Anwendungsfalls im Bereich Sicherheit: Ein Modell soll Fragen zur internen Sicherheitspolitik eines Unternehmens beantworten – in Form eines JSON-Objekts mit den Feldern "compliant" (ja, nein, oder "needs review") und "explanation". Bewertet wird sowohl die formale Übereinstimmung als auch die Qualität der Erläuterung. Die Trainingsdaten müssen im JSONL-Format vorliegen und die gewünschten strukturierten Ausgaben als Referenz enthalten.

Während des Trainings misst OpenAI unter anderem die mittlere Belohnung für Trainings- und Validierungsdaten. Checkpoints mit hohem Bewertungsscore lassen sich separat testen und bei Bedarf wieder aufnehmen. Die Trainingsjobs sind vollständig in OpenAIs Evaluierungstools integriert.

Video: OpenAI

Anzeige
DEC_D_Incontent-2

OpenAI hatte RFT bereits im Dezember 2024 Rahmen eines Forschungsprogramms als experimentelle Trainingsmethode vorgestellt. Erste Tests zeigten laut OpenAI vielversprechende Ergebnisse in spezialisierten Anwendungen. OpenAI-Forscher Rohan Pandey sieht im RFT-Paradigma eine Chance für vertikale Start-ups, die mit seltenen Daten spezialisierte Agenten trainieren.

Auch Supervised Fine-Tuning für GPT-4.1 nano freigegeben

Parallel zur Erweiterung um RFT ermöglicht OpenAI nun auch Supervised Fine-Tuning für das Modell GPT-4.1 nano – laut Unternehmen das günstigste und schnellste GPT-4-Modell. Damit lassen sich klassische Anpassungen auf Basis fester Eingabe-Antwort-Paare durchführen.

Organisationen, die ihre Trainingsdaten mit OpenAI teilen, erhalten einen Preisnachlass über 50 Prozent. Die Ergebnisse können über die Standard-API abgerufen und in bestehende Anwendungen eingebunden werden.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren