OpenAI erweitert Fine-Tuning-Methoden für KI-Modelle o4-mini und GPT-4.1

GPT-Image-1 prompted by THE DECODER

OpenAI führt Reinforcement Fine-Tuning (RFT) für Organisationen ein. Die Methode soll KI-Modelle wie o4-mini präziser auf spezifische Aufgaben abstimmen – mit Hilfe eines programmierbaren Bewertungssystems.

Ziel beim RFT ist es, Sprachmodelle gezielt für spezialisierte Aufgabenbereiche zu optimieren, etwa in Recht, Finanzen oder Sicherheit. OpenAI setzt dabei auf ein Bewertungssystem, das es erlaubt, Modelle auch entlang nuancierter Zielvorgaben wie Stil, Genauigkeit oder Sicherheit zu trainieren.

Im Unterschied zum bekannten Supervised Fine-Tuning basiert RFT nicht auf festen "richtigen" Antworten, sondern auf einem programmierbaren "Grader", der jede Modellantwort mit einem numerischen Score bewertet. Mehrere Grader können kombiniert werden.

Das Modell lernt so, bevorzugt Antworten mit hoher Bewertung zu generieren. Die Trainingsmethode greift dabei auf Prinzipien der Bestärkenden Lernverfahren zurück, der Ansatz, der auch hinter OpenAIs Reasoning-Modellen wie o3 steckt.

Feinabstimmung über Grader, Checkpoints und strukturierte Ausgaben

Der RFT-Prozess lässt sich in fünf Schritte gliedern: Zunächst wird ein Grader definiert, der Kriterien für gute Antworten festlegt. Danach werden Trainings- und Validierungsdaten hochgeladen und der Fine-Tuning-Job gestartet. Während des Trainings erzeugt das Modell mehrere Antwortvorschläge pro Eingabe, die vom Grader bewertet werden. Ein Policy-Gradient-Verfahren passt die Modellgewichte entsprechend an.

OpenAI demonstriert die Methode anhand eines Anwendungsfalls im Bereich Sicherheit: Ein Modell soll Fragen zur internen Sicherheitspolitik eines Unternehmens beantworten – in Form eines JSON-Objekts mit den Feldern "compliant" (ja, nein, oder "needs review") und "explanation". Bewertet wird sowohl die formale Übereinstimmung als auch die Qualität der Erläuterung. Die Trainingsdaten müssen im JSONL-Format vorliegen und die gewünschten strukturierten Ausgaben als Referenz enthalten.

Während des Trainings misst OpenAI unter anderem die mittlere Belohnung für Trainings- und Validierungsdaten. Checkpoints mit hohem Bewertungsscore lassen sich separat testen und bei Bedarf wieder aufnehmen. Die Trainingsjobs sind vollständig in OpenAIs Evaluierungstools integriert.

Video: OpenAI

OpenAI hatte RFT bereits im Dezember 2024 Rahmen eines Forschungsprogramms als experimentelle Trainingsmethode vorgestellt. Erste Tests zeigten laut OpenAI vielversprechende Ergebnisse in spezialisierten Anwendungen. OpenAI-Forscher Rohan Pandey sieht im RFT-Paradigma eine Chance für vertikale Start-ups, die mit seltenen Daten spezialisierte Agenten trainieren.

Empfehlung

KI in der Praxis

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Auch Supervised Fine-Tuning für GPT-4.1 nano freigegeben

Parallel zur Erweiterung um RFT ermöglicht OpenAI nun auch Supervised Fine-Tuning für das Modell GPT-4.1 nano – laut Unternehmen das günstigste und schnellste GPT-4-Modell. Damit lassen sich klassische Anpassungen auf Basis fester Eingabe-Antwort-Paare durchführen.

Organisationen, die ihre Trainingsdaten mit OpenAI teilen, erhalten einen Preisnachlass über 50 Prozent. Die Ergebnisse können über die Standard-API abgerufen und in bestehende Anwendungen eingebunden werden.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

OpenAI erweitert Fine-Tuning-Methoden für KI-Modelle o4-mini und GPT-4.1

Feinabstimmung über Grader, Checkpoints und strukturierte Ausgaben

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Auch Supervised Fine-Tuning für GPT-4.1 nano freigegeben

Sam Altman plant Konkurrenz zu Elon Musks Neuralink mit neuem Gehirn-Implantat-Start-up

OpenAI rudert bei Routing zurück: GPT-5-Modelle jetzt zur direkten Auswahl

OpenAI-KI gewinnt Gold bei Informatik-Olympiade

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

OpenAI erweitert Fine-Tuning-Methoden für KI-Modelle o4-mini und GPT-4.1

Feinabstimmung über Grader, Checkpoints und strukturierte Ausgaben

Auch Supervised Fine-Tuning für GPT-4.1 nano freigegeben

Artikel teilen

Bankverbindung