OpenAI stellt neue Finetuning-Methode für individuelle Experten-KI-Modelle vor

OpenAI erweitert sein Modell-Anpassungsprogramm um Reinforcement-Fine-Tuning. Die neue Technik soll o1-Modelle mit wenigen Beispielen auf komplexe Fachaufgaben trainieren können.

OpenAI führt eine neue Trainingsmethode für seine neuen o1-KI-Modelle ein: Reinforcement-Fine-Tuning (RFT). Im Gegensatz zum bisherigen Supervised Fine-Tuning lernt das Modell dabei nicht nur, Stil und Ton von Eingabedaten zu imitieren, sondern kann laut OpenAI auch neue "Denkweisen" entwickeln.

Die Funktionsweise unterscheidet sich deutlich vom bisherigen Ansatz: Das Modell wird mit einem Problem konfrontiert und erhält Zeit für die Lösungsfindung. Die Antwort wird anschließend bewertet - erfolgreiche Denkprozesse werden verstärkt, fehlerhafte abgeschwächt.

Beispiel für medizinisches RFT-Training: Fallbeschreibung, Anweisungen und korrekte Antwort (Gen FOXE3). — Ein Beispiel für Reinforcement Fine-Tuning im medizinischen Bereich: Anhand von Symptomen soll das KI-Modell die wahrscheinlichsten genetischen Ursachen ermitteln und seine Antwort begründen. | Bild: OpenAI

Flussdiagramm: FOXE3-Gen und weitere Gene werden durch Grader-System analysiert, Output-Score 0.7 — Das Schema illustriert die Bewertung der richtigen Antwort (FOXE3) durch einen Grader-Algorithmus. Durch die Bewertung soll der "Denk"prozess zur richtigen Antwort verstärkt werden. | Bild: OpenAI

Nach Angaben von OpenAI eignet sich RFT besonders für Bereiche wie Recht, Finanzen, Ingenieurwesen und Versicherung, die tiefes Fachwissen erfordern. Als Beispiel nennt die Firma eine Zusammenarbeit mit Thomson Reuters, bei der das kompakte Modell o1-mini zum juristischen Assistenten trainiert wurde.

Reinforcement Learning für Expertensysteme

Ein weiterer Anwendungsfall kommt aus der Genforschung: Justin Ree, Bioinformatiker am Berkeley Lab, nutzte RFT für die Analyse seltener genetischer Krankheiten. Dafür extrahierte er Daten aus Hunderten wissenschaftlichen Publikationen, darunter Symptome und verantwortliche Gene.

Das mit RFT trainierte o1-mini übertraf laut Ree die Leistung des Standard-o1-Modells bei dieser Aufgabe - trotz geringerer Größe und niedrigerer Kosten. Besonders wertvoll sei die Fähigkeit des Modells, seine Vorhersagen zu begründen.

Liniendiagramm: Vergleich der Genidentifizierungsgenauigkeit für drei Modellvarianten über verschiedene Metriken — Das feinabgestimmte Mini-Modell (o1-mini finetune) erreicht die höchste Präzision bei der Genidentifizierung mit bis zu 45 Prozent bei maximaler Reichweite. | Bild: OpenAI

Alpha-Programm für interessierte Nutzer

OpenAI bietet interessierten Organisationen die Möglichkeit, am Reinforcement Fine-Tuning Research Program teilzunehmen. Das Programm richtet sich an Organisationen, die an komplexen Aufgaben arbeiten und von KI-Unterstützung profitieren könnten.

Teilnehmer erhalten Zugang zur RFT-API und können Feedback geben, um die API vor der öffentlichen Veröffentlichung zu verbessern. RFT soll Anfang 2025 allgemein verfügbar sein.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

OpenAI stellt neue Finetuning-Methode für individuelle Experten-KI-Modelle vor

Reinforcement Learning für Expertensysteme

Alpha-Programm für interessierte Nutzer

ChatGPT-Macher OpenAI meldet Rekordumsatz von einer Milliarde Dollar

OpenAI-CEO Sam Altman spricht schon über GPT-6

Bekannter KI-Forscher Stuart Russell warnt: KI‑Hype könnte abrupt kollabieren

Deepseek stellt neues Hybrid-KI-Modell V3.1 vor

Metas KI-Chatbot lädt Senior zu fiktivem Treffen ein – mit tödlichem Ausgang

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

OpenAI stellt neue Finetuning-Methode für individuelle Experten-KI-Modelle vor

Reinforcement Learning für Expertensysteme

Alpha-Programm für interessierte Nutzer

ChatGPT-Macher OpenAI meldet Rekordumsatz von einer Milliarde Dollar

OpenAI-CEO Sam Altman spricht schon über GPT-6

Bekannter KI-Forscher Stuart Russell warnt: KI‑Hype könnte abrupt kollabieren