Inhalt
summary Zusammenfassung

OpenAI erweitert sein Modell-Anpassungsprogramm um Reinforcement-Fine-Tuning. Die neue Technik soll o1-Modelle mit wenigen Beispielen auf komplexe Fachaufgaben trainieren können.

Anzeige

OpenAI führt eine neue Trainingsmethode für seine neuen o1-KI-Modelle ein: Reinforcement-Fine-Tuning (RFT). Im Gegensatz zum bisherigen Supervised Fine-Tuning lernt das Modell dabei nicht nur, Stil und Ton von Eingabedaten zu imitieren, sondern kann laut OpenAI auch neue "Denkweisen" entwickeln.

Die Funktionsweise unterscheidet sich deutlich vom bisherigen Ansatz: Das Modell wird mit einem Problem konfrontiert und erhält Zeit für die Lösungsfindung. Die Antwort wird anschließend bewertet - erfolgreiche Denkprozesse werden verstärkt, fehlerhafte abgeschwächt.

Beispiel für medizinisches RFT-Training: Fallbeschreibung, Anweisungen und korrekte Antwort (Gen FOXE3).
Ein Beispiel für Reinforcement Fine-Tuning im medizinischen Bereich: Anhand von Symptomen soll das KI-Modell die wahrscheinlichsten genetischen Ursachen ermitteln und seine Antwort begründen. | Bild: OpenAI
Flussdiagramm: FOXE3-Gen und weitere Gene werden durch Grader-System analysiert, Output-Score 0.7
Das Schema illustriert die Bewertung der richtigen Antwort (FOXE3) durch einen Grader-Algorithmus. Durch die Bewertung soll der "Denk"prozess zur richtigen Antwort verstärkt werden. | Bild: OpenAI

Nach Angaben von OpenAI eignet sich RFT besonders für Bereiche wie Recht, Finanzen, Ingenieurwesen und Versicherung, die tiefes Fachwissen erfordern. Als Beispiel nennt die Firma eine Zusammenarbeit mit Thomson Reuters, bei der das kompakte Modell o1-mini zum juristischen Assistenten trainiert wurde.

Anzeige
Anzeige

Reinforcement Learning für Expertensysteme

Ein weiterer Anwendungsfall kommt aus der Genforschung: Justin Ree, Bioinformatiker am Berkeley Lab, nutzte RFT für die Analyse seltener genetischer Krankheiten. Dafür extrahierte er Daten aus Hunderten wissenschaftlichen Publikationen, darunter Symptome und verantwortliche Gene.

Das mit RFT trainierte o1-mini übertraf laut Ree die Leistung des Standard-o1-Modells bei dieser Aufgabe - trotz geringerer Größe und niedrigerer Kosten. Besonders wertvoll sei die Fähigkeit des Modells, seine Vorhersagen zu begründen.

Liniendiagramm: Vergleich der Genidentifizierungsgenauigkeit für drei Modellvarianten über verschiedene Metriken
Das feinabgestimmte Mini-Modell (o1-mini finetune) erreicht die höchste Präzision bei der Genidentifizierung mit bis zu 45 Prozent bei maximaler Reichweite. | Bild: OpenAI

Alpha-Programm für interessierte Nutzer

OpenAI bietet interessierten Organisationen die Möglichkeit, am Reinforcement Fine-Tuning Research Program teilzunehmen. Das Programm richtet sich an Organisationen, die an komplexen Aufgaben arbeiten und von KI-Unterstützung profitieren könnten.

Teilnehmer erhalten Zugang zur RFT-API und können Feedback geben, um die API vor der öffentlichen Veröffentlichung zu verbessern. RFT soll Anfang 2025 allgemein verfügbar sein.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI führt Reinforcement-Fine-Tuning (RFT) als neue Trainingsmethode für seine o1 KI-Modelle ein. Im Gegensatz zum bisherigen Supervised Fine-Tuning lernt das Modell dabei nicht nur Stil und Ton zu imitieren, sondern soll für die Aufgabe relevante, korrekte Lösungswege lernen.
  • Bei RFT wird das Modell mit einem Problem konfrontiert, erhält Zeit für die Lösungsfindung und die Antwort wird anschließend bewertet.
  • Erfolgreiche Denkprozesse werden verstärkt, fehlerhafte abgeschwächt. Die Methode eignet sich besonders für Bereiche mit tiefem Fachwissen wie Recht, Finanzen, Ingenieurwesen und Versicherung.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!