OpenAI erweitert sein Modell-Anpassungsprogramm um Reinforcement-Fine-Tuning. Die neue Technik soll o1-Modelle mit wenigen Beispielen auf komplexe Fachaufgaben trainieren können.
OpenAI führt eine neue Trainingsmethode für seine neuen o1 KI-Modelle ein: Reinforcement-Fine-Tuning (RFT). Im Gegensatz zum bisherigen Supervised Fine-Tuning lernt das Modell dabei nicht nur, Stil und Ton von Eingabedaten zu imitieren, sondern kann laut OpenAI auch neue "Denkweisen" entwickeln.
Die Funktionsweise unterscheidet sich deutlich vom bisherigen Ansatz: Das Modell wird mit einem Problem konfrontiert und erhält Zeit für die Lösungsfindung. Die Antwort wird anschließend bewertet - erfolgreiche Denkprozesse werden verstärkt, fehlerhafte abgeschwächt.
Nach Angaben von OpenAI eignet sich RFT besonders für Bereiche wie Recht, Finanzen, Ingenieurwesen und Versicherung, die tiefes Fachwissen erfordern. Als Beispiel nennt die Firma eine Zusammenarbeit mit Thomson Reuters, bei der das kompakte Modell 01 Mini zum juristischen Assistenten trainiert wurde.
Reinforcement Learning für Expertensysteme
Ein weiterer Anwendungsfall kommt aus der Genforschung: Justin Ree, Bioinformatiker am Berkeley Lab, nutzte RFT für die Analyse seltener genetischer Krankheiten. Dafür extrahierte er Daten aus Hunderten wissenschaftlichen Publikationen, darunter Symptome und verantwortliche Gene.
Das mit RFT trainierte 01 Mini übertraf laut Ree die Leistung des Standard-01-Modells bei dieser Aufgabe - trotz geringerer Größe und niedrigerer Kosten. Besonders wertvoll sei die Fähigkeit des Modells, seine Vorhersagen zu begründen.
Alpha-Programm für interessierte Nutzer
OpenAI bietet interessierten Organisationen die Möglichkeit, am Reinforcement Fine-Tuning Research Program teilzunehmen. Das Programm richtet sich an Organisationen, die an komplexen Aufgaben arbeiten und von KI-Unterstützung profitieren könnten.
Teilnehmer erhalten Zugang zur RFT API und können Feedback geben, um die API vor der öffentlichen Veröffentlichung zu verbessern. RFT soll Anfang 2025 allgemein verfügbar sein.