Inhalt
summary Zusammenfassung

„Wir haben gezeigt, dass, obwohl sich mit Standardtechniken des überwachten Lernens und des Reinforcement Learning adäquate Ergebnisse erzielen lassen, die Lücke zwischen Agenten und Menschen groß bleibt und zusätzliche Fortschritte in der Modellierung willkommen sind.“

Anzeige

Mit diesem ernüchternden Fazit endet das OpenAI-Forschungspapier „World of Bits” aus dem Jahr 2017, das für eine langjährige Vision des Unternehmens steht, die nun mit dem neuen ChatGPT-Agenten langsam Realität wird. Dass diese Vision nie aufgegeben wurde, bestätigt Casey Chu vom Entwicklerteam in einem aktuellen Interview: „Dieses Projekt hat eine sehr lange Ahnenreihe, die bis etwa 2017 zurückreicht. Eigentlich lautet unser Codename ‚World of Bits 2‘ für diesen Teil der Computernutzung.“ Bereits 2016 veröffentlichte OpenAI einen Blog-Post zur damit verknüpften Trainingsumgebung "Universe".

Die Methodik zur Überbrückung dieser „großen Lücke” hat sich jedoch fundamental gewandelt. Der entscheidende Unterschied liegt im Ausgangspunkt: Der neue Agent startet nicht mehr bei Null, sondern baut auf einem massiven, unüberwacht vortrainierten Foundation-Modell auf. Eine hohe Grundkompetenz ist die Voraussetzung für alles Weitere. „Bevor wir RL machen, muss das Modell gut genug sein, um grundlegende Aufgaben erledigen zu können“, betont Issa Fulford.

Reinforcement Learning ist laut OpenAI sehr dateneffizient

Auf dieser robusten Grundlage erfolgt die entscheidende Feinabstimmung durch Reinforcement Learning (RL), ein Verfahren, das laut OpenAI sehr dateneffizient ist: „Der Umfang der Daten ist im Vergleich zu den Pre-Training-Daten winzig. Wir sind also in der Lage, dem Modell neue Fähigkeiten beizubringen, indem wir diese viel kleineren, qualitativ hochwertigen Datensätze kuratieren“, erklärt Fulford. Die Datensätze sind eine dynamische Sammlung anspruchsvoller, zielgerichteter Aufgaben. Zunächst definiert das Team, was der Agent können soll, und entwirft dann gezielte Trainingsszenarien. „Wir gehen rückwärts von den Anwendungsfällen aus, die wir lösen wollen, um das Modell zu trainieren und das Produkt zu entwickeln”, so Fulford.

Anzeige
Anzeige

Im konkreten Training wird der Agent dann mit diesen Aufgaben konfrontiert und muss selbst eine Lösung finden. Casey Chu beschreibt den Prozess bildhaft: „Wir geben dem Modell im Wesentlichen all diese Werkzeuge und sperren es dann in einen Raum. Dann experimentiert es.“ Wir sagen ihm nicht, wann er welches Werkzeug benutzen soll. Das findet es von selbst heraus.“ Der Schlüsselmechanismus, der dieses experimentelle Lernen steuert, ist eine einfache, aber effektive Belohnung, die auf der Bewertung des Endergebnisses basiert. Edward Sun erklärt das Prinzip wie folgt: „Solange man diese Aufgabe benoten kann, also nachdem das Modell ein Ergebnis geliefert hat, kann man beurteilen, ob die Leistung des Modells gut war oder nicht. Auf dieser Grundlage kann man das Modell zuverlässig darauf trainieren, bei dieser Aufgabe noch besser zu werden.“

Massive Skalierung der Rechenleistung

Dieser Ansatz, bei dem nur eine finale Bewertung des Ergebnisses erforderlich ist, ist fundamental effizienter als das Sammeln tausender menschlicher Demonstrationen, bei denen jeder einzelne Klick und Tastendruck vorgegeben wird. Er ermöglicht es OpenAI, auf hunderttausenden virtuellen Maschinen gleichzeitig Agenten zu trainieren, die selbstständig die optimalen Lösungswege für komplexe Probleme entdecken.

Die „zusätzlichen Fortschritte”, die das Paper von 2017 forderte, wurden also nicht durch einen einzelnen neuen Algorithmus erzielt. Sie manifestierten sich in der Skalierung auf allen Ebenen. „Im Wesentlichen hat sich der Umfang des Trainings geändert”, fasst Casey Chu zusammen. „Ich kenne den genauen Faktor nicht, aber es müssen 100.000-fach oder so sein, was die Rechenleistung angeht.”

Für kritische Aufgaben sollte der Agent vorerst aber weiter nicht eingesetzt werden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI verfolgt seit 2017 die Vision, einen vielseitigen KI-Agenten zu entwickeln. Der aktuelle ChatGPT-Agent basiert auf dieser langjährigen Arbeit und baut auf einem großen, unüberwacht vortrainierten Modell auf, das als Basis für alle weiteren Schritte dient.
  • Die Feinabstimmung des Agenten erfolgt durch Reinforcement Learning mit kleinen, gezielt zusammengestellten Datensätzen. Das Modell wird dazu gebracht, eigenständig Lösungen für anspruchsvolle Aufgaben zu finden, wobei es für gute Ergebnisse belohnt wird.
  • Statt auf viele menschliche Demonstrationen zu setzen, nutzt OpenAI massive Rechenressourcen, um Agenten auf hunderttausenden virtuellen Maschinen parallel zu trainieren. Der Fortschritt beruht vor allem auf der enormen Skalierung des Trainingsumfangs, nicht auf einem einzelnen neuen Algorithmus.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!