Inhalt
summary Zusammenfassung

Der ehemalige OpenAI-Forscher Andrej Karpathy kritisiert, dass das Reinforcement Learning from Human Feedback (RLHF) beim Training von KI-Sprachmodellen nur begrenzt effektiv ist.

Anzeige

RLHF galt als "die geheime Zutat" von ChatGPT: Erst das Training mit menschlichem Feedback ließ den Chatbot so verständnisvoll, folgsam und natürlich erscheinen. RLHF ist für gewöhnlich die letzte Stufe des LLM-Trainings nach dem Pretraining und dem überwachten Finetuning (SFT).

Doch Karpathy sieht RLHF eher als Flaschenhals und Notlösung, da herkömmliches Reinforcement Learning (RL) für LLMs bisher nicht umsetzbar ist.

Karpathy führt als Beispiel Deepminds AlphaGo an, das mit "echtem RL" trainiert wurde: Der Computer spielte Go-Partien und trainierte in Simulation vollständige Spieldurchläufe oder Episoden ("Rollouts"), die die Belohnungsfunktion (das Gewinnen des Spiels) maximierten, bis er die besten menschlichen Go-Spieler übertraf.

Anzeige
Anzeige

Die während der Simulation gesammelten Informationen, wie die getroffenen Entscheidungen und das erzielte Endergebnis, werden dann verwendet, um die Strategie des Modells anzupassen, typischerweise durch Optimierung der Parameter des neuronalen Netzes, um in Zukunft bessere Entscheidungen zu treffen. Auf diese Weise lernt das System, übermenschliche Leistungen ohne menschliches Eingreifen zu erbringen.

"Vibes" statt fester Ziele

Hätte man Alpha Go stattdessen mit RLHF trainiert, würde man menschlichen Bewertern zwei Go-Brettzustände vorlegen und sie fragen, welcher ihnen besser gefällt. Dann würde man etwa 100.000 solcher Vergleiche sammeln und ein "Belohnungsmodell" (RM) trainieren, um diese menschliche "Vibe-Prüfung" des Brettzustands nachzuahmen.

Sobald man über das Belohnungsmodell verfügt, führt man damit Reinforcement Learning aus und lernt, die Züge zu spielen, die zu "guten Vibes" führen. Das hätte laut Karpathy beim Go-Spiel zu einer Reihe Probleme geführt, da die Vibes irreführend sein könnten und keine tatsächliche Belohnung darstellen.

Das für LLMs trainierte Belohnungsmodell sei auf die gleiche Weise nur ein Vibe-Check. Es gebe hohe Bewertungen für die Art von Antworten eines Assistenten, die menschlichen Bewertern statistisch gesehen zu gefallen scheinen.

Es sei kein tatsächliches Ziel, Probleme korrekt zu lösen, sondern ein Proxy-Ziel dessen, was für Menschen gut aussieht. Außerdem könne man RLHF nicht zu lange laufen lassen, da das Modell schnell lernt, auf eine Art und Weise zu antworten, die das Belohnungsmodell ausnutzt.

Empfehlung

In einer geschlossenen, spielähnlichen Umgebung wie Go, in der die Dynamik begrenzt ist und die Belohnungsfunktion leicht zu evaluieren und nicht auszunutzen ist, sei alles einfach. Aber echtes RL für Sprachmodelle in offenen Anwendungsbereichen ist laut Karpathy bisher nicht überzeugend demonstriert worden, da es schwierig ist, klare Erfolgskriterien zu definieren.

"Wie kann man eine objektive Belohnung für die Zusammenfassung eines Artikels vergeben? Oder für die Beantwortung einer etwas zweideutigen Frage zu einem bestimmten Thema? Oder das Erzählen eines Witzes? Oder für das Umschreiben von Java-Code in Python? Das ist nicht grundsätzlich unmöglich, aber auch nicht trivial und erfordert kreatives Denken", schreibt Karpathy.

Wer dieses Problem löse, könne Sprachmodelle entwickeln, die mit Menschen bei der Problemlösung mithalten könnten.

Karpathy ist einer von mehreren hochrangigen KI-Experten, die OpenAI in diesem Jahr verlassen haben. Vor kurzem gründete er sein eigenes Start-up für KI im Bildungsbereich.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Andrej Karpathy, ehemaliger OpenAI Forscher, kritisiert die Effektivität von Reinforcement Learning from Human Feedback (RLHF) beim Training von KI-Sprachmodellen.
  • Er sieht RLHF als Flaschenhals und Notlösung, da traditionelles Reinforcement Learning (RL), also maschinelles Feedback anhand klar definierter Ziele, für LLMs bisher nicht anwendbar ist.
  • Karpathy vergleicht RLHF mit dem Training von Deepminds AlphaGo, das mit "echter RL" trainiert wurde. Bei RLHF würden menschliche Gutachter nach ihren Präferenzen gefragt und ein "Belohnungsmodell" trainiert, das nur ein "Vibe-Check" und kein echtes Ziel sei.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!