Der ehemalige Tesla- und OpenAI-Forscher Andrej Karpathy gehört zu einer wachsenden Gruppe von KI-Experten, die grundlegende neue Ansätze für die Weiterentwicklung großer Sprachmodelle (LLMs) und genereller KI-Systeme fordern.
Auf der Plattform X äußert sich Karpathy langfristig skeptisch gegenüber dem derzeit populären Reinforcement Learning (RL): Belohnungsfunktionen seien "super sus" – also unzuverlässig und leicht zu manipulieren – und eigneten sich nicht für das Lernen intelligenter Problemlösungen.
Das ist insofern brisant, als aktuelle "Reasoning"-Modelle im Training stark auf Reinforcement Learning setzen und Unternehmen wie OpenAI davon ausgehen, dass dieser Ansatz skalierbar ist und sich gut auf neue Aufgaben übertragen lässt.
Reinforcement Learning wird beim LLM-Training eingesetzt, um Sprachmodelle dazu zu bringen, beim Lösen von Aufgaben mehrere logische Zwischenschritte zu machen und ihre Denkweise verständlich zu zeigen. Das Modell bekommt positives Feedback, wenn es Aufgaben in nachvollziehbaren Einzelschritten richtig löst.
Trotz seiner grundsätzlichen Kritik am Reinforcement Learning hält Karpathy RL-Finetuning aktuell für ein sinnvolles Upgrade gegenüber dem traditionellen Supervised Finetuning (SFT), also dem einfachen Imitieren menschlicher Beispielantworten. Es biete gegenüber reinem Experten-Imitationslernen klare Vorteile und ermögliche differenzierteres Verhalten von Sprachmodellen.
Karpathy sieht weiterhin Potenzial für "substanziellen Fortschritt" – betont jedoch, dass es langfristig grundlegend andere Lernmechanismen benötigt, um echte Problemlösefähigkeiten zu entwickeln. Menschen nutzten weitaus leistungsfähigere und effizientere Lernparadigmen, die "bisher nicht richtig erfunden und skaliert wurden". Diese Haltung rückt ihn in die Nähe von LLM-Skeptikern, die für den nächsten großen Sprung in der KI grundlegend neue Ansätze für notwendig halten.
Als ein vages Beispiel für eine zukünftige Lernmethode nennt er "System Prompt Learning". Hierbei würden Lernprozesse auf der Ebene von Tokens und Kontexten stattfinden, nicht durch die Anpassung von Modellgewichten. Ein Prozess, der seiner Ansicht nach dem menschlichen Schlaf ähneln könnte – also einer Phase, in der Informationen konsolidiert und in dauerhafte Strukturen überführt werden.
Lernen aus Erfahrung: Environments als neues LLM-Trainingsparadigma
Karpathy sieht das nächste große Paradigma für LLMs in sogenannten Environments: interaktiven Übungsumgebungen, in denen Sprachmodelle Handlungen ausführen und deren Konsequenzen erleben können. Während die Pretraining-Phase auf Internettext basierte und das Finetuning mit Frage-Antwort-Daten arbeitete, ermögliche das Training in Environments erstmals echtes Feedback durch Handlung.
Statt nur statistisch zu erraten, wie ein Mensch antworten würde, könnten LLMs in kontrollierten Szenarien lernen, Entscheidungen zu treffen und ihre Wirksamkeit zu überprüfen. Solche Environments lassen sich laut Karpathy sowohl für das Training als auch für die Evaluation von LLMs verwenden. Die Herausforderung bestehe nun darin, eine große, diverse und qualitativ hochwertige Sammlung solcher Umgebungen zu erstellen, vergleichbar mit der Rolle großer Textkorpora in früheren Trainingsphasen.
Im August 2024 beschrieb Karpathy das Reinforcement Learning bei LLMs noch als potenziellen Durchbruch – allerdings schon damals mit der Einschränkung, dass es echte, objektiv bewertbare Belohnungsfunktionen erfordere. In seinem Beitrag kritisierte er das bis dato gängige Verfahren Reinforcement Learning from Human Feedback (RLHF) als unzureichend, da es lediglich auf menschlichen Präferenzen basiere; ein "Vibe-Check", kein echtes Ziel. Für die Lösung komplexer Probleme brauche es jedoch klar definierte Erfolgskriterien. Offenbar sieht Karpathy dieses Problem trotz der vermeintlichen Fortschritte bei Reasoning-Modellen nicht als gelöst an.
Karpathys Aussagen ähneln in zentralen Punkten dem Paradigmenwechsel, den die Deepmind-KI-Forscher Richard Sutton und David Silver in ihrem Aufsatz "Welcome to the Era of Experience" fordern: Beide betonen, dass die nächste Generation leistungsfähiger KI-Systeme nicht mehr allein auf der Nachahmung menschlicher Sprache oder Bewertungen beruhen kann. Stattdessen sollen KI-Modelle durch eigenständiges Handeln, Beobachten und Lernen aus direkter Erfahrung zu robusteren, kreativeren und langfristig anpassungsfähigeren Systemen werden.