Der frühere OpenAI- und Tesla-Forscher Andrej Karpathy sieht agentenbasierte KI-Systeme und große Sprachmodelle derzeit am Limit. Fortschritte brauche es insbesondere bei Gedächtnis, Multimodalität und Trainingsdaten.
Der KI-Forscher Andrej Karpathy sieht die aktuelle Euphorie um sogenannte Agenten-KI als verfrüht. In einem Gespräch mit dem Podcaster Dwarkesh Patel betont Karpathy, dass nicht von einem "Jahr der Agenten", sondern realistischer von einem "Jahrzehnt der Agenten" gesprochen werden sollte.
"Sie funktionieren einfach nicht"
Zwar erkennt Karpathy erste Fortschritte bei nützlichen Anwendungen wie Codex oder Claude Code, doch seien diese Systeme weit davon entfernt, wie menschliche Praktikanten oder Mitarbeitende zu agieren; ein Ziel, das viele KI-Labore derzeit verfolgen.
Die Defizite beschreibt er als tiefgreifend: Die Modelle seien kognitiv unzureichend, nicht multimodal genug, verfügten über kein funktionierendes Gedächtnis und könnten komplexe Computeraufgaben nicht zuverlässig ausführen. Sein Fazit: "Sie funktionieren einfach nicht."
Karpathy rechnet mit einem Entwicklungszeitraum von etwa zehn Jahren, bis diese strukturellen Schwächen behoben sind – eine Einschätzung, die er mit seiner Intuition begründet. Gleichzeitig kritisiert er eine übertriebene Erwartung in der Branche: "Es gibt einige überzogene Vorhersagen in der Industrie."
Karpathy reiht sich in eine wachsende Gruppe von Kritikern ein, die große Sprachmodelle zwar meist für nützlich, aber technisch begrenzt und langfristig unzureichend halten.
Autocomplete statt Agentenintelligenz
Auch fortgeschrittene Modelle wie GPT-5 Pro seien laut Karpathy derzeit eher punktuell hilfreich – etwa als "Orakel", dem man eine Codebasis zur Analyse übergeben könne. Die Resultate seien "oft nicht allzu schlecht und überraschend gut im Vergleich zu dem, was vor einem Jahr existierte".
Doch für eine echte Integration in Softwareprojekte reiche das nicht aus: Die Modelle scheiterten regelmäßig an den spezifischen Stilen, Abhängigkeiten und Annahmen von Code-Repositories.
"Insgesamt sind die Modelle nicht soweit", resümiert Karpathy. Für ihn liegt der praktische Nutzen derzeit vor allem bei einfachen Vervollständigungsaufgaben: "Autocomplete ist mein Sweet Spot."
Dennoch vermittele die Industrie ein anderes Bild: "Die Industrie tut so, als wäre das alles schon großartig – aber das ist es nicht. Es ist Slop."
"Das Internet ist wirklich schrecklich"
Ein zentrales Problem sieht Karpathy in der Qualität der Trainingsdaten. Die heutigen Sprachmodelle würden fast ausschließlich mit Daten aus dem Internet trainiert – und die seien, so Karpathy, inhaltlich unbrauchbar.
"Das Internet ist wirklich schrecklich", sagt er. Statt hochwertigem Journalismus wie dem Wall Street Journal bestehe der Großteil des Materials aus Fragmenten, Symbolen und Datenmüll. "Es ist totaler Müll. Ich weiß nicht einmal, wie das überhaupt funktioniert."
Der Großteil der Modellleistung bestehe daher aus reiner Speicherarbeit, nicht aus kognitiver Verarbeitung. Karpathy schlägt vor, künftig intelligente Modelle zur Kuratierung der Trainingsdaten einzusetzen – also irrelevante Inhalte herauszufiltern und nur kognitiv sinnvolle Informationen zu behalten. Das Ziel: kleinere, effizientere Modelle, die nicht auf Rohdaten, sondern auf verdichteten, relevanten Inhalten basieren.
Interessant ist dabei, dass Karpathy den Erstellern hochwertiger Inhalte ausdrücklich den Steigbügel hält und mit dem Wall Street Journal ein konkretes Beispiel nennt. Damit stellt er sich implizit gegen die verbreitete Praxis, Modelle wahllos mit beliebigen Internetinhalten zu trainieren.
Seine Aussagen deuten auf ein mögliches Umdenken hin: In der Debatte um Fair Use und Urheberrecht könnte künftig nicht nur die Rechtmäßigkeit, sondern auch die Qualität der Inhalte stärker ins Zentrum rücken. Wenn kognitiv leistungsfähige Modelle auf gut kuratierten, professionell erstellten Datensätzen angewiesen sind, steigt auch der Druck, Inhalteanbieter wie Verlage angemessen zu vergüten – und nicht bloß intransparente Massendaten aus dem Netz zu extrahieren.
Fortschritt ohne Durchbruch
Karpathy geht nicht davon aus, dass es in der KI-Entwicklung einen einzelnen, alles verändernden Durchbruch geben wird. Stattdessen sieht er den Fortschritt als Ergebnis vieler kleiner, koordinierter Verbesserungen: bessere Trainingsdaten, leistungsfähigere Architekturen, optimierte Lernverfahren und schnellere Hardware. Die Entwicklung verlaufe evolutionär, nicht revolutionär – auch in Bezug auf agentenbasierte KI. In dieser Sichtweise sind heutige Systeme lediglich frühe Vorstufen, die sich über Jahre hinweg zu wirklich nützlichen digitalen Assistenten entwickeln könnten.
Bereits Ende August hatte Karpathy sich kritisch zum Potenzial von Reinforcement Learning geäußert – der Technologie, mit der viele Labs versuchen, Sprachmodelle durch Belohnungsfunktionen zu optimieren, sogenannte Large Reasoning Models. Diese seien laut Karpathy jedoch zu unzuverlässig und manipulierbar, um komplexes Reasoning zu ermöglichen.
Dennoch sieht er in RL eine Verbesserung gegenüber dem reinen Imitationslernen. Langfristig fordert er jedoch ein neues Paradigma: Sprachmodelle sollen durch Interaktion und eigene Erfahrung in Umgebungen lernen – nicht durch das bloße Nachahmen menschlicher Sprache. Damit positioniert sich Karpathy inhaltlich nahe an Deepmind-Forschern wie Richard Sutton und David Silver, die ähnliche Forderungen erheben.