Turing-Preisträger Richard Sutton: KI-Industrie hat "ihren Weg verloren"

20. August 2025

Sora prompted by THE DECODER

Kurz & Knapp

Richard Sutton, Turing-Preisträger und Pionier des Reinforcement Learning, kritisiert die Entwicklung der KI-Industrie hin zu immer größeren Sprachmodellen und fordert eine Rückbesinnung auf kontinuierliches Lernen, Weltmodelle und abstraktes, generalisierbares Wissen.
Sutton bemängelt, dass heutige KI-Systeme Wissen zur Entwicklungszeit integrieren und dadurch nicht in der Lage sind, dauerhaft neues Wissen zu erwerben, ohne altes zu verlieren – ein Problem, das auch als katastrophales Vergessen bekannt ist.
Seine Oak-Architektur setzt auf Agenten, die nur durch Interaktion mit ihrer Umgebung lernen und deren Zielerreichung sich vollständig über Belohnungssignale steuern lässt; sie sei jedoch erst umsetzbar, wenn KI-Algorithmen zuverlässig und ohne Wissensverlust kontinuierlich lernen können.

Auch der Turing-Preisträger Richard Sutton kritisiert den aktuellen Zustand der KI-Industrie. Seine eigene Vision für superintelligente KI-Systeme ist jedoch noch nicht umsetzbar.

Richard Sutton, einer der Pioniere des Reinforcement Learning, sieht die aktuelle KI-Industrie auf Abwegen: Seit KI zu einer riesigen Industrie geworden sei, habe sie "in gewissem Maße ihren Weg verloren", schreibt Sutton.

Sutton fordert eine Rückbesinnung auf grundlegende Prinzipien intelligenter Systeme: "Was braucht es, um uns wieder auf den Weg zu echter Intelligenz zu bringen? Wir benötigen Agenten, die kontinuierlich lernen. Wir benötigen Weltmodelle und Planung. Wir benötigen Wissen, das abstrakt und lernbar ist. Wir müssen lernen, wie man generalisiert – durch Meta-Lernen."

Damit reiht sich der für Google Deepmind aktive KI-Forscher in die Liste prominenter Namen ein, die die Entwicklung der KI-Branche in Richtung reiner Sprachmodell-Skalierung zuletzt kritisiert haben. Sutton veröffentlichte kürzlich gemeinsam mit dem Deepmind-Kollegen David Silver ein Papier, das beschreibt, wie KI-Modelle aus Erfahrung statt nur aus Text lernen sollen.

Suttons Kritik an Sprachmodell-Skalierung

Sutton argumentiert, dass wahre Intelligenz fast ausschließlich aus der Laufzeiterfahrung ("Runtime") entstehen muss, also durch kontinuierliche Interaktion mit einer unbekannten Welt. Heutige Modelle seien das genaue Gegenteil: Ihr Wissen wird zur Entwicklungszeit ("Design Time") in sie einprogrammiert, anstatt zur Laufzeit entdeckt zu werden.

Er kritisiert diesen Ansatz, Wissen fest in Modelle zu integrieren. Hier verweist er auf seine berühmte "Bitter Lesson": Nicht menschlich vordefiniertes Wissen, sondern allgemeine Methoden, die mit Rechenleistung und Daten skalieren (wie Suche und Lernen), setzen sich langfristig durch.

Konkret bemängelt er, dass heutigen Systemen die Fähigkeit zum kontinuierlichen Lernen fehlt: Beim Erwerben neuer Informationen überschreiben sie häufig altes Wissen (katastrophales Vergessen) und verlieren im Laufe der Zeit zunehmend die Fähigkeit, effizient weiterzulernen (Verlust der Plastizität).

Wie man laut Sutton Superintelligenz (ASI) erreichen kann

Suttons Vision für den Weg zur Superintelligenz ist seine Oak-Architektur (Options and Knowledge). Dabei handelt es sich um ein Rahmenkonzept, das auf drei zentralen Grundprinzipien aufbaut: Erstens muss der Agent allgemein sein, das heißt, er startet ohne spezifisches Wissen über eine bestimmte Welt.

Zweitens steht die Erfahrungsorientierung im Mittelpunkt: Der Agent lernt ausschließlich aus der direkten Interaktion mit seiner Umgebung, also durch Beobachtungen, Aktionen und Belohnungen.

Drittens gilt die sogenannte Reward Hypothesis: Jedes Ziel lässt sich auf eine einfache Belohnung reduzieren, einen Zahlenwert, den es zu maximieren gilt.

Das Herzstück der Oak-Architektur ist ein sich selbst verstärkender Kreislauf, der den Agenten zu immer höheren Abstraktionen führt. Entscheidend ist dabei die Rückkopplung: Merkmale, die sich bei Planung und Problemlösung als nützlich erweisen, werden zur Grundlage für die nächste, noch abstraktere Generation von Konzepten. So entsteht ein offener Prozess, der nur durch die verfügbare Rechenleistung begrenzt wird und laut Sutton schrittweise den Weg zur Superintelligenz ebnet.

Sutton betont, dass seiner Vision eine entscheidende Voraussetzung fehlt: zuverlässiges, kontinuierliches Deep Learning. Die Oak-Architektur sei erst dann realisierbar, wenn Algorithmen entwickelt werden, die permanent und stabil dazulernen können, ohne dabei zuvor Gelerntes zu verlieren.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: YouTube | Sutton via X