Auch der Turing-Preisträger Richard Sutton kritisiert den aktuellen Zustand der KI-Industrie. Seine eigene Vision für superintelligente KI-Systeme ist jedoch noch nicht umsetzbar.
Richard Sutton, einer der Pioniere des Reinforcement Learning, sieht die aktuelle KI-Industrie auf Abwegen: Seit KI zu einer riesigen Industrie geworden sei, habe sie "in gewissem Maße ihren Weg verloren", schreibt Sutton.
Sutton fordert eine Rückbesinnung auf grundlegende Prinzipien intelligenter Systeme: "Was braucht es, um uns wieder auf den Weg zu echter Intelligenz zu bringen? Wir benötigen Agenten, die kontinuierlich lernen. Wir benötigen Weltmodelle und Planung. Wir benötigen Wissen, das abstrakt und lernbar ist. Wir müssen lernen, wie man generalisiert – durch Meta-Lernen."
Damit reiht sich der für Google Deepmind aktive KI-Forscher in die Liste prominenter Namen ein, die die Entwicklung der KI-Branche in Richtung reiner Sprachmodell-Skalierung zuletzt kritisiert haben. Sutton veröffentlichte kürzlich gemeinsam mit dem Deepmind-Kollegen David Silver ein Papier, das beschreibt, wie KI-Modelle aus Erfahrung statt nur aus Text lernen sollen.
Suttons Kritik an Sprachmodell-Skalierung
Sutton argumentiert, dass wahre Intelligenz fast ausschließlich aus der Laufzeiterfahrung ("Runtime") entstehen muss, also durch kontinuierliche Interaktion mit einer unbekannten Welt. Heutige Modelle seien das genaue Gegenteil: Ihr Wissen wird zur Entwicklungszeit ("Design Time") in sie einprogrammiert, anstatt zur Laufzeit entdeckt zu werden.
Er kritisiert diesen Ansatz, Wissen fest in Modelle zu integrieren. Hier verweist er auf seine berühmte "Bitter Lesson": Nicht menschlich vordefiniertes Wissen, sondern allgemeine Methoden, die mit Rechenleistung und Daten skalieren (wie Suche und Lernen), setzen sich langfristig durch.
Konkret bemängelt er, dass heutigen Systemen die Fähigkeit zum kontinuierlichen Lernen fehlt: Beim Erwerben neuer Informationen überschreiben sie häufig altes Wissen (katastrophales Vergessen) und verlieren im Laufe der Zeit zunehmend die Fähigkeit, effizient weiterzulernen (Verlust der Plastizität).
Wie man laut Sutton Superintelligenz (ASI) erreichen kann
Suttons Vision für den Weg zur Superintelligenz ist seine Oak-Architektur (Options and Knowledge). Dabei handelt es sich um ein Rahmenkonzept, das auf drei zentralen Grundprinzipien aufbaut: Erstens muss der Agent allgemein sein, das heißt, er startet ohne spezifisches Wissen über eine bestimmte Welt.
Zweitens steht die Erfahrungsorientierung im Mittelpunkt: Der Agent lernt ausschließlich aus der direkten Interaktion mit seiner Umgebung, also durch Beobachtungen, Aktionen und Belohnungen.
Drittens gilt die sogenannte Reward Hypothesis: Jedes Ziel lässt sich auf eine einfache Belohnung reduzieren, einen Zahlenwert, den es zu maximieren gilt.
Das Herzstück der Oak-Architektur ist ein sich selbst verstärkender Kreislauf, der den Agenten zu immer höheren Abstraktionen führt. Entscheidend ist dabei die Rückkopplung: Merkmale, die sich bei Planung und Problemlösung als nützlich erweisen, werden zur Grundlage für die nächste, noch abstraktere Generation von Konzepten. So entsteht ein offener Prozess, der nur durch die verfügbare Rechenleistung begrenzt wird und laut Sutton schrittweise den Weg zur Superintelligenz ebnet.
Sutton betont, dass seiner Vision eine entscheidende Voraussetzung fehlt: zuverlässiges, kontinuierliches Deep Learning. Die Oak-Architektur sei erst dann realisierbar, wenn Algorithmen entwickelt werden, die permanent und stabil dazulernen können, ohne dabei zuvor Gelerntes zu verlieren.