Inhalt
summary Zusammenfassung

Die "Bitter Lesson" von Richard Sutton formuliert eine zentrale Lehre der modernen KI-Forschung: Nicht der Einbau menschlichen Wissens, sondern skalierbare Lern- und Suchverfahren bringen langfristig den größten Fortschritt. Eine neue Veröffentlichung von Sutton und David Silver knüpft an diese These an – und entwirft eine weitreichende Vision für KI-Agenten, die sich allein durch Handeln und Feedback weiterentwickeln.

Anzeige

2019 formulierte Richard Sutton in einem kurzen Essay eine der einflussreichsten Einsichten der aktuellen KI-Forschung. Die zentrale These: Der größte Fortschritt in der KI wurde nicht durch menschliche Einsichten erzielt, sondern durch Maschinen, die mit viel Rechenleistung und wenig Vorwissen lernten, sich selbst zu verbessern. Der Mensch, so Sutton, neige dazu, seine Intuition in Algorithmen zu pressen – doch langfristig seien es die systematischen, datengetriebenen Ansätze, die gewännen.

Dieses als "Bitter Lesson" bekannte Prinzip gilt inzwischen als Grundpfeiler des Reinforcement Learnings (verstärkendes Lernen, RL), das etwa hinter der bekannten Brettspiel-KI AlphaGo steckt und auch bei den neuesten Fortschritten sogenannter "Reasoning-Sprachmodellen" zum Einsatz kommt.

Fünf Jahre später erscheint mit "Welcome to the Era of Experience" ein neuer Aufsatz, der diese Idee weiterführt. Sutton – Turing-Preisträger und Leiter des Deepmind-Labors in Alberta – verfasst ihn gemeinsam mit David Silver, seinem ehemaligen Doktoranden und heute führender Reinforcement-Learning-Forscher bei Deepmind.

Anzeige
Anzeige

Gemeinsam fordern sie darin einen Paradigmenwechsel: Weg vom Training mit menschlichem Wissen, hin zu Systemen, die aus eigener Erfahrung lernen – mit dem Ziel, KI-Systeme zu entwickeln, die eigene Erkenntnisse schaffen, statt nur vorhandenes menschliches Wissen zu imitieren.

Erfahrung statt Nachahmung

Laut Silver und Sutton sind die bestehenden generativen KI-Systeme – etwa große Sprachmodelle – stark von menschlichen Daten geprägt. Sie basieren auf Milliarden von Wörtern aus menschlichen Quellen – Bücher, Webseiten, Foren.

Obwohl diese Modelle ein beeindruckendes Spektrum an Aufgaben bewältigen können, stoßen sie doch an Grenzen: Die Menge an qualitativ hochwertigen Daten ist endlich, und viele wissenschaftliche oder technische Durchbrüche liegen jenseits des heutigen menschlichen Wissens. KI-Modelle würden durch Nachahmung zwar kompetent, aber nicht kreativ.

Ein neuer Ansatz sei notwendig: Agenten, die kontinuierlich aus ihren eigenen Handlungen und Beobachtungen lernen. Statt einmalig trainiert zu werden, sollen sie in einem permanenten Strom von Erfahrungen leben und sich über Monate oder Jahre hinweg an ihre Umwelt anpassen – ähnlich wie Menschen oder Tiere. Jeder neue Versuch, jede neue Handlung in einer Umgebung sei eine neue Datenquelle. Erfahrung sei – im Gegensatz zu menschlichen Daten – unerschöpflich.

Die Autoren sehen darin einen grundlegenden Wechsel: von statischen Datensätzen zu dynamischen Interaktionen, von überwachtem Lernen zu selbstbestimmter Exploration. Die zentrale Einheit der Intelligenz sei nicht mehr der Prompt, sondern die Handlung. Ein solcher Durchbruch könnte eine exponentielle Entwicklung von KI-Systemen ermöglichen.

Empfehlung
Kurvendiagramm: Entwicklung des Reinforcement Learning von 2014-2024, drei KI-Epochen mit Meilensteinen wie Atari, AlphaGo, ChatGPT.
Die Entwicklung der KI durchläuft nach Sutton und Silver drei markante Epochen: Simulation, Human Data und Experience. Der Fokus auf Reinforcement Learning schwankt dabei erheblich, mit einem Höhepunkt während der AlphaZero-Ära und einem aktuellen Wiederaufschwung durch AlphaProof. Letztlich soll sich RL als Schlüssel zu übermenschlich leistungsfähiger KI erweisen. | Bild: Sutton, Silver

KI trainieren mit Weltmodellen

Das Paper verbindet klassische Methoden des Reinforcement Learnings mit neuen Konzepten. Dabei verweisen die Autoren auf AlphaProof, ein KI-System, das mit formaler Mathematik trainiert wurde: Nach einer initialen Phase mit menschlichen Beweisen generierte das System mehr als 100 Millionen zusätzliche Beweisschritte durch autonome Interaktion – und erreichte damit ein Leistungsniveau, das bisherige, menschlich trainierte Systeme übertraf.

Diese Prinzipien sollen nun auf reale Umgebungen übertragen werden: Gesundheitsassistenten, die Schlafdaten analysieren und Empfehlungen anpassen; Bildungsagenten, die Lernverläufe über Jahre hinweg verfolgen; oder wissenschaftliche Systeme, die eigene Experimente durchführen.

Entscheidend ist dabei: Die Belohnung der Agenten erfolgt nicht mehr allein durch menschliche Bewertungen, sondern durch messbare Signale aus der Umwelt – etwa Ruhepuls, CO₂-Werte oder Testergebnisse. Auch menschliches Feedback könne als "geerdetes" Signal dienen, wenn es die Konsequenz einer Handlung misst – etwa wie gut ein Kuchen schmeckt, wie erschöpft man nach einem Training ist oder wie stark Kopfschmerzen nach einer Medikamentenempfehlung noch sind.

Beim maschinellen Denken fordern die Autoren einen Bruch mit bisherigen Praktiken. Sprachmodelle imitieren menschliche Denkprozesse, etwa in Form von "Chain-of-Thought"-Prompting. Doch diese Methode vererbe auch menschliche Fehler, Annahmen und historische Irrtümer.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Stattdessen sollen Agenten eigene Denkstrategien entwickeln, gestützt auf sogenannte Weltmodelle: interne Simulationen, mit denen sie die Konsequenzen ihrer Handlungen vorhersagen. Dies ermöglicht echte Planung, jenseits von rein sprachlicher Argumentation. Der Weg zu autonomeren Agenten führt laut den Autoren auch über Zwischenschritte wie das Aufrufen von APIs und die Nutzung von Ausführungs-Feedback ("Execution Feedback"), bei dem der Agent Code ausführt und die Ergebnisse beobachtet.

Die Autoren sehen in der "Era of Experience" eine Rückbesinnung auf klassische RL-Konzepte, die im Zuge des Erfolgs großer Sprachmodelle in den Hintergrund geraten seien. Techniken wie temporale Abstraktion, exploratives Verhalten oder dynamische Wertfunktionen seien essenziell für Agenten, die langfristig lernen und planen.

Dabei betonen sie, dass der Übergang zur Erfahrungsära bereits begonnen habe – durch Agenten, die über allgemeine digitale Schnittstellen mit der Welt interagieren, durch leistungsfähige Reinforcement-Learning-Methoden für offene Probleme und durch die zunehmende Kopplung von Agenten an reale Umweltsignale.

Mehr Autonomie, mehr Verantwortung

Die Autoren sehen in dieser Entwicklung sowohl Potenzial als auch Risiko. Agenten könnten Fähigkeiten entwickeln, die bisher dem Menschen vorbehalten waren – etwa langfristige Problemlösung, Innovation oder Umweltanpassung. Gleichzeitig steigt die Herausforderung, solche Systeme kontrollierbar und sicher zu gestalten.

Allerdings könne gerade die kontinuierliche Interaktion mit der Umwelt zu mehr Sicherheit beitragen: Agenten erkennen unerwünschte Effekte und passen ihr Verhalten an. Belohnungsfunktionen lassen sich durch Nutzerfeedback iterativ verbessern. Und reale Prozesse – etwa medizinische Studien – setzten natürliche Grenzen für zu schnellen Fortschritt.

Sutton und Silver betonen, dass die technischen Voraussetzungen – Rechenleistung, Simulationsumgebungen, Algorithmen für verstärkendes Lernen – für solche KI-Systeme grundsätzlich vorhanden seien, auch wenn das Thema "Erfahrungsintelligenz" noch am Anfang steht. Jetzt benötige es die Bereitschaft der KI-Gemeinschaft, das Paradigma zu wechseln.

Anzeige
Anzeige

Die Erfahrung, so ihr Fazit, soll nicht länger Beiwerk sein, sondern Ausgangspunkt aller KI. Die nächste Welle der künstlichen Intelligenz werde durch Maschinen entstehen, die lernen, selbst zu denken, anstatt nur menschliche Gedanken zu wiederholen. Im folgenden Google-Deempind-Podcast erklärt David Silver die im Paper formulierten Ansätze im Detail.

Sprache allein reicht nicht – neue Architekturansätze im Fokus

Dass reine Sprachmodellierung nicht ausreicht, um verlässlich übermenschliche KI-Systeme zu entwickeln, hat sich zuletzt branchenweit als neuer Konsens durchgesetzt. Die Fähigkeit, sowohl komplexe als auch alltägliche Aufgaben mit gesundem Menschenverstand zu bewältigen, lässt sich offenbar nicht allein durch das Training auf Textdaten erreichen.

Prominente Stimmen der Branche schlagen ähnliche Richtungen ein. Ilya Sutskever, Mitgründer und ehemaliger Chefwissenschaftler von OpenAI, forscht mit seinem neuen Start-up "SSI" an alternativen Methoden für superintelligente Systeme. Sutskever sprach Ende 2024 von "Peak Data" und forderte die Entwicklung neuer Ansätze.

Auch Meta-KI-Chef Yann LeCun arbeitet an neuen Architekturkonzepten jenseits klassischer Sprachmodelle. OpenAI-CEO Sam Altman hatte bereits 2023 erklärt, dass Sprache allein nicht ausreiche, um fortgeschrittene KI zu entwickeln.

Ein vielversprechender Ansatz sind die zuvor erwähnten Weltmodelle – Systeme, die nicht nur Sprache, sondern auch sensorische und motorische Erfahrungen verarbeiten und intern abbilden können. Ziel ist es, KI-Systemen ein grundlegendes Verständnis von Kausalität, Raum, Zeit und Handlung zu vermitteln. Bislang blieben große Durchbrüche in diesem Bereich jedoch aus.

Eine große Herausforderung speziell beim Reinforcement Learning bleibt die Generalisierbarkeit der Methode, insbesondere für Aufgaben, bei denen es kein eindeutig richtiges oder falsches Ergebnis gibt. Beispielsweise sind die neuen Reasoning-Sprachmodelle in Mathematik wesentlich leistungsfähiger als herkömmliche Sprachmodelle, übertreffen diese aber nicht generell bei Wissens- oder kreativen Aufgaben.

Anzeige
Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Richard Sutton und David Silver fordern in ihrem neuen Aufsatz einen Paradigmenwechsel: Weg von KI-Systemen, die menschliches Wissen nachahmen, hin zu Agenten, die durch eigene Erfahrungen lernen und sich langfristig anpassen – inspiriert durch das Reinforcement Learning.
  • Zentrale Idee ist die Nutzung "unerschöpflicher" Erfahrungen statt begrenzter menschlicher Daten. Die Autoren schlagen autonome Agenten vor, die mit Weltmodellen, Umweltsignalen und Feedback aus Handlungen lernen – etwa in Medizin, Bildung oder Forschung.
  • Der Aufsatz spiegelt einen breiteren Trend in der Branche: führende Forscher wie Ilya Sutskever oder Yann LeCun arbeiten ebenfalls an neuen Architekturen jenseits der Sprachmodellierung, da Textdaten allein nicht ausreichen, um vielseitige, verlässliche KI-Systeme zu schaffen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!