Inhalt
summary Zusammenfassung

Forscher zeigen, wie KI-Agenten über Generationen hinweg voneinander lernen können und dabei allein lernende Agenten übertreffen.

Forschende der Universitäten Oxford und Google DeepMind haben untersucht, wie kulturelle Akkumulation - die Anhäufung von Wissen und Fähigkeiten über Generationen hinweg - in Reinforcement Learning (RL)-Agenten erreicht werden kann. Kulturelle Akkumulation gilt als Schlüssel zum Erfolg der Menschheit.

In der Studie stellt das Team zwei entsprechende RL-Modelle vor: das "In-Context"-Modell, bei dem die Akkumulation durch schnelle Anpassung an neue Umgebungen erfolgt, und das "In-Weights"-Modell, bei dem die Akkumulation durch die langsamere Aktualisierung von Netzwerkgewichten während des Trainings erfolgt.

Das "In-Context"-Modell akkumuliert Wissen über mehrere Generationen, indem es in einzelnen Episoden von anderen Agenten lernt. Es verbessert aber auch sein Verhalten durch eigenständiges Lernen, um der nächsten Generation nützlichere Demonstrationen zu liefern.

Anzeige
Anzeige

Im "In-Weights"-Modell ist die Lebensdauer eines Agenten gleichbedeutend mit einem vollständigen Trainingszyklus und die Netzwerkparameter gleichbedeutend mit Fähigkeiten. Hier erfolgt die Akkumulation langsamer über aufeinander folgende Generationen von Agenten, die jeweils von Grund auf neu trainiert werden, aber von den Beobachtungen der vorhergehenden Generation profitieren.

"Generational Intelligence" hängt einzelne Agenten ab

Um ihre Modelle zu testen, ließen die Forschenden künstliche Agenten in simulierten Umgebungen komplexe Aufgaben lösen. In der "Memory Sequence"-Umgebung mussten sie sich zum Beispiel merken, in welcher Reihenfolge Ziele angefahren werden sollten.

In der "Goal Sequence"-Umgebung, einer Grid-World, mussten die Agenten lernen, in welcher Reihenfolge Ziele angefahren werden. In der Umgebung "Travelling Salesman Problem (TSP)" mussten sie den kürzesten Weg zwischen mehreren Städten finden.

Dabei konnten die Agenten immer nur einen kleinen Ausschnitt ihrer Umgebung wahrnehmen. Jede neue Generation konnte jedoch die vorherige Generation bei der Lösung der Aufgabe beobachten und von ihr lernen. In allen Fällen übertrafen die akkumulierenden Agenten die Agenten, die bei gleichem Erfahrungsbudget nur für eine Lebenszeit lernten.

Empfehlung

Beim Lernen im Kontext zeigte sich, dass zu verlässliche oder zu unzuverlässige Lehrer in der Trainingsphase die Akkumulation behindern können. Daher müsse ein Gleichgewicht zwischen sozialem Lernen und selbstständigem Entdecken gefunden werden. In-Weight-Lernen wiederum half, Verzerrungen durch zu frühes Lernen zu vermeiden.

Die Autoren der Studie sehen in ihren Ergebnissen die Grundlage für einen endlosen, populationsbasierten Kreislauf der Selbstverbesserung von KI-Agenten. Gleichzeitig könnten die Modelle auch neue Werkzeuge zur Untersuchung der kulturellen Akkumulation beim Menschen liefern.

Zukünftige Arbeiten sollten sich unter anderem mit erlernten Lehrplänen zur Steuerung des sozialen Lernens und der kulturellen Weitergabe in kompetitiven oder kooperativen Multi-Agenten-Szenarien befassen. Sie weisen jedoch darauf hin, dass leistungsfähige, sich selbst verbessernde KI-Systeme auch Risiken bergen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Universitäten Oxford und Google DeepMind haben Reinforcement Learning (RL) Modelle entwickelt, die kulturelle Akkumulation - die Anhäufung von Wissen und Fähigkeiten über Generationen hinweg - in KI-Agenten ermöglichen.
  • Im "In-Context"-Modell lernen die Agenten durch schnelle Anpassung an neue Umgebungen von anderen Agenten, während im "In-Weights"-Modell die Akkumulation langsamer durch Aktualisierung von Netzwerkgewichten über aufeinander folgende Generationen erfolgt.
  • In simulierten komplexen Aufgaben übertrafen die akkumulierenden Agenten jene, die nur für eine Lebenszeit lernten. Die Modelle könnten die Grundlage für einen endlosen Kreislauf der Selbstverbesserung von KI-Agenten bilden, bergen aber auch Risiken.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!