"Artificial Generational Intelligence": KI-Agenten lernen über Generationen hinweg voneinander

9. Juni 2024 Maximilian Schreiner

Forscher zeigen, wie KI-Agenten über Generationen hinweg voneinander lernen können und dabei allein lernende Agenten übertreffen.

Forschende der Universitäten Oxford und Google DeepMind haben untersucht, wie kulturelle Akkumulation - die Anhäufung von Wissen und Fähigkeiten über Generationen hinweg - in Reinforcement Learning (RL)-Agenten erreicht werden kann. Kulturelle Akkumulation gilt als Schlüssel zum Erfolg der Menschheit.

In der Studie stellt das Team zwei entsprechende RL-Modelle vor: das "In-Context"-Modell, bei dem die Akkumulation durch schnelle Anpassung an neue Umgebungen erfolgt, und das "In-Weights"-Modell, bei dem die Akkumulation durch die langsamere Aktualisierung von Netzwerkgewichten während des Trainings erfolgt.

Das "In-Context"-Modell akkumuliert Wissen über mehrere Generationen, indem es in einzelnen Episoden von anderen Agenten lernt. Es verbessert aber auch sein Verhalten durch eigenständiges Lernen, um der nächsten Generation nützlichere Demonstrationen zu liefern.

Im "In-Weights"-Modell ist die Lebensdauer eines Agenten gleichbedeutend mit einem vollständigen Trainingszyklus und die Netzwerkparameter gleichbedeutend mit Fähigkeiten. Hier erfolgt die Akkumulation langsamer über aufeinander folgende Generationen von Agenten, die jeweils von Grund auf neu trainiert werden, aber von den Beobachtungen der vorhergehenden Generation profitieren.

"Generational Intelligence" hängt einzelne Agenten ab

Um ihre Modelle zu testen, ließen die Forschenden künstliche Agenten in simulierten Umgebungen komplexe Aufgaben lösen. In der "Memory Sequence"-Umgebung mussten sie sich zum Beispiel merken, in welcher Reihenfolge Ziele angefahren werden sollten.

In der "Goal Sequence"-Umgebung, einer Grid-World, mussten die Agenten lernen, in welcher Reihenfolge Ziele angefahren werden. In der Umgebung "Travelling Salesman Problem (TSP)" mussten sie den kürzesten Weg zwischen mehreren Städten finden.

Dabei konnten die Agenten immer nur einen kleinen Ausschnitt ihrer Umgebung wahrnehmen. Jede neue Generation konnte jedoch die vorherige Generation bei der Lösung der Aufgabe beobachten und von ihr lernen. In allen Fällen übertrafen die akkumulierenden Agenten die Agenten, die bei gleichem Erfahrungsbudget nur für eine Lebenszeit lernten.

7/ Cultural accumulation even improves routes travelled in a partially observable Travelling Salesperson Problem, cutting down distances across generations entirely via in-context learning! pic.twitter.com/x776k0Cw62

— Jonny Cook (@JonnyCoook) June 6, 2024

Beim Lernen im Kontext zeigte sich, dass zu verlässliche oder zu unzuverlässige Lehrer in der Trainingsphase die Akkumulation behindern können. Daher müsse ein Gleichgewicht zwischen sozialem Lernen und selbstständigem Entdecken gefunden werden. In-Weight-Lernen wiederum half, Verzerrungen durch zu frühes Lernen zu vermeiden.

Die Autoren der Studie sehen in ihren Ergebnissen die Grundlage für einen endlosen, populationsbasierten Kreislauf der Selbstverbesserung von KI-Agenten. Gleichzeitig könnten die Modelle auch neue Werkzeuge zur Untersuchung der kulturellen Akkumulation beim Menschen liefern.

Zukünftige Arbeiten sollten sich unter anderem mit erlernten Lehrplänen zur Steuerung des sozialen Lernens und der kulturellen Weitergabe in kompetitiven oder kooperativen Multi-Agenten-Szenarien befassen. Sie weisen jedoch darauf hin, dass leistungsfähige, sich selbst verbessernde KI-Systeme auch Risiken bergen.

Quellen:

Arxiv