"Artificial Generational Intelligence": KI-Agenten lernen über Generationen hinweg voneinander

9. Juni 2024

Midjourney prompted by THE DECODER

Forscher zeigen, wie KI-Agenten über Generationen hinweg voneinander lernen können und dabei allein lernende Agenten übertreffen.

Forschende der Universitäten Oxford und Google DeepMind haben untersucht, wie kulturelle Akkumulation - die Anhäufung von Wissen und Fähigkeiten über Generationen hinweg - in Reinforcement Learning (RL)-Agenten erreicht werden kann. Kulturelle Akkumulation gilt als Schlüssel zum Erfolg der Menschheit.

In der Studie stellt das Team zwei entsprechende RL-Modelle vor: das "In-Context"-Modell, bei dem die Akkumulation durch schnelle Anpassung an neue Umgebungen erfolgt, und das "In-Weights"-Modell, bei dem die Akkumulation durch die langsamere Aktualisierung von Netzwerkgewichten während des Trainings erfolgt.

Das "In-Context"-Modell akkumuliert Wissen über mehrere Generationen, indem es in einzelnen Episoden von anderen Agenten lernt. Es verbessert aber auch sein Verhalten durch eigenständiges Lernen, um der nächsten Generation nützlichere Demonstrationen zu liefern.

Im "In-Weights"-Modell ist die Lebensdauer eines Agenten gleichbedeutend mit einem vollständigen Trainingszyklus und die Netzwerkparameter gleichbedeutend mit Fähigkeiten. Hier erfolgt die Akkumulation langsamer über aufeinander folgende Generationen von Agenten, die jeweils von Grund auf neu trainiert werden, aber von den Beobachtungen der vorhergehenden Generation profitieren.

"Generational Intelligence" hängt einzelne Agenten ab

Um ihre Modelle zu testen, ließen die Forschenden künstliche Agenten in simulierten Umgebungen komplexe Aufgaben lösen. In der "Memory Sequence"-Umgebung mussten sie sich zum Beispiel merken, in welcher Reihenfolge Ziele angefahren werden sollten.

In der "Goal Sequence"-Umgebung, einer Grid-World, mussten die Agenten lernen, in welcher Reihenfolge Ziele angefahren werden. In der Umgebung "Travelling Salesman Problem (TSP)" mussten sie den kürzesten Weg zwischen mehreren Städten finden.

Dabei konnten die Agenten immer nur einen kleinen Ausschnitt ihrer Umgebung wahrnehmen. Jede neue Generation konnte jedoch die vorherige Generation bei der Lösung der Aufgabe beobachten und von ihr lernen. In allen Fällen übertrafen die akkumulierenden Agenten die Agenten, die bei gleichem Erfahrungsbudget nur für eine Lebenszeit lernten.

7/ Cultural accumulation even improves routes travelled in a partially observable Travelling Salesperson Problem, cutting down distances across generations entirely via in-context learning! pic.twitter.com/x776k0Cw62

— Jonny Cook (@JonnyCoook) June 6, 2024

Beim Lernen im Kontext zeigte sich, dass zu verlässliche oder zu unzuverlässige Lehrer in der Trainingsphase die Akkumulation behindern können. Daher müsse ein Gleichgewicht zwischen sozialem Lernen und selbstständigem Entdecken gefunden werden. In-Weight-Lernen wiederum half, Verzerrungen durch zu frühes Lernen zu vermeiden.

Die Autoren der Studie sehen in ihren Ergebnissen die Grundlage für einen endlosen, populationsbasierten Kreislauf der Selbstverbesserung von KI-Agenten. Gleichzeitig könnten die Modelle auch neue Werkzeuge zur Untersuchung der kulturellen Akkumulation beim Menschen liefern.

Zukünftige Arbeiten sollten sich unter anderem mit erlernten Lehrplänen zur Steuerung des sozialen Lernens und der kulturellen Weitergabe in kompetitiven oder kooperativen Multi-Agenten-Szenarien befassen. Sie weisen jedoch darauf hin, dass leistungsfähige, sich selbst verbessernde KI-Systeme auch Risiken bergen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 16 % Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

"Artificial Generational Intelligence": KI-Agenten lernen über Generationen hinweg voneinander

"Generational Intelligence" hängt einzelne Agenten ab

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.