Inhalt
summary Zusammenfassung

Dynalang ist ein KI-Agent, der Sprache und seine Umwelt versteht, indem er Vorhersagen über die Zukunft in Umgebungen mit einem multimodalen Weltmodell trifft.

Eine große Herausforderung in der KI-Forschung ist es, KI-Agenten wie Roboter in die Lage zu versetzen, natürlich mit Menschen zu kommunizieren. Heutige Agenten wie Googles PaLM-SayCan verstehen einfache Befehle wie "Hol den blauen Block". Sie tun sich jedoch schwer mit komplexeren Sprachsituationen wie Wissensvermittlung ("der Knopf oben links schaltet den Fernseher aus"), situativen Informationen ("uns geht die Milch aus") oder Koordination ("das Wohnzimmer ist schon gesaugt").

Hört ein Agent zum Beispiel "Ich habe die Schüsseln weggeräumt", sollte er je nach Aufgabe unterschiedlich reagieren: Wenn er das Geschirr spülen soll, sollte er zum nächsten Reinigungsschritt übergehen, während er beim Servieren des Abendessens die Schüsseln holen sollte.

In einer neuen Arbeit gehen Forschende der UC Berkeley davon aus, dass Sprache KI-Agenten helfen kann, die Zukunft zu antizipieren: was sie sehen werden, wie die Welt reagieren wird und welche Situationen wichtig sind. Mit dem richtigen Training könnte so ein Agent entstehen, der durch Sprache ein Modell seiner Umwelt lernt und besser in den oben genannten Situationen reagiert.

Anzeige
Anzeige

Dynalang setzt auf Token- und Bildvorhersage in Deepminds DreamerV3

Das Team entwickelt den KI-Agenten Dynalang, der aus visuellem und textuellem Input ein Modell der Welt lernt. Er basiert auf DreamerV3 von Google Deepmind, verdichtet die multimodalen Inputs zu einer gemeinsamen Repräsentation und wird darauf trainiert, zukünftige Repräsentationen auf der Grundlage seiner Aktionen vorherzusagen.

Der Ansatz ähnelt dem Training großer Sprachmodelle, die lernen, das nächste Token in einem Satz vorherzusagen. Das Besondere an Dynalang ist, dass der Agent durch die Vorhersage zukünftiger Texte, aber auch durch Beobachtungen und Belohnungen lernt. Damit unterscheidet es sich auch von anderen Reinforcement-Learning-Ansätzen, die meist nur optimale Aktionen vorhersagen.

Während des Lernens des Weltmodells komprimiert das Modell die Beobachtungen von Bildern und Text zu einer latenten Repräsentation. Das Modell wird darauf trainiert, die nächste Repräsentation vorherzusagen und Beobachtungen aus der Repräsentation zu rekonstruieren. Während des Policy-Lernens werden Rollouts aus dem Weltmodell abgetastet und die Policy so trainiert, dass die Belohnungen maximiert werden. | Bild: Lin et al.

Laut dem Team extrahiert Dynalang relevante Informationen aus der Sprache und lernt multimodale Assoziationen. Wenn der Agent zum Beispiel liest: "Das Buch ist im Wohnzimmer", und das Buch später dort sieht, wird der Agent die Sprache und die visuellen Eindrücke über ihre Auswirkungen auf seine Vorhersagen miteinander verbinden.

Das Team evaluierte Dynalang in einer Reihe von interaktiven Umgebungen mit unterschiedlichen Sprachkontexten. Dazu gehörten eine simulierte häusliche Umgebung, in der der Agent Hinweise auf zukünftige Beobachtungen, Dynamiken und Korrekturen erhält, um Reinigungsaufgaben effizienter durchführen zu können, eine Spielumgebung und realistische 3D-Haus-Scans für Navigationsaufgaben.

Dynalang kann auch aus Web-Daten lernen

Dynalang hat gelernt, Sprach- und Bildvorhersagen für alle Aufgaben zu nutzen, um seine Leistung zu verbessern und andere spezialisierte KI-Architekturen oft zu übertreffen. Der Agent kann auch Text generieren und Handbücher lesen, um neue Spiele zu lernen. Das Team zeigt auch, dass die Architektur es ermöglicht, Dynalang mit Offline-Daten ohne Aktionen und Belohnungen zu trainieren - also mit Text- und Videodaten, die nicht aktiv bei der Erkundung einer Umgebung gesammelt werden. In einem Test haben die Forscher Dynalang mit einem kleinen Datensatz von Kurzgeschichten trainiert, was die Leistung des Agenten verbesserte.

Empfehlung

Video: Lin et al.

"Die Fähigkeit, mit Video und Text ohne Aktionen oder Belohnungen vorzutrainieren, deutet darauf hin, dass Dynalang auf große Webdatensätze skaliert werden könnte, was den Weg zu einem selbstverbessernden multimodalen Agenten ebnen würde, der mit Menschen in der Welt interagiert."

Als Einschränkungen nennt das Team die verwendete Architektur, die für bestimmte, sehr komplexe Umgebungen nicht optimal ist. Außerdem ist die Qualität des erzeugten Texts noch weit von der Qualität großer Sprachmodelle entfernt, könnte sich aber in Zukunft annähern.

Mehr Informationen und den Code gibt es auf der Dynalang-Projektseite.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende der UC Berkeley entwickeln Dynalang, einen KI-Agenten, der visuellen und textuellen Input verwendet, um ein Modell der Welt zu erstellen und in Testumgebungen zu handeln.
  • Basierend auf DreamerV3 von Google Deepmind lernt Dynalang, zukünftige Texte, Bilder und Belohnungen vorherzusagen, um ein besseres, in der Welt verankertes Verständnis von Sprache zu entwickeln.
  • Dynalang wurde in simulierten häuslichen Umgebungen, Spielumgebungen und 3D-Haus-Scans getestet und könnte in Zukunft Roboter verbessern.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!