Inhalt
summary Zusammenfassung

Foundation-Modelle bestimmen die Forschung. Microsoft stellt nun ein "Interactive Agent Foundation Model" vor, das besser in der virtuellen und echten Welt zurechtkommen soll.

Anzeige

Forschende von Microsoft Research, der Stanford University und der University of California stellen in ihrer neuen Arbeit das Interactive Agent Foundation Model vor, das für eine Vielzahl von Anwendungen mit Text-, Bild- und Aktionsdaten trainiert wurde.

Das Team verwendet ein einheitliches Framework, das verschiedene Pre-Trainings-Strategien für Bild, Text und Aktion kombiniert. Mit dieser Arbeit will das Team die Machbarkeit eines solchen vielseitigen und anpassungsfähigen KI-Frameworks demonstrieren und testete es in drei Domänen: Robotik, Spiele-KI und Gesundheitswesen.

Bild: Durante, Sarkar, Gong et al.

Das Modell mit 277 Millionen Parametern wurde mit 13,4 Millionen Videoframes vortrainiert. Diese umfassten eine Vielzahl von Robotik- und Spielaufgaben, einschließlich Minecraft, wobei die Daten neben den Videos auch Textbeschreibungen und Aktionstoken für Roboter enthielten.

Anzeige
Anzeige

In Tests hat das Modell gezeigt, dass es in der Lage ist, Aktionen in einer Vielzahl von Domänen effektiv zu modellieren, etwa die Steuerung eines Roboters oder die Vorhersage von Aktionen in Minecraft. Das Team zeigte auch, dass das Modell in Bereichen wie dem Gesundheitswesen eingesetzt werden kann, wo es mit zusätzlichen Video- und Textdaten verfeinert wurde und seine Leistung von den anderen Datenquellen profitierte.

Microsofts "Interactive Agent Foundation Model" als Embodied Agent

Die Arbeit ist als Beitrag zur Grundlagenforschung auf dem Weg von statischen, aufgabenspezifischen Modellen zu dynamischen, agentenbasierten Systemen zu verstehen und erinnert an Arbeiten wie Deepminds GATO.

Die Forscher betonen dabei die Notwendigkeit, dynamisches Verhalten zu generieren, das in einem Verständnis der Umgebungskontexte verankert ist. Zu diesem Zweck definieren sie auch ein neues Paradigma für verkörperte Agenten:

Wir definieren das Embodied-Agent-Paradigma als "jeden intelligenten Agenten, der in der Lage ist, auf der Grundlage von Sinneseindrücken autonom angemessene und nahtlose Aktionen auszuführen, sei es in der physischen Welt oder in einer virtuellen oder gemischten realen Umgebung, die die physische Welt repräsentiert".

Bild: Durante, Sarkar, Gong et al.

Es sei wichtig, dass ein verkörperter Agent als Mitglied eines kollaborativen Systems konzipiert wird, in dem er mit Menschen kommuniziert und eine Vielzahl von Aktionen ausführt, die auf den Bedürfnissen von Menschen basieren. Auf diese Weise, so das Team, können verkörperte Agenten mühsame Aufgaben in der virtuellen und physischen Welt erleichtern.

Die Forscher wollen ihren Code und Modelle demnächst öffentlich zugänglich machen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Microsoft Research, Stanford University und University of California präsentieren das "Interactive Agent Foundation Model", ein KI-Framework für Text-, Bild- und Aktionsdaten in verschiedenen Anwendungen wie Robotik, Spiele-KI und Gesundheitswesen.
  • Das Modell mit 277 Millionen Parametern wurde an 13,4 Millionen Videoframes trainiert und zeigt Fähigkeiten in der Steuerung von Robotern und Vorhersage von Aktionen in Spielen wie Minecraft.
  • Die Forscher definieren ein neues Paradigma für "verkörperte Agenten", die in der Lage sind, auf der Grundlage von Sinneseindrücken autonom angemessene und nahtlose Aktionen auszuführen, sowohl in der physischen als auch in der virtuellen Welt.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!