Microsoft will mit spezialisierten Agenten die Bedienung von Computern automatisieren.
Forscherinnen und Forscher von Microsoft Research haben das Multiagentensystem Magentic-One für komplexe Aufgaben entwickelt, die Interaktionen mit Webinhalten und Dateien erfordern.
Magentic-One besteht aus einem zentralen Orchestrator-Agent und vier spezialisierten Agenten. Der Orchestrator plant die Aufgabenlösung, überwacht den Fortschritt und behebt Fehler mithilfe strukturierter Aufzeichnungen, so genannter Ledger.
Laut Paper bietet dieser Multi-Agenten-Ansatz Vorteile gegenüber monolithischen Single-Agent-Systemen in Bezug auf Leistung, Entwicklungsaufwand und Flexibilität.
In Demovideos haben die Forscher:innen Magentic-One unter anderem dafür genutzt, etwa fehlende Zitationen in einem Dokument zu suchen oder ein Shawarma-Sandwich zu bestellen.
Multi-Agenten-Systeme übertreffen Single-Agent-Ansatz
Die Studie zeigt, dass die Aufteilung der Funktionen auf einzelne Agenten die Entwicklung vereinfacht und die Wiederverwendbarkeit der Komponenten verbessert. Durch die modulare Architektur können Agenten hinzugefügt oder entfernt werden, ohne dass andere Teile des Systems angepasst werden müssen.
Zudem kann jeder Agent gezielt für seine Aufgabe optimiert werden, etwa durch die Wahl geeigneter Sprachmodelle. Perspektivisch sehen die Forscher hier Möglichkeiten, den Einsatz großer und ressourcenintensiver Modelle zu reduzieren.
Magentic-One arbeitet mit unterschiedlichen Sprachmodellen für verschiedene Agenten, um spezifische Fähigkeiten oder Kostenaspekte zu berücksichtigen.
Standardmäßig wird das multimodale GPT-4o verwendet, aber die Forscher testeten auch eine Konfiguration mit dem OpenAI-Modell o1-preview für Teile des Orchestrators und den Coder, während die anderen Agenten GPT-4o nutzten. Die Integration von OpenAIs neustem o1-Modell hatte positive Auswirkungen auf die Leistung.
In den Benchmarks GAIA, WebArena und AssistantBench erzielte Magentic-One mit dieser Konfiguration Ergebnisse, die mit anderen State-of-the-Art-Systemen vergleichbar sind. Vor allem bei komplexen Aufgaben mit vielen Teilschritten schnitt es gut ab.
Ablationsexperimente zeigen den Beitrag jedes einzelnen Agenten zur Gesamtleistung. Wenn ein Agent entfernt wird, sinkt die Leistung in der Regel bei den Aufgaben, die seine spezifischen Fähigkeiten erfordern.
Die automatisierte Fehleranalyse zeigt aber auch Schwächen auf: Agenten verharren oft in ineffizienten Aktionen, validieren Ergebnisse unzureichend oder navigieren ineffizient.
Zur Leistungsbewertung von Magentic-One haben die Forschenden das Framework AutoGenBench für agentenbasierte Benchmarks entwickelt. Es ermöglicht wiederholbare Testläufe unter kontrollierten Bedingungen.
Forschende mahnen Risiken autonomer KI-Agenten an
Die Forscher:innen weisen darauf hin, dass KI-Agenten, die autonom in einer für Menschen geschaffenen digitalen Welt agieren, inhärente Risiken bergen. In Tests beobachteten sie teilweise riskante oder gar bizarre Aktionen der Agenten:
Die Agenten versuchten, sich bei einer Website anzumelden, bis wiederholte Versuche zu einer vorübergehenden Sperrung des Kontos führten. Die Agenten versuchten dann, das Passwort des Kontos zurückzusetzen. Noch beunruhigender ist die Tatsache, dass die Beamten in einigen wenigen Fällen - und wenn sie nicht dazu aufgefordert wurden - gelegentlich versuchten, andere Personen um Hilfe zu bitten (z. B. durch Beiträge in sozialen Medien, E-Mails an Lehrbuchautoren oder, in einem Fall, durch das Verfassen einer Informationsfreiheitsanfrage an eine Regierungsbehörde).
Microsoft
Magentic-One reiht sich ein in eine Serie aktueller Experimente, KI-Systeme zu erschaffen, die anhand natürlicher Sprache durch Betriebssysteme, Programme oder Webseiten navigieren können. Zuletzt hat Anthropic mit Claude Computer Use kürzlich Fortschritte in diese Richtung gezeigt, Google soll sein Jarvis-System im Dezember vorstellen, OpenAI den Operator im Januar.