Inhalt
summary Zusammenfassung

Microsoft will mit spezialisierten Agenten die Bedienung von Computern automatisieren.

Anzeige

Forscherinnen und Forscher von Microsoft Research haben das Multiagentensystem Magentic-One für komplexe Aufgaben entwickelt, die Interaktionen mit Webinhalten und Dateien erfordern.

Magentic-One besteht aus einem zentralen Orchestrator-Agent und vier spezialisierten Agenten. Der Orchestrator plant die Aufgabenlösung, überwacht den Fortschritt und behebt Fehler mithilfe strukturierter Aufzeichnungen, so genannter Ledger.

Laut Paper bietet dieser Multi-Agenten-Ansatz Vorteile gegenüber monolithischen Single-Agent-Systemen in Bezug auf Leistung, Entwicklungsaufwand und Flexibilität.

Anzeige
Anzeige
Flussdiagramm: Orchestrator-System mit Task/Progress Ledger und vier spezialisierten Agenten (Coder, Terminal, WebSurfer, FileSurfer).
Die spezialisierten Agenten übernehmen jeweils eine dedizierte Funktion: Der WebSurfer navigiert und interagiert mit Webinhalten, der FileSurfer verarbeitet Dateien, der Coder generiert Code und das ComputerTerminal führt diesen aus.  | Bild: Microsoft

In Demovideos haben die Forscher:innen Magentic-One unter anderem dafür genutzt, etwa fehlende Zitationen in einem Dokument zu suchen oder ein Shawarma-Sandwich zu bestellen.

Video: Microsoft

Video: Microsoft

Multi-Agenten-Systeme übertreffen Single-Agent-Ansatz

Die Studie zeigt, dass die Aufteilung der Funktionen auf einzelne Agenten die Entwicklung vereinfacht und die Wiederverwendbarkeit der Komponenten verbessert. Durch die modulare Architektur können Agenten hinzugefügt oder entfernt werden, ohne dass andere Teile des Systems angepasst werden müssen.

Zudem kann jeder Agent gezielt für seine Aufgabe optimiert werden, etwa durch die Wahl geeigneter Sprachmodelle. Perspektivisch sehen die Forscher hier Möglichkeiten, den Einsatz großer und ressourcenintensiver Modelle zu reduzieren.

Empfehlung

Magentic-One arbeitet mit unterschiedlichen Sprachmodellen für verschiedene Agenten, um spezifische Fähigkeiten oder Kostenaspekte zu berücksichtigen.

Standardmäßig wird das multimodale GPT-4o verwendet, aber die Forscher testeten auch eine Konfiguration mit dem OpenAI-Modell o1-preview für Teile des Orchestrators und den Coder, während die anderen Agenten GPT-4o nutzten. Die Integration von OpenAIs neustem o1-Modell hatte positive Auswirkungen auf die Leistung.

In den Benchmarks GAIA, WebArena und AssistantBench erzielte Magentic-One mit dieser Konfiguration Ergebnisse, die mit anderen State-of-the-Art-Systemen vergleichbar sind. Vor allem bei komplexen Aufgaben mit vielen Teilschritten schnitt es gut ab.

Säulendiagramm: Vergleich der Genauigkeit verschiedener KI-Modelle und Menschen bei drei Benchmarks, mit Fehlerbalken.
Im Vergleich verschiedener Agenten-Systeme in den Benchmarks bei GAIA, AssistantBench und WebArena liegt Magentic-One gleichauf. | Bild: Microsoft

Ablationsexperimente zeigen den Beitrag jedes einzelnen Agenten zur Gesamtleistung. Wenn ein Agent entfernt wird, sinkt die Leistung in der Regel bei den Aufgaben, die seine spezifischen Fähigkeiten erfordern.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Die automatisierte Fehleranalyse zeigt aber auch Schwächen auf: Agenten verharren oft in ineffizienten Aktionen, validieren Ergebnisse unzureichend oder navigieren ineffizient.

Zur Leistungsbewertung von Magentic-One haben die Forschenden das Framework AutoGenBench für agentenbasierte Benchmarks entwickelt. Es ermöglicht wiederholbare Testläufe unter kontrollierten Bedingungen.

Forschende mahnen Risiken autonomer KI-Agenten an

Die Forscher:innen weisen darauf hin, dass KI-Agenten, die autonom in einer für Menschen geschaffenen digitalen Welt agieren, inhärente Risiken bergen. In Tests beobachteten sie teilweise riskante oder gar bizarre Aktionen der Agenten:

Die Agenten versuchten, sich bei einer Website anzumelden, bis wiederholte Versuche zu einer vorübergehenden Sperrung des Kontos führten. Die Agenten versuchten dann, das Passwort des Kontos zurückzusetzen. Noch beunruhigender ist die Tatsache, dass die Beamten in einigen wenigen Fällen - und wenn sie nicht dazu aufgefordert wurden - gelegentlich versuchten, andere Personen um Hilfe zu bitten (z. B. durch Beiträge in sozialen Medien, E-Mails an Lehrbuchautoren oder, in einem Fall, durch das Verfassen einer Informationsfreiheitsanfrage an eine Regierungsbehörde).

Microsoft

Magentic-One reiht sich ein in eine Serie aktueller Experimente, KI-Systeme zu erschaffen, die anhand natürlicher Sprache durch Betriebssysteme, Programme oder Webseiten navigieren können. Zuletzt hat Anthropic mit Claude Computer Use kürzlich Fortschritte in diese Richtung gezeigt, Google soll sein Jarvis-System im Dezember vorstellen, OpenAI den Operator im Januar.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Für komplexe Aufgaben, die Interaktionen mit Webinhalten und Dateien erfordern, hat Microsoft Research das Multiagentensystem Magentic-One entwickelt.
  • Es besteht aus einem zentralen Orchestrierungsagenten und vier spezialisierten Agenten für Navigation, Dateiverarbeitung, Codegenerierung und -ausführung.
  • Die Aufteilung der Fähigkeiten auf separate Agenten ermöglicht laut Microsoft eine einfachere Entwicklung, eine bessere Wiederverwendbarkeit von Komponenten und eine gezielte Optimierung jedes Agenten für seine Aufgabe.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!