Microsoft-Studie: GUI-KI-Agenten sind flexibler, API-KI-Agenten zuverlässiger

Microsoft Research hat API- und GUI-basierte KI-Agenten analysiert und deren unterschiedliche Einsatzgebiete dokumentiert. Die Studie zeigt, wie sich beide Ansätze ergänzen können.

API-basierte (Application Programming Interface) Agenten arbeiten dabei über programmierte Schnittstellen, GUI-basierte (Graphical User Interface) Agenten interagieren mit grafischen Benutzeroberflächen.

Beide könnten etwa einen Kalender bedienen: Ein API-Agent würde einen Termin mit einem einzigen Funktionsaufruf anlegen, ein GUI-Agent müsste stattdessen die Kalender-App öffnen, durch Menüs navigieren, Felder ausfüllen und Buttons anklicken. Beide Ansätze haben jedoch ihre Berechtigung, argumentiert Microsoft.

Infografik zur Veranschaulichung von API- vs. GUI-Agenten anhand eines Beispielszenarios zum Planen eines Termins im Google Kalender. — Der API-Agent ruft die nötigen API-Methoden direkt auf, während der GUI-Agent die grafische Oberfläche wie ein:e menschliche:r Nutzer:in bedienen muss. | Bild: Microsoft Research

Grundlegende Unterschiede der Agenten

Die Microsoft-Forscher:innen haben die Agententypen in neun Dimensionen verglichen. API-Agenten nutzen Text und Funktionsaufrufe, während GUI-Agenten Bildschirminhalte verarbeiten müssen. Das macht API-Agenten zuverlässiger, da sie weniger Fehlerquellen ausgesetzt sind.

Die Effizienz spricht ebenfalls für API-Agenten: Sie können komplexe Aufgaben mit einem einzigen Aufruf erledigen. GUI-Agenten müssen dagegen mehrere Einzelschritte ausführen. Bei der Verfügbarkeit haben wiederum GUI-Agenten die Nase vorn - sie können jede Software mit Benutzeroberfläche steuern.

Vergleichstabelle der Eigenschaften von API-Agenten und GUI-Agenten bezüglich verschiedener Dimensionen wie Modalität, Zuverlässigkeit, Effizienz, Verfügbarkeit, Flexibilität, Sicherheit, Wartbarkeit, Transparenz und Benutzerfreundlichkeit — API-Agenten nutzen Text-basierte API-Aufrufe und sind im Allgemeinen zuverlässiger, erreichen jedoch weniger Flexibilität. GUI-Agenten basieren auf Bildschirmaufnahmen, sind visuell anspruchsvoller, aber anpassungsfähiger an neue Benutzeroberflächen. | Bild: Microsoft Research

Die Flexibilität der GUI-Agenten zeigt sich besonders bei neuen oder unbekannten Funktionen. Die Sicherheit lässt sich bei API-Agenten besser kontrollieren, da Berechtigungen für einzelne Schnittstellen vergeben werden können. GUI-Agenten haben dagegen oft Zugriff auf die gesamte Benutzeroberfläche.

Wartung und Transparenz

Bei der Wartbarkeit profitieren API-Agenten von stabilen, versionierten Schnittstellen. GUI-Agenten können durch Änderungen an der Oberfläche gestört werden. Die Transparenz ist dafür bei GUI-Agenten höher: Nutzer:innen können jeden Arbeitsschritt nachvollziehen.

Die menschenähnliche Interaktion der GUI-Agenten macht sie laut Studie besonders geeignet für Aufgaben, die visuelle Überprüfung erfordern. Die Forscher:innen dokumentieren dies am Beispiel eines Finanzberichts: Der GUI-Agent navigiert durch Menüs, wählt Berichtstypen aus und setzt Parameter - genau wie menschliche Nutzer:innen.

Hybride Lösungen gewinnen an Bedeutung

Microsoft Research beschreibt drei Hauptansätze für die Kombination der Agententypen. Der erste Ansatz nutzt API-Wrapper: Sie übersetzen GUI-basierte Anwendungen in quasi-API-Dienste. Ein Beispiel aus der Studie zeigt, wie ein Finanzbericht, der normalerweise mehrere manuelle Schritte erfordert, in einen einzelnen API-Aufruf GenerateReport() übersetzt wird. Im Hintergrund führt der Wrapper weiterhin die GUI-Aktionen aus, präsentiert aber eine programmierbare Schnittstelle nach außen.

Empfehlung

KI-Forschung

Forscher schlagen Mensch-Nachweis vor, um Menschen online von KIs zu unterscheiden

Der zweite Ansatz setzt auf vereinheitlichte Orchestrierungstools. Die Forscher demonstrieren dies am Beispiel eines Kreditantragsprozesses: Der Orchestrator ruft APIs für Bonitätsprüfungen und Datenbankabfragen auf, wechselt aber zu GUI-Aktionen für das Versenden von E-Mails. Microsofts experimentelles Tool UFO zeigt diesen Ansatz in der Praxis: Es priorisiert verfügbare APIs, fällt aber automatisch auf GUI-Interaktionen zurück, wenn keine Schnittstellen existieren.

Flussdiagramm mit Beispielen für API- und GUI-Aktionen, die von einem zentralen Orchestrator verwaltet werden. — Die Abbildung zeigt ein Beispiel für einen einheitlichen Orchestrator, der sowohl API- als auch GUI-Aktionen steuert | Bild: Microsoft Research

Als dritten Weg identifiziert die Studie Low-Code- und No-Code-Plattformen. Diese ermöglichten es auch technisch weniger versierten Nutzer:innen, komplexe Automatisierungen zu erstellen. Die Plattformen übersetzen visuelle Workflow-Komponenten im Hintergrund in die jeweils effizienteste Ausführungsform.

Die Forscher sehen in der Weiterentwicklung multimodaler KI-Modelle einen wichtigen Treiber für die Konvergenz der Ansätze. Fortschritte in der visuellen KI und bei Transformer-Modellen könnten GUI-Agenten zuverlässiger machen. Gleichzeitig vereinfachen neue Entwicklungswerkzeuge die API-Erstellung. Diese technologischen Entwicklungen könnten laut Studie zu gänzlich neuen Formen der Software-Automatisierung führen, die die Grenzen zwischen Backend-Integration und Frontend-Interaktion verwischen.

Strategische Entscheidung für den richtigen Agenten

Die Microsoft-Studie liefert konkrete Entscheidungskriterien für den Einsatz der verschiedenen Agententypen. API-Agenten eigneten sich besonders für Performance-kritische Operationen, bei denen es auf schnelle Ausführung ankommt. Die Forschenden empfehlen sie auch für Anwendungen mit gut dokumentierten Schnittstellen, da hier die Zuverlässigkeit am höchsten sei.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Tabelle mit Szenarien, empfohlenen Ansätzen (API-Agenten, GUI-Agenten, Hybrid) und Begründungen für den KI-Einsatz. — Der hybride Ansatz bietet Flexibilität bei der Weiterentwicklung. | Bild: Microsoft Research

Auch bei sicherheitskritischen Systemen haben API-Agenten Vorteile: Sie erlauben eine granulare Kontrolle der Zugriffsrechte auf einzelne Funktionen. Microsoft empfiehlt, dass Unternehmen API-Agenten bevorzugt für Backend-Integrationen und Datenbankzugriffe einsetzen sollten, wo direkte und effiziente Kommunikation entscheidend ist.

GUI-Agenten sollten dagegen bei Legacy-Systemen zum Einsatz kommen, für die keine programmierbaren Schnittstellen existieren. Die Forscher nennen auch mobile Anwendungen als typisches Einsatzgebiet, da diese oft keine externen API-Zugriffe erlauben. Besonders wertvoll sind GUI-Agenten zudem bei Aufgaben, die visuelle Überprüfung erfordern, etwa beim Testen von Benutzeroberflächen.

Ein hybrider Ansatz empfiehlt sich laut Studie, wenn Systeme nur teilweise über APIs verfügen. Auch für zukunftssichere Implementierungen bietet sich diese Kombination an: Organisationen können zunächst GUI-Agenten einsetzen und später schrittweise auf API-Aufrufe umstellen, sobald entsprechende Schnittstellen verfügbar sind. Die Forscher:innen betonen, dass die Wahl des richtigen Ansatzes entscheidend für den langfristigen Erfolg von Automatisierungsprojekten ist.

Aktuelle Agenten-Entwicklung

Passend dazu hat Anthropic vor Kurzem eine neue Technologie namens Model Context Protocol (MCP) vorgestellt. Das Open-Source-Projekt soll es KI-Systemen ermöglichen, einheitlich auf verschiedene Datenquellen zuzugreifen und teilweise komplexe Programme wie das 3D-Modeling-Tool Blender zu bedienen. Bisher mussten Entwickler:innen für jede Software eigene Schnittstellen programmieren. MCP will dieses Problem lösen, indem es als universeller Übersetzer zwischen KI-Systemen und Datenquellen fungiert. Gleichzeitig scheinen momentan vor allem GUI-basierte Agenten auf dem Vormarsch, etwa durch den ChatGPT Operator oder das chinesische Manus.

Microsoft-Studie: GUI-KI-Agenten sind flexibler, API-KI-Agenten zuverlässiger

Grundlegende Unterschiede der Agenten

Wartung und Transparenz

Hybride Lösungen gewinnen an Bedeutung

Forscher schlagen Mensch-Nachweis vor, um Menschen online von KIs zu unterscheiden

Strategische Entscheidung für den richtigen Agenten

Aktuelle Agenten-Entwicklung

Microsofts MAI-DxO sorgt für präzisere KI-Diagnosen und spart fast 70 Prozent der Kosten

Großkonzerne starten offenen Standard für KI-Agenten-Kommunikation

Salesforce-Benchmark zeigt: KI-Agenten scheitern an komplexen Geschäftsdialogen

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Microsoft-Studie: GUI-KI-Agenten sind flexibler, API-KI-Agenten zuverlässiger

Grundlegende Unterschiede der Agenten

Wartung und Transparenz

Hybride Lösungen gewinnen an Bedeutung

Strategische Entscheidung für den richtigen Agenten

Aktuelle Agenten-Entwicklung

Artikel teilen

Bankverbindung