Microsoft Research hat API- und GUI-basierte KI-Agenten analysiert und deren unterschiedliche Einsatzgebiete dokumentiert. Die Studie zeigt, wie sich beide Ansätze ergänzen können.
API-basierte (Application Programming Interface) Agenten arbeiten dabei über programmierte Schnittstellen, GUI-basierte (Graphical User Interface) Agenten interagieren mit grafischen Benutzeroberflächen.
Beide könnten etwa einen Kalender bedienen: Ein API-Agent würde einen Termin mit einem einzigen Funktionsaufruf anlegen, ein GUI-Agent müsste stattdessen die Kalender-App öffnen, durch Menüs navigieren, Felder ausfüllen und Buttons anklicken. Beide Ansätze haben jedoch ihre Berechtigung, argumentiert Microsoft.

Grundlegende Unterschiede der Agenten
Die Microsoft-Forscher:innen haben die Agententypen in neun Dimensionen verglichen. API-Agenten nutzen Text und Funktionsaufrufe, während GUI-Agenten Bildschirminhalte verarbeiten müssen. Das macht API-Agenten zuverlässiger, da sie weniger Fehlerquellen ausgesetzt sind.
Die Effizienz spricht ebenfalls für API-Agenten: Sie können komplexe Aufgaben mit einem einzigen Aufruf erledigen. GUI-Agenten müssen dagegen mehrere Einzelschritte ausführen. Bei der Verfügbarkeit haben wiederum GUI-Agenten die Nase vorn - sie können jede Software mit Benutzeroberfläche steuern.

Die Flexibilität der GUI-Agenten zeigt sich besonders bei neuen oder unbekannten Funktionen. Die Sicherheit lässt sich bei API-Agenten besser kontrollieren, da Berechtigungen für einzelne Schnittstellen vergeben werden können. GUI-Agenten haben dagegen oft Zugriff auf die gesamte Benutzeroberfläche.
Wartung und Transparenz
Bei der Wartbarkeit profitieren API-Agenten von stabilen, versionierten Schnittstellen. GUI-Agenten können durch Änderungen an der Oberfläche gestört werden. Die Transparenz ist dafür bei GUI-Agenten höher: Nutzer:innen können jeden Arbeitsschritt nachvollziehen.
Die menschenähnliche Interaktion der GUI-Agenten macht sie laut Studie besonders geeignet für Aufgaben, die visuelle Überprüfung erfordern. Die Forscher:innen dokumentieren dies am Beispiel eines Finanzberichts: Der GUI-Agent navigiert durch Menüs, wählt Berichtstypen aus und setzt Parameter - genau wie menschliche Nutzer:innen.
Hybride Lösungen gewinnen an Bedeutung
Microsoft Research beschreibt drei Hauptansätze für die Kombination der Agententypen. Der erste Ansatz nutzt API-Wrapper: Sie übersetzen GUI-basierte Anwendungen in quasi-API-Dienste. Ein Beispiel aus der Studie zeigt, wie ein Finanzbericht, der normalerweise mehrere manuelle Schritte erfordert, in einen einzelnen API-Aufruf GenerateReport() übersetzt wird. Im Hintergrund führt der Wrapper weiterhin die GUI-Aktionen aus, präsentiert aber eine programmierbare Schnittstelle nach außen.
Der zweite Ansatz setzt auf vereinheitlichte Orchestrierungstools. Die Forscher demonstrieren dies am Beispiel eines Kreditantragsprozesses: Der Orchestrator ruft APIs für Bonitätsprüfungen und Datenbankabfragen auf, wechselt aber zu GUI-Aktionen für das Versenden von E-Mails. Microsofts experimentelles Tool UFO zeigt diesen Ansatz in der Praxis: Es priorisiert verfügbare APIs, fällt aber automatisch auf GUI-Interaktionen zurück, wenn keine Schnittstellen existieren.

Als dritten Weg identifiziert die Studie Low-Code- und No-Code-Plattformen. Diese ermöglichten es auch technisch weniger versierten Nutzer:innen, komplexe Automatisierungen zu erstellen. Die Plattformen übersetzen visuelle Workflow-Komponenten im Hintergrund in die jeweils effizienteste Ausführungsform.
Die Forscher sehen in der Weiterentwicklung multimodaler KI-Modelle einen wichtigen Treiber für die Konvergenz der Ansätze. Fortschritte in der visuellen KI und bei Transformer-Modellen könnten GUI-Agenten zuverlässiger machen. Gleichzeitig vereinfachen neue Entwicklungswerkzeuge die API-Erstellung. Diese technologischen Entwicklungen könnten laut Studie zu gänzlich neuen Formen der Software-Automatisierung führen, die die Grenzen zwischen Backend-Integration und Frontend-Interaktion verwischen.
Strategische Entscheidung für den richtigen Agenten
Die Microsoft-Studie liefert konkrete Entscheidungskriterien für den Einsatz der verschiedenen Agententypen. API-Agenten eigneten sich besonders für Performance-kritische Operationen, bei denen es auf schnelle Ausführung ankommt. Die Forschenden empfehlen sie auch für Anwendungen mit gut dokumentierten Schnittstellen, da hier die Zuverlässigkeit am höchsten sei.

Auch bei sicherheitskritischen Systemen haben API-Agenten Vorteile: Sie erlauben eine granulare Kontrolle der Zugriffsrechte auf einzelne Funktionen. Microsoft empfiehlt, dass Unternehmen API-Agenten bevorzugt für Backend-Integrationen und Datenbankzugriffe einsetzen sollten, wo direkte und effiziente Kommunikation entscheidend ist.
GUI-Agenten sollten dagegen bei Legacy-Systemen zum Einsatz kommen, für die keine programmierbaren Schnittstellen existieren. Die Forscher nennen auch mobile Anwendungen als typisches Einsatzgebiet, da diese oft keine externen API-Zugriffe erlauben. Besonders wertvoll sind GUI-Agenten zudem bei Aufgaben, die visuelle Überprüfung erfordern, etwa beim Testen von Benutzeroberflächen.
Ein hybrider Ansatz empfiehlt sich laut Studie, wenn Systeme nur teilweise über APIs verfügen. Auch für zukunftssichere Implementierungen bietet sich diese Kombination an: Organisationen können zunächst GUI-Agenten einsetzen und später schrittweise auf API-Aufrufe umstellen, sobald entsprechende Schnittstellen verfügbar sind. Die Forscher:innen betonen, dass die Wahl des richtigen Ansatzes entscheidend für den langfristigen Erfolg von Automatisierungsprojekten ist.
Aktuelle Agenten-Entwicklung
Passend dazu hat Anthropic vor Kurzem eine neue Technologie namens Model Context Protocol (MCP) vorgestellt. Das Open-Source-Projekt soll es KI-Systemen ermöglichen, einheitlich auf verschiedene Datenquellen zuzugreifen und teilweise komplexe Programme wie das 3D-Modeling-Tool Blender zu bedienen. Bisher mussten Entwickler:innen für jede Software eigene Schnittstellen programmieren. MCP will dieses Problem lösen, indem es als universeller Übersetzer zwischen KI-Systemen und Datenquellen fungiert. Gleichzeitig scheinen momentan vor allem GUI-basierte Agenten auf dem Vormarsch, etwa durch den ChatGPT Operator oder das chinesische Manus.