Inhalt
summary Zusammenfassung

Klassische Benutzeroberflächen könnten mit dem Fortschritt von KI-Technologien in den Hintergrund treten. Mit UFO zeigt Microsoft, wie komfortabel die Bedienung von Windows in Zukunft sein könnte.

Microsoft hat ein Agenten-Framework namens UFO entwickelt, das eigenständig Benutzeranfragen innerhalb von Windows beantworten kann.

UFO steht für "UI-Focused Agent" und basiert auf dem Bilderkennungsmodell GPT-4V von OpenAI. Es analysiert die grafische Benutzeroberfläche und die Steuerungsinformationen von Windows-Anwendungen und soll auf dieser Basis eine nahtlose Navigation innerhalb und zwischen einzelnen Anwendungen ermöglichen.

Demonstration einer mehrstufigen Aufgabe, die UFO bewältigen kann. | Bild: Zhang et al.

UFO kombiniert zwei Agenten, um Entscheidungen darüber zu treffen, welche Anwendungen und Steuerelemente für die Bearbeitung von Benutzeranfragen ausgewählt werden sollen.

Anzeige
Anzeige

Der AppAgent wählt die geeignete Anwendung aus, während der ActAgent spezifische Aktionen in der ausgewählten Anwendung ausführt. Ein Steuerungsinteraktionsmodul übersetzt die ausgewählten Aktionen in ausführbare Operationen.

Bild: Zhang et al.

Die Leistung von UFO wurde anhand des WindowsBench-Tests bewertet, der 50 Benutzeranfragen in neun gängigen Windows-Anwendungen wie Outlook, PowerPoint, dem Dateiexplorer oder Adobes Acrobat Reader umfasst.

UFO schloss 86 Prozent der Aufgaben erfolgreich ab, deutlich mehr als andere Modelle wie GPT-3.5 und GPT-4, deren Befehle von Menschen statt von UFO über GPT-4V ausgeführt wurden.

Ebenso benötigte UFO im Durchschnitt weniger Schritte und berücksichtigte mehr Sicherheitsvorkehrungen, um etwa das unwiderrufliche Löschen von Dateien zu vermeiden.

Bild: Zhang et al.

Die Wissenschaftler:innen räumen jedoch noch deutliche Einschränkungen ihres Systems ein, da UFO lediglich die Kontrollen und Aktionen ausführen könnte, die vom Python-Paket pywinauto und der Windows-UI-Automation unterstützt werden. Außerdem stellten sie Schwierigkeiten fest, wenn UFO mit ungewöhnlichen Anwendungs-GUIs konfrontiert wurde.

Empfehlung

KI-Agenten müssen flexibler und verlässlicher werden

Für die Zukunft plant Microsoft, UFO durch die Unterstützung alternativer Backends und die Integration dedizierter GUI-Modelle für die visuelle Erkennung zu verbessern. Zusätzlich könnte die Anbindung an Online-Suchmaschinen als externe Wissensbasis die Anpassungsfähigkeit des Agenten an unbekannte GUIs verbessern.

Bisher sind handelnde KI-Agenten nicht besonders flexibel und zuverlässig. Zudem entstehen zusätzliche Kosten. UFO kann zwar über das Open-Source-Repository auf GitHub kostenlos auf dem eigenen Rechner installiert werden, benötigt aber für die KI-Verarbeitung einen API-Schlüssel von OpenAI, der bei jeder Anfrage Kosten verursacht. Zudem ist es nur über die Kommandozeile zugänglich.

Damit Konzepte wie UFO tatsächlich zum Einsatz kommen können, müssten sie stärker in das Betriebssystem integriert und idealerweise lokal ausgeführt werden, um eine schnelle Performance bei geringeren Kosten zu ermöglichen. Das wäre günstiger und würde Datenschutzbedenken ausräumen.

Dennoch ist UFO ein vielversprechender Schritt, um die Bedienung von Computern grundlegend zu verändern. Denn dank leistungsfähiger Spracherkennungsmodelle wie Whisper kann man sich auch das Eintippen von Befehlen sparen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Microsoft weist darauf hin, dass während der Ausführung von UFO keine sensiblen oder vertraulichen Informationen sichtbar sein sollen. Die Screenshots des Bildschirms werden über die Programmierschnittstelle an GPT-4V geschickt.

LAMs als nächste KI-Evolution

UFO ist zwar der erste, auf die Windows-Oberfläche abgestimmte KI-Navigator, doch nicht der erste Versuch, User-Interfaces durch natürliche Spracheingabe zu ersetzen.

Frühere Beispiele dafür sind etwa Agent-1 oder ACT-1, die sich ähnliche Funktionen als Ziele gesetzt hatten. Google hat vor einiger Zeit untersucht, inwiefern sich ein Smartphone nur per Sprache bedienen lässt.

Die kürzlich vorgestellte KI-Hardware von rabbit basiert ebenfalls auf "LAMs" (Large Action Model), großen Sprachmodellen, die in der Lage sind, menschliche Schnittstellen auf der Grundlage von Sprachbefehlen zu steuern. Gerüchten zufolge arbeitet auch OpenAI an zwei LAM-Agenten, die ganze Arbeitsprozesse automatisieren könnten.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft hat einen UI-Focused Agent (UFO) entwickelt, der eigenständig Benutzeranfragen in Windows bearbeitet. UFO verwendet dafür GPT-4V von OpenAI, um die grafische Benutzeroberfläche und Steuerungsinformationen von Anwendungen zu analysieren.
  • UFO verwendet eine Kombination aus zwei Agenten, AppAgent und ActAgent, um geeignete Anwendungen auszuwählen und bestimmte Aktionen in diesen durchzuführen. Das System erreicht eine Erfolgsrate von 86 Prozent bei Aufgaben im WindowsBench-Test.
  • Das System hat derzeit noch einige Einschränkungen, aber zukünftige Verbesserungen könnten alternative Backends, dedizierte GUI-Modelle und die Integration mit Online-Suchmaschinen für eine bessere Anpassbarkeit umfassen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!