Forschende haben mit Agent S ein KI-System entwickelt, das durch Beobachtung lernt, Routineaufgaben am Computer eigenständig zu erledigen. Die Technologie könnte den Weg für eine neue Generation digitaler Assistenten ebnen.
Simple Aufgaben wie Dateneingabe, Terminplanung oder Dokumenterstellung binden in vielen Büros wertvolle Arbeitszeit am Computer. Ein Forschungsteam hat nun ein KI-System namens Agent S vorgestellt, das solche Aufgaben ähnlich zur Herangehensweise eines Menschen lösen können soll. Das Paper "Agent S: An Open Agentic Framework That Uses Computers Like a Human" beschreibt die Grundlagen des Systems.
Agent S verbindet die Fähigkeiten moderner Sprachmodelle mit einem speziellen Interface, über das es die Steuerung von Maus, Tastatur und Bildschirm übernimmt. Die Forscher:innen haben sich bei der Computerbedienung eines Menschen orientiert: Es klickt auf Schaltflächen, tippt Text ein und navigiert durch Menüs und Ordner.
Dadurch eröffnen sich weitreichende Möglichkeiten der Automatisierung, sowohl für individuelle Anwender:innen als auch in Unternehmen, unabhängig von der jeweiligen Software, die es zu bedienen gilt. Auch für Menschen mit Behinderungen könnte die Technologie neue Chancen bieten.
Ausschlaggebende Lernfähigkeit
Schon zuvor gab es verschiedene Ansätze, die das gleiche Ziel hatten. Microsoft hatte Anfang des Jahres außerdem das experimentelle Framework UFO gezeigt. Die besondere Stärke von Agent S liegt in seiner Lernfähigkeit. Das System greift zum einen auf Informationen aus dem Internet zurück, etwa auf Anleitungen für bestimmte Computerprogramme. Dadurch kann es sich flexibel an ständig verändernde Anwendungen anpassen.
Zum anderen speichert Agent S seine eigenen Erfahrungen aus früheren Aufgaben in einer Art Gedächtnis. Steht eine neue Aufgabe an, durchsucht das System diesen Erfahrungsschatz nach ähnlichen Fällen und zerlegt das Problem in überschaubare Teilschritte.
Während der Ausführung überwacht es kontinuierlich den Fortschritt und optimiert seine Vorgehensweise. Nach Abschluss der Aufgabe fließen die neuen Erfahrungen wieder in den Wissensspeicher ein - die KI erweitert so mit jeder gelösten Aufgabe ihre Fähigkeiten.
Die Brücke zwischen dem KI-System und dem Computer bildet ein speziell entwickeltes "Agent-Computer-Interface". Es übersetzt gewissermaßen zwischen den beiden Welten und sorgt für eine sichere und zuverlässige Ausführung der Befehle. Dazu wertet es einerseits visuelle Informationen aus, um Änderungen auf dem Bildschirm zu erfassen.
Andererseits erstellt es eine Art digitalen Zwilling aller Bedienelemente und ihrer Anordnung. Statt mit absoluten Mauskoordinaten arbeitet Agent S mit Anweisungen wie "Klicke auf Schaltfläche Nr. 42". Dieser Ansatz macht die Steuerung robuster und reduziert laut Paper die Fehleranfälligkeit.
Wenig Unterschiede zwischen Claude 3.5 und GPT-4o
In ersten Praxistests der Entwickler:innen unterzog sich Agent S einem Leistungsvergleich bei typischen Computeraufgaben. In einem Benchmark mit Aufgaben unter Linux steigerte Agent S die Erfolgsrate gegenüber einem reinen Sprachmodell um fast 90 Prozent - liegt aber dennoch bei lediglich knapp 20 Prozent.
Außerdem ist das System langsam: In Demovideos benötigt Agent S etwa zum Entfernen eines Kontos im E-Mail-Client Thunderbird rund sechs Minuten, zum Deaktivieren der Autosave-Funktion in VS Code gut drei.
Agent S kann mit verschiedenen Sprachmodellen per API verknüpft werden. Je nach Aufgabenbereich lag mal Claude 3.5, mal GPT-4o in Verbindung mit dem Framework vorne, insgesamt bleibt der Unterschied mit 0,1 Prozentpunkten jedoch marginal. Ein auf solche Anwendungsfälle optimiertes Sprachmodell könnte nochmal bessere Leistung versprechen.
In einer Testumgebung unter Windows erzielte das System ohne spezielle Anpassung ebenfalls gute Ergebnisse. Die Grundprinzipien scheinen also über Betriebssystemgrenzen hinweg tragfähig.
Die Forschenden sehen Raum für Verbesserungen. Eine detaillierte Fehleranalyse führte rund 40 Prozent der beobachteten Probleme auf Schwächen bei der Aufgabenplanung oder der Zuordnung von Steuerbefehlen zu Bildschirmelementen zurück. Auch die Verarbeitungsgeschwindigkeit wollen die Entwickler weiter optimieren.
Generell gibt es verschiedene Ansätze von Wissenschaftler:innen, Nutzeroberflächen per natürlicher Spracheingabe zu bedienen – dieses Versprechen hat auch beispielsweise das KI-Start-up Rabbit gemacht, trotz Veröffentlichung des Large Action Model Playgrounds bislang allerdings nicht eingehalten. Bis solche Systeme ausgereift genug sind, um im Alltag mehr Zeit zu sparen als zu kosten, dürfte es noch eine Weile dauern.
Der Python-Code für Agent S steht auf GitHub kostenfrei zur Verfügung.