Inhalt
summary Zusammenfassung

Forschende haben mit Agent S ein KI-System entwickelt, das durch Beobachtung lernt, Routineaufgaben am Computer eigenständig zu erledigen. Die Technologie könnte den Weg für eine neue Generation digitaler Assistenten ebnen.

Anzeige

Simple Aufgaben wie Dateneingabe, Terminplanung oder Dokumenterstellung binden in vielen Büros wertvolle Arbeitszeit am Computer. Ein Forschungsteam hat nun ein KI-System namens Agent S vorgestellt, das solche Aufgaben ähnlich zur Herangehensweise eines Menschen lösen können soll. Das Paper "Agent S: An Open Agentic Framework That Uses Computers Like a Human" beschreibt die Grundlagen des Systems.

Agent S verbindet die Fähigkeiten moderner Sprachmodelle mit einem speziellen Interface, über das es die Steuerung von Maus, Tastatur und Bildschirm übernimmt. Die Forscher:innen haben sich bei der Computerbedienung eines Menschen orientiert: Es klickt auf Schaltflächen, tippt Text ein und navigiert durch Menüs und Ordner.

Dadurch eröffnen sich weitreichende Möglichkeiten der Automatisierung, sowohl für individuelle Anwender:innen als auch in Unternehmen, unabhängig von der jeweiligen Software, die es zu bedienen gilt. Auch für Menschen mit Behinderungen könnte die Technologie neue Chancen bieten.

Anzeige
Anzeige

Ausschlaggebende Lernfähigkeit

Schon zuvor gab es verschiedene Ansätze, die das gleiche Ziel hatten. Microsoft hatte Anfang des Jahres außerdem das experimentelle Framework UFO gezeigt. Die besondere Stärke von Agent S liegt in seiner Lernfähigkeit. Das System greift zum einen auf Informationen aus dem Internet zurück, etwa auf Anleitungen für bestimmte Computerprogramme. Dadurch kann es sich flexibel an ständig verändernde Anwendungen anpassen.

Zum anderen speichert Agent S seine eigenen Erfahrungen aus früheren Aufgaben in einer Art Gedächtnis. Steht eine neue Aufgabe an, durchsucht das System diesen Erfahrungsschatz nach ähnlichen Fällen und zerlegt das Problem in überschaubare Teilschritte.

Komplexes Flussdiagramm: KI-Agentenarchitektur für Desktop-Aufgaben, Module für Planung, Wissen und Aktionsgenerierung.
Diese Diagramme veranschaulichen die komplexe Funktionsweise eines KI-Agenten namens Agent S, der menschenähnlich Computeraufgaben löst. Das System nutzt verschiedene Komponenten wie Gedächtnismodule, Planungsalgorithmen und eine Computerschnittstelle. | Bild: Simular

Während der Ausführung überwacht es kontinuierlich den Fortschritt und optimiert seine Vorgehensweise. Nach Abschluss der Aufgabe fließen die neuen Erfahrungen wieder in den Wissensspeicher ein - die KI erweitert so mit jeder gelösten Aufgabe ihre Fähigkeiten.

Die Brücke zwischen dem KI-System und dem Computer bildet ein speziell entwickeltes "Agent-Computer-Interface". Es übersetzt gewissermaßen zwischen den beiden Welten und sorgt für eine sichere und zuverlässige Ausführung der Befehle. Dazu wertet es einerseits visuelle Informationen aus, um Änderungen auf dem Bildschirm zu erfassen.

Andererseits erstellt es eine Art digitalen Zwilling aller Bedienelemente und ihrer Anordnung. Statt mit absoluten Mauskoordinaten arbeitet Agent S mit Anweisungen wie "Klicke auf Schaltfläche Nr. 42". Dieser Ansatz macht die Steuerung robuster und reduziert laut Paper die Fehleranfälligkeit.

Empfehlung

Wenig Unterschiede zwischen Claude 3.5 und GPT-4o

In ersten Praxistests der Entwickler:innen unterzog sich Agent S einem Leistungsvergleich bei typischen Computeraufgaben. In einem Benchmark mit Aufgaben unter Linux steigerte Agent S die Erfolgsrate gegenüber einem reinen Sprachmodell um fast 90 Prozent - liegt aber dennoch bei lediglich knapp 20 Prozent.

Außerdem ist das System langsam: In Demovideos benötigt Agent S etwa zum Entfernen eines Kontos im E-Mail-Client Thunderbird rund sechs Minuten, zum Deaktivieren der Autosave-Funktion in VS Code gut drei.

Agent S kann mit verschiedenen Sprachmodellen per API verknüpft werden. Je nach Aufgabenbereich lag mal Claude 3.5, mal GPT-4o in Verbindung mit dem Framework vorne, insgesamt bleibt der Unterschied mit 0,1 Prozentpunkten jedoch marginal. Ein auf solche Anwendungsfälle optimiertes Sprachmodell könnte nochmal bessere Leistung versprechen.

Tabelle: Erfolgsraten verschiedener KI-Methoden auf OSWorld-Testset, Agent S zeigt höchste Gesamtleistung von 20.58%.
Die Tabelle zeigt einen deutlichen Leistungssprung bei der Verwendung von Agent S mit verschiedenen Sprachmodellen. Insbesondere in den Kategorien "Daily" und "Profess." übertrifft Agent S die Einzelmodelle erheblich. | Bild: Simular

In einer Testumgebung unter Windows erzielte das System ohne spezielle Anpassung ebenfalls gute Ergebnisse. Die Grundprinzipien scheinen also über Betriebssystemgrenzen hinweg tragfähig.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Die Forschenden sehen Raum für Verbesserungen. Eine detaillierte Fehleranalyse führte rund 40 Prozent der beobachteten Probleme auf Schwächen bei der Aufgabenplanung oder der Zuordnung von Steuerbefehlen zu Bildschirmelementen zurück. Auch die Verarbeitungsgeschwindigkeit wollen die Entwickler weiter optimieren.

Generell gibt es verschiedene Ansätze von Wissenschaftler:innen, Nutzeroberflächen per natürlicher Spracheingabe zu bedienen – dieses Versprechen hat auch beispielsweise das KI-Start-up Rabbit gemacht, trotz Veröffentlichung des Large Action Model Playgrounds bislang allerdings nicht eingehalten. Bis solche Systeme ausgereift genug sind, um im Alltag mehr Zeit zu sparen als zu kosten, dürfte es noch eine Weile dauern.

Der Python-Code für Agent S steht auf GitHub kostenfrei zur Verfügung.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende haben ein KI-System namens Agent S entwickelt, das durch Beobachtung lernt, Routineaufgaben am Computer eigenständig zu erledigen, indem es Maus, Tastatur und Bildschirm ähnlich wie ein Mensch steuert.
  • Agent S verbindet moderne Sprachmodelle mit einem speziellen Interface und greift auf Informationen aus dem Internet sowie eigene Erfahrungen zurück, um sich flexibel an verändernde Anwendungen anzupassen und Aufgaben in Teilschritte zu zerlegen.
  • In ersten Tests erreicht Agent S eine Erfolgsrate von knapp 20 Prozent, wobei die Sprachmodelle Claude 3.5 und GPT-4o in Verbindung mit dem Framework ähnlich gut abschnitten. Dennoch sehen die Forschenden noch Raum für Verbesserungen bei Aufgabenplanung, Zuordnung von Steuerbefehlen und Verarbeitungsgeschwindigkeit.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!