Hugging Face hat einen neuen, frei zugänglichen KI-Agenten vorgestellt, der grundlegende Computeraufgaben ausführen soll. Allerdings handelt es sich dabei eher um eine wackelige Tech-Demo als um einen nützlichen Assistenten.
Der Open Computer Agent, der per Webbrowser zugänglich ist, kann mithilfe einer Linux-basierten virtuellen Maschine mit Anwendungen wie Firefox interagieren – also unter anderem im Internet suchen.
Allerdings weist das Unternehmen selbst auf erhebliche Einschränkungen hin: Der Agent reagiert langsam, wird häufig von CAPTCHAs blockiert und muss häufig neu gestartet werden. Standardmäßig werden Anfragen zur Verbesserung der Technologie gespeichert, dies lässt sich jedoch deaktivieren.
Agent scheitert sogar an Demo-Aufgabe
In Tests von THE DECODER bestätigt sich das. Selbst als der Agent endlich eine Anfrage mit der von Hugging Face selbst zur Verfügung gestellten Demo-Aufgabe startet, den Firmensitz über Google Maps ausfindig zu machen, sucht das Tool unsinnigerweise zunächst nach einem "3d printing supply store". Zuverlässiger ist da altbewährtes Googeln: 20 Jay St Suite 620, Brooklyn, New York, USA.

Immerhin hatte Hugging Face die Mittel, das Design für ein solches Experiment ungewöhnlich auf Hochglanz zu polieren: Um die interaktive Linux-Oberfläche ist ein schicker Rahmen in retrofuturistischer Optik zu sehen. Dieser scheint von der erfolgreichen Apple-Serie "Severance" inspiriert zu sein, denn er lässt sich mit einem Haken bei "Innie/Outie" ein- und ausschalten.
In einer Demo von Hugging-Face-Mitarbeiter Aymeric Roucher beantwortet der Computer Agent die Frage, "wie lange die Soldaten Alexanders von ihrem Aufbruch in Mazedonien bis nach Indien gelaufen waren, als sie beschlossen, dass sie zu müde waren, um weiterzugehen". | Video: Aymeric Roucher/Hugging Face
Der Agent basiert auf "smolagents", einem minimalistischen Framework für KI-Agenten, das Hugging Face im Dezember 2024 veröffentlichte. Diese Open-Source-Bibliothek ermöglicht die Entwicklung von KI-Agenten mit wenig Code, wobei die KI direkt Python-Code statt traditioneller JSON-Befehle schreibt. Dies soll zu effizienteren Arbeitsabläufen führen.
Technisch nutzt der Agent außerdem die Fähigkeiten des Vision-Modells Qwen-VL von Alibaba, das Elemente in Bildern lokalisieren und mit Benutzeroberflächen interagieren kann. In Benchmarks übertraf dessen neuste Version vom März Qwen2.5-VL-32B sogar größere Modelle wie das hauseigene Qwen2-VL-72B und zeigt besondere Stärken bei der Analyse komplexer visueller Informationen.
Mehr offene Tech-Demo als nützliches Produkt
Die Veröffentlichung des Open Computer Agent, inspiriert von OpenAIs ebenfalls experimentellem ChatGPT Operator, reiht sich in eine Serie von Open-Source-Initiativen von Hugging Face ein, die sich an kommerziellen Lösungen orientieren. Erst im Februar hatte das KI-Unternehmen mit Open Deep Research eine in 24 Stunden entwickelte Alternative zu OpenAIs Deep Research vorgestellt.
Trotz des wachsenden Interesses an KI-Agenten in der Wirtschaft - laut KPMG experimentieren bereits 65 Prozent der Unternehmen damit - unterstreicht der aktuelle Stand des Open Computer Agent, dass Agenten, die Computer wie Menschen nutzen, noch in den Kinderschuhen stecken. Kurz: Für Entwickler:innen und Forscher:innen bietet der Agent eine interessante Experimentierplattform, für den praktischen Alltagseinsatz ist er nicht geeignet.