Inhalt
summary Zusammenfassung

Hugging Face hat einen neuen, frei zugänglichen KI-Agenten vorgestellt, der grundlegende Computeraufgaben ausführen soll. Allerdings handelt es sich dabei eher um eine wackelige Tech-Demo als um einen nützlichen Assistenten.

Anzeige

Der Open Computer Agent, der per Webbrowser zugänglich ist, kann mithilfe einer Linux-basierten virtuellen Maschine mit Anwendungen wie Firefox interagieren – also unter anderem im Internet suchen.

Allerdings weist das Unternehmen selbst auf erhebliche Einschränkungen hin: Der Agent reagiert langsam, wird häufig von CAPTCHAs blockiert und muss häufig neu gestartet werden. Standardmäßig werden Anfragen zur Verbesserung der Technologie gespeichert, dies lässt sich jedoch deaktivieren.

Agent scheitert sogar an Demo-Aufgabe

In Tests von THE DECODER bestätigt sich das. Selbst als der Agent endlich eine Anfrage mit der von Hugging Face selbst zur Verfügung gestellten Demo-Aufgabe startet, den Firmensitz über Google Maps ausfindig zu machen, sucht das Tool unsinnigerweise zunächst nach einem "3d printing supply store". Zuverlässiger ist da altbewährtes Googeln: 20 Jay St Suite 620, Brooklyn, New York, USA.

Anzeige
Anzeige
Screenshot: Benutzeroberfläche des Open Computer Agent mit Eingabefeld für Aufgaben und Anzeige der Agenten-Aktivität in Google Maps.
Der Open Computer Agent nutzt eine virtuelle Linux-Maschine, mit der er verschiedene Programme wie Firefox bedienen kann. | Bild: Screenshot/THE DECODER

Immerhin hatte Hugging Face die Mittel, das Design für ein solches Experiment ungewöhnlich auf Hochglanz zu polieren: Um die interaktive Linux-Oberfläche ist ein schicker Rahmen in retrofuturistischer Optik zu sehen. Dieser scheint von der erfolgreichen Apple-Serie "Severance" inspiriert zu sein, denn er lässt sich mit einem Haken bei "Innie/Outie" ein- und ausschalten.

In einer Demo von Hugging-Face-Mitarbeiter Aymeric Roucher beantwortet der Computer Agent die Frage, "wie lange die Soldaten Alexanders von ihrem Aufbruch in Mazedonien bis nach Indien gelaufen waren, als sie beschlossen, dass sie zu müde waren, um weiterzugehen". | Video: Aymeric Roucher/Hugging Face

Der Agent basiert auf "smolagents", einem minimalistischen Framework für KI-Agenten, das Hugging Face im Dezember 2024 veröffentlichte. Diese Open-Source-Bibliothek ermöglicht die Entwicklung von KI-Agenten mit wenig Code, wobei die KI direkt Python-Code statt traditioneller JSON-Befehle schreibt. Dies soll zu effizienteren Arbeitsabläufen führen.

Technisch nutzt der Agent außerdem die Fähigkeiten des Vision-Modells Qwen-VL von Alibaba, das Elemente in Bildern lokalisieren und mit Benutzeroberflächen interagieren kann. In Benchmarks übertraf dessen neuste Version vom März Qwen2.5-VL-32B sogar größere Modelle wie das hauseigene Qwen2-VL-72B und zeigt besondere Stärken bei der Analyse komplexer visueller Informationen.

Mehr offene Tech-Demo als nützliches Produkt

Die Veröffentlichung des Open Computer Agent, inspiriert von OpenAIs ebenfalls experimentellem ChatGPT Operator, reiht sich in eine Serie von Open-Source-Initiativen von Hugging Face ein, die sich an kommerziellen Lösungen orientieren. Erst im Februar hatte das KI-Unternehmen mit Open Deep Research eine in 24 Stunden entwickelte Alternative zu OpenAIs Deep Research vorgestellt.

Empfehlung

Trotz des wachsenden Interesses an KI-Agenten in der Wirtschaft - laut KPMG experimentieren bereits 65 Prozent der Unternehmen damit - unterstreicht der aktuelle Stand des Open Computer Agent, dass Agenten, die Computer wie Menschen nutzen, noch in den Kinderschuhen stecken. Kurz: Für Entwickler:innen und Forscher:innen bietet der Agent eine interessante Experimentierplattform, für den praktischen Alltagseinsatz ist er nicht geeignet.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Hugging Face hat den Open Computer Agent vorgestellt, der grundlegende PC-Aufgaben über einen Webbrowser erledigen soll. Tests zeigen jedoch deutliche technische Schwächen - der Agent reagiert langsam und scheitert selbst an einfachen Demo-Aufgaben.
  • Das Tool basiert auf dem "smolagents"-Framework und nutzt das Vision-Modell Qwen-VL von Alibaba. Es kann mit einer Linux-basierten virtuellen Maschine und Programmen wie Firefox interagieren.
  • Die Veröffentlichung ist eher eine experimentelle Tech-Demo als ein ausgereiftes Produkt. Für Entwickler bietet der Agent eine Testplattform, für den Alltagsgebrauch ist er noch nicht geeignet und es ist fraglich, ob er es mit diesem Ansatz jemals sein wird.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!