Inhalt
summary Zusammenfassung

Agent TARS soll komplexe Aufgaben automatisieren, indem er Webinhalte visuell interpretiert und mit Kommandozeile und Dateisystem interagiert. Die App ist quelloffen, aber noch auf macOS beschränkt.

Anzeige

Die von TikTok-Mutterkonzern Bytedance entwickelte, noch experimentelle App basiert auf einem agentischen Framework, das Abläufe wie Suchen, Browsen und Linknavigation automatisch plant und ausführt. Dabei kommuniziert der Agent über ein Event-Stream-System mit der Benutzeroberfläche und stellt Zwischenstände sowie Ergebnisse in Echtzeit dar.

Video: Bytedance

Agent TARS verarbeitet Webseiten visuell und nutzt das Model Context Protocol (MCP) von Anthropic, um mit verschiedenen Werkzeugen wie Texteditoren, Kommandozeilen und Dateisystemen zu interagieren. Eine Windows-Version ist geplant, befindet sich aber noch in Vorbereitung.

Anzeige
Anzeige

Multimodale Schnittstellen und Echtzeitdarstellung

Die Benutzeroberfläche bietet eine Live-Ansicht aller Agentenaktivitäten. Dokumente, Browserfenster und andere Prozessartefakte werden in Echtzeit angezeigt. Nutzer:innen können während der Bearbeitung eingreifen und Anweisungen über ein Eingabefeld ergänzen, um die Richtung der Aufgabenverarbeitung zu beeinflussen.

Benutzeroberfläche eines KI-Agenten mit Suchleiste, Aufgabenliste und Analyseergebnissen zu Nvidia-Aktiendaten.
Während die KI eigenständig Aufgaben ausführt, sollen Menschen jederzeit durch Prompts eingreifen können. | Bild: Bytedance

Auf der Website des Projekts finden sich mehrere konkrete Anwendungsbeispiele. Dazu gehören unter anderem eine technische Analyse des Tesla-Aktienkurses, eine Auswertung populärer Projekte auf ProductHunt, ein Fehlerbericht zum Lynx-Repository sowie ein Reiseplan für eine siebentägige Tour durch Mexiko-Stadt. Diese Showcases demonstrieren die Bandbreite möglicher Anwendungen – vom Software-Engineering bis zur Freizeitplanung.

Die App ermöglicht es, ganze Agentensitzungen zu exportieren. Dazu stehen zwei Optionen zur Verfügung: eine lokale HTML-Datei oder der Upload auf einen externen Server. Im zweiten Fall wird ein POST-Request mit einer HTML-Bündeldatei an den Server gesendet, der eine URL zur Weitergabe zurückliefert.

Claude als bevorzugtes Modell

Nach der Installation über GitHub muss die App konfiguriert werden. Dabei lassen sich Modellanbieter und Suchdienste über API-Schlüssel einbinden. Für Azure OpenAI sind zusätzliche Parameter wie apiVersion oder deploymentName erforderlich.

Die Anwendung ist derzeit am besten mit Claude kompatibel, das laut Entwicklerteam als "temporär beste Option" gilt. Die Unterstützung für OpenAI-Modelle ist noch instabil. Wichtig ist zudem: Agent TARS unterstützt das UI-TARS-Modell nicht – im Gegensatz zur gleichnamigen Desktop-Variante UI TARS Desktop.

Empfehlung

Auch Agenten-Modell mit ähnlichem Namen

In einem aktuellen Blogeintrag räumt das Entwicklerteam ein, dass es wiederholt zu Verwechslungen zwischen der hier vorgestellten Agent TARS App und UI TARS Desktop gekommen sei. Letztere Anwendung dient ausschließlich zur Automatisierung von grafischen Benutzeroberflächen auf Systemebene und nutzt das eigene UI-TARS-Modell.

Dieses Modell läuft unter macOS und Windows, während Agent TARS auf browserbasierte Aufgaben spezialisiert und derzeit nur auf macOS verfügbar ist. Beide Anwendungen verfolgen unterschiedliche Ziele und sind nicht miteinander kompatibel.

Agent TARS befindet sich im technischen Vorschaustadium. Der Einsatz in produktiven Umgebungen wird derzeit nicht empfohlen. Die Entwickler:innen fordern zur aktiven Beteiligung auf: Feedback, Fehlerberichte und Beiträge sind über GitHub, Discord oder X willkommen. Weitere Details zur Architektur und Roadmap sollen folgen. Ziel ist es, eine offene Plattform für agentengesteuerte, multimodale Aufgabenverarbeitung zu etablieren.

Eigenständige KI-Systeme, angetrieben von multimodalen Sprachmodellen wie Claude 3.5 Sonnet, GPT-4o oder Gemini 2.0, stehen derzeit hoch im Kurs und versprechen, repetitive Aufgaben zu automatisieren. Obwohl Unternehmen wie OpenAI, Manus und Google solche Agenten bereits als kommerzielle Angebote verkaufen oder dies noch planen, scheitern solche Systeme oft an Hindernissen moderner Webseiten und lassen sich leicht in die Irre führen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Agent TARS von ByteDance ist eine quelloffene macOS-App, die komplexe Aufgaben automatisiert, indem sie Webseiten visuell interpretiert und mit Kommandozeile sowie Dateisystem interagiert. Eine Windows-Version ist geplant.
  • Die App setzt auf ein agentisches Framework, nutzt das Model Context Protocol von Anthropic und zeigt alle Aktivitäten in Echtzeit an. Nutzer können während der Bearbeitung eingreifen und Agentensitzungen als HTML-Dateien lokal speichern oder extern teilen.
  • Agent TARS ist derzeit im technischen Vorschaustadium, empfiehlt sich nicht für produktive Einsätze und unterstützt am besten das Claude-Modell. Das Entwicklerteam betont die Unterschiede zur ähnlichen UI TARS Desktop-Anwendung und ruft zur aktiven Beteiligung auf.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!