Agent TARS soll komplexe Aufgaben automatisieren, indem er Webinhalte visuell interpretiert und mit Kommandozeile und Dateisystem interagiert. Die App ist quelloffen, aber noch auf macOS beschränkt.
Die von TikTok-Mutterkonzern Bytedance entwickelte, noch experimentelle App basiert auf einem agentischen Framework, das Abläufe wie Suchen, Browsen und Linknavigation automatisch plant und ausführt. Dabei kommuniziert der Agent über ein Event-Stream-System mit der Benutzeroberfläche und stellt Zwischenstände sowie Ergebnisse in Echtzeit dar.
Video: Bytedance
Agent TARS verarbeitet Webseiten visuell und nutzt das Model Context Protocol (MCP) von Anthropic, um mit verschiedenen Werkzeugen wie Texteditoren, Kommandozeilen und Dateisystemen zu interagieren. Eine Windows-Version ist geplant, befindet sich aber noch in Vorbereitung.
Multimodale Schnittstellen und Echtzeitdarstellung
Die Benutzeroberfläche bietet eine Live-Ansicht aller Agentenaktivitäten. Dokumente, Browserfenster und andere Prozessartefakte werden in Echtzeit angezeigt. Nutzer:innen können während der Bearbeitung eingreifen und Anweisungen über ein Eingabefeld ergänzen, um die Richtung der Aufgabenverarbeitung zu beeinflussen.

Auf der Website des Projekts finden sich mehrere konkrete Anwendungsbeispiele. Dazu gehören unter anderem eine technische Analyse des Tesla-Aktienkurses, eine Auswertung populärer Projekte auf ProductHunt, ein Fehlerbericht zum Lynx-Repository sowie ein Reiseplan für eine siebentägige Tour durch Mexiko-Stadt. Diese Showcases demonstrieren die Bandbreite möglicher Anwendungen – vom Software-Engineering bis zur Freizeitplanung.
Die App ermöglicht es, ganze Agentensitzungen zu exportieren. Dazu stehen zwei Optionen zur Verfügung: eine lokale HTML-Datei oder der Upload auf einen externen Server. Im zweiten Fall wird ein POST-Request mit einer HTML-Bündeldatei an den Server gesendet, der eine URL zur Weitergabe zurückliefert.
Claude als bevorzugtes Modell
Nach der Installation über GitHub muss die App konfiguriert werden. Dabei lassen sich Modellanbieter und Suchdienste über API-Schlüssel einbinden. Für Azure OpenAI sind zusätzliche Parameter wie apiVersion oder deploymentName erforderlich.
Die Anwendung ist derzeit am besten mit Claude kompatibel, das laut Entwicklerteam als "temporär beste Option" gilt. Die Unterstützung für OpenAI-Modelle ist noch instabil. Wichtig ist zudem: Agent TARS unterstützt das UI-TARS-Modell nicht – im Gegensatz zur gleichnamigen Desktop-Variante UI TARS Desktop.
Auch Agenten-Modell mit ähnlichem Namen
In einem aktuellen Blogeintrag räumt das Entwicklerteam ein, dass es wiederholt zu Verwechslungen zwischen der hier vorgestellten Agent TARS App und UI TARS Desktop gekommen sei. Letztere Anwendung dient ausschließlich zur Automatisierung von grafischen Benutzeroberflächen auf Systemebene und nutzt das eigene UI-TARS-Modell.
Dieses Modell läuft unter macOS und Windows, während Agent TARS auf browserbasierte Aufgaben spezialisiert und derzeit nur auf macOS verfügbar ist. Beide Anwendungen verfolgen unterschiedliche Ziele und sind nicht miteinander kompatibel.
Agent TARS befindet sich im technischen Vorschaustadium. Der Einsatz in produktiven Umgebungen wird derzeit nicht empfohlen. Die Entwickler:innen fordern zur aktiven Beteiligung auf: Feedback, Fehlerberichte und Beiträge sind über GitHub, Discord oder X willkommen. Weitere Details zur Architektur und Roadmap sollen folgen. Ziel ist es, eine offene Plattform für agentengesteuerte, multimodale Aufgabenverarbeitung zu etablieren.
Eigenständige KI-Systeme, angetrieben von multimodalen Sprachmodellen wie Claude 3.5 Sonnet, GPT-4o oder Gemini 2.0, stehen derzeit hoch im Kurs und versprechen, repetitive Aufgaben zu automatisieren. Obwohl Unternehmen wie OpenAI, Manus und Google solche Agenten bereits als kommerzielle Angebote verkaufen oder dies noch planen, scheitern solche Systeme oft an Hindernissen moderner Webseiten und lassen sich leicht in die Irre führen.