Bytedance startet mit Agent TARS in die Ära multimodaler KI-Agenten

Agent TARS soll komplexe Aufgaben automatisieren, indem er Webinhalte visuell interpretiert und mit Kommandozeile und Dateisystem interagiert. Die App ist quelloffen, aber noch auf macOS beschränkt.

Die von TikTok-Mutterkonzern Bytedance entwickelte, noch experimentelle App basiert auf einem agentischen Framework, das Abläufe wie Suchen, Browsen und Linknavigation automatisch plant und ausführt. Dabei kommuniziert der Agent über ein Event-Stream-System mit der Benutzeroberfläche und stellt Zwischenstände sowie Ergebnisse in Echtzeit dar.

Video: Bytedance

Agent TARS verarbeitet Webseiten visuell und nutzt das Model Context Protocol (MCP) von Anthropic, um mit verschiedenen Werkzeugen wie Texteditoren, Kommandozeilen und Dateisystemen zu interagieren. Eine Windows-Version ist geplant, befindet sich aber noch in Vorbereitung.

Multimodale Schnittstellen und Echtzeitdarstellung

Die Benutzeroberfläche bietet eine Live-Ansicht aller Agentenaktivitäten. Dokumente, Browserfenster und andere Prozessartefakte werden in Echtzeit angezeigt. Nutzer:innen können während der Bearbeitung eingreifen und Anweisungen über ein Eingabefeld ergänzen, um die Richtung der Aufgabenverarbeitung zu beeinflussen.

Benutzeroberfläche eines KI-Agenten mit Suchleiste, Aufgabenliste und Analyseergebnissen zu Nvidia-Aktiendaten. — Während die KI eigenständig Aufgaben ausführt, sollen Menschen jederzeit durch Prompts eingreifen können. | Bild: Bytedance

Auf der Website des Projekts finden sich mehrere konkrete Anwendungsbeispiele. Dazu gehören unter anderem eine technische Analyse des Tesla-Aktienkurses, eine Auswertung populärer Projekte auf ProductHunt, ein Fehlerbericht zum Lynx-Repository sowie ein Reiseplan für eine siebentägige Tour durch Mexiko-Stadt. Diese Showcases demonstrieren die Bandbreite möglicher Anwendungen – vom Software-Engineering bis zur Freizeitplanung.

Die App ermöglicht es, ganze Agentensitzungen zu exportieren. Dazu stehen zwei Optionen zur Verfügung: eine lokale HTML-Datei oder der Upload auf einen externen Server. Im zweiten Fall wird ein POST-Request mit einer HTML-Bündeldatei an den Server gesendet, der eine URL zur Weitergabe zurückliefert.

Claude als bevorzugtes Modell

Nach der Installation über GitHub muss die App konfiguriert werden. Dabei lassen sich Modellanbieter und Suchdienste über API-Schlüssel einbinden. Für Azure OpenAI sind zusätzliche Parameter wie apiVersion oder deploymentName erforderlich.

Die Anwendung ist derzeit am besten mit Claude kompatibel, das laut Entwicklerteam als "temporär beste Option" gilt. Die Unterstützung für OpenAI-Modelle ist noch instabil. Wichtig ist zudem: Agent TARS unterstützt das UI-TARS-Modell nicht – im Gegensatz zur gleichnamigen Desktop-Variante UI TARS Desktop.

Empfehlung

KI-Forschung

Google Deepminds neuer KI-Agent AlphaEvolve entwickelt eigenständig neue Algorithmen

Auch Agenten-Modell mit ähnlichem Namen

In einem aktuellen Blogeintrag räumt das Entwicklerteam ein, dass es wiederholt zu Verwechslungen zwischen der hier vorgestellten Agent TARS App und UI TARS Desktop gekommen sei. Letztere Anwendung dient ausschließlich zur Automatisierung von grafischen Benutzeroberflächen auf Systemebene und nutzt das eigene UI-TARS-Modell.

Dieses Modell läuft unter macOS und Windows, während Agent TARS auf browserbasierte Aufgaben spezialisiert und derzeit nur auf macOS verfügbar ist. Beide Anwendungen verfolgen unterschiedliche Ziele und sind nicht miteinander kompatibel.

Agent TARS befindet sich im technischen Vorschaustadium. Der Einsatz in produktiven Umgebungen wird derzeit nicht empfohlen. Die Entwickler:innen fordern zur aktiven Beteiligung auf: Feedback, Fehlerberichte und Beiträge sind über GitHub, Discord oder X willkommen. Weitere Details zur Architektur und Roadmap sollen folgen. Ziel ist es, eine offene Plattform für agentengesteuerte, multimodale Aufgabenverarbeitung zu etablieren.

Eigenständige KI-Systeme, angetrieben von multimodalen Sprachmodellen wie Claude 3.5 Sonnet, GPT-4o oder Gemini 2.0, stehen derzeit hoch im Kurs und versprechen, repetitive Aufgaben zu automatisieren. Obwohl Unternehmen wie OpenAI, Manus und Google solche Agenten bereits als kommerzielle Angebote verkaufen oder dies noch planen, scheitern solche Systeme oft an Hindernissen moderner Webseiten und lassen sich leicht in die Irre führen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Bytedance startet mit Agent TARS in die Ära multimodaler KI-Agenten

Multimodale Schnittstellen und Echtzeitdarstellung

Claude als bevorzugtes Modell

Google Deepminds neuer KI-Agent AlphaEvolve entwickelt eigenständig neue Algorithmen

Auch Agenten-Modell mit ähnlichem Namen

Forschende haben womöglich eine Leiter für die "Datenmauer" gefunden

OmniGen 2 vereint Bild und Text wie GPT-4o, ist aber Open Source

KI als Kiosk-Betreiber: Anthropics Claude verschenkt Waren und erfindet Geschäftspartner

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Bytedance startet mit Agent TARS in die Ära multimodaler KI-Agenten

Multimodale Schnittstellen und Echtzeitdarstellung

Claude als bevorzugtes Modell

Auch Agenten-Modell mit ähnlichem Namen

Artikel teilen

Bankverbindung