Anzeige
Skip to content

Anthropics neues KI-System "Cowork" kämpft kurz nach Start mit bekannter Sicherheitslücke

Image description
Nano Banana Pro prompted by THE DECODER

Kurz & Knapp

  • Sicherheitsforscher haben kurz nach der Veröffentlichung von Anthropics neuem KI-System Claude Cowork eine kritische Schwachstelle dokumentiert.
  • Über versteckte Prompt-Injections können Angreifer vertrauliche Nutzerdateien stehlen, ohne dass eine menschliche Genehmigung erforderlich ist.
  • Die Angriffsmethode nutzt unsichtbar formatierte Befehle in harmlos wirkenden Dokumenten – etwa mit 1-Punkt-Schrift in weißer Farbe auf weißem Hintergrund.

Nur zwei Tage nach der Vorstellung von Claude Cowork dokumentieren Sicherheitsforscher eine kritische Schwachstelle: Angreifer können über versteckte Prompt-Injections vertrauliche Nutzerdateien stehlen, ohne dass eine menschliche Genehmigung erforderlich ist.

Anthropics neues agentisches KI-System Claude Cowork ist anfällig für Dateiexfiltration durch indirekte Prompt-Injection. Das haben Sicherheitsforscher von PromptArmor nur zwei Tage nach der Veröffentlichung der Research Preview dokumentiert.

Die Schwachstelle basiert laut PromptArmor auf einer bereits bekannten Isolationslücke in Claudes Code-Ausführungsumgebung. Der Sicherheitsforscher Johann Rehberger hatte diese Lücke bereits vor der Existenz von Cowork in Claude.ai-Chat identifiziert und offengelegt. Anthropic habe die Schwachstelle zwar anerkannt, aber nicht behoben; nun erstreckt sie sich auf das neue agentische System.

Versteckte Befehle in harmlos wirkenden Dokumenten

Die von PromptArmor dokumentierte Angriffskette beginnt damit, dass ein Nutzer Cowork mit einem lokalen Ordner mit vertraulichen Daten verbindet. Anschließend lädt der Nutzer eine Datei in diesen Ordner hoch, die eine versteckte Prompt-Injection enthält.

Anzeige
DEC_D_Incontent-1

Besonders perfide: Die Angreifer können die Injection in einer .docx-Datei verstecken, die als harmloses "Skill"-Dokument getarnt ist, eine gerade erst von Anthropic neu eingeführte Prompt-Methode für agentische KI-Systeme. Der bösartige Text wird dabei mit 1-Punkt-Schrift, weißer Farbe auf weißem Hintergrund und einem Zeilenabstand von 0,1 formatiert und ist damit praktisch unsichtbar.

Das vom Nutzer hochgeladene "Skill"-Dokument enthält eine versteckte Prompt-Injection. | Bild: PromptArmor

Sobald der Nutzer Cowork bittet, seine Dateien mit dem hochgeladenen "Skill" zu analysieren, übernimmt die Injection die Kontrolle. Sie weist Claude an, einen curl-Befehl auszuführen und die größte verfügbare Datei an die Anthropic File Upload API zu senden, unter Verwendung des API-Schlüssels des Angreifers.

Die Datei landet damit im Anthropic-Konto des Angreifers, der sie anschließend befragen kann. An keiner Stelle dieses Prozesses ist eine menschliche Genehmigung erforderlich.

Claude wird durch die Prompt-Injection manipuliert, eine cURL-Anfrage auszuführen und die Kreditschätzung auf das Anthropic-Konto des Angreifers hochzuladen. | Bild: PromptArmor

Die Demonstration erfolgte zunächst gegen Anthropics schwächstes KI-Modell Claude Haiku. Doch auch das stärkste Claude Opus 4.5 wurde laut PromptArmor erfolgreich manipuliert.

Anzeige
DEC_D_Incontent-2

In einem Test, bei dem ein Nutzer einen bösartigen Integration Guide für ein KI-Tool hochlud, gelang die Exfiltration von Kundendaten über die gewhitelistete Anthropic-API-Domain. So konnte die Sandbox-Einschränkung der virtuellen Maschine, in der der Code ausgeführt wird, umgangen werden.

Zusätzlich entdeckten die Forscher eine potenzielle Denial-of-Service-Schwachstelle: Wenn Claude versucht, eine Datei zu lesen, deren Endung nicht zum tatsächlichen Inhalt passt, wirft die API wiederholt Fehler in allen nachfolgenden Chats der Konversation.

Anthropic hatte sich damit gerühmt, dass Cowork in nur anderthalb Wochen entwickelt und komplett von Claude Code geschrieben wurde, dem KI-Tool, auf dem Cowork basiert. Die nun aufgedeckten Sicherheitslücken werfen die Frage auf, ob bei der schnellen Entwicklung ausreichend auf Sicherheit geachtet wurde.

Bekanntes Problem ohne Lösung

Sogenannte Prompt-Injection-Attacken sind in der KI-Szene seit Jahren bekannt, und trotz aller Versuche ist es bisher nicht gelungen, diese zu verhindern oder wenigstens stark einzuschränken. Selbst Anthropics "sicherstes" Modell Opus 4.5 ist extrem anfällig gegenüber Prompt-Injection-Attacken.

Ein Werkzeug wie Cowork, das mit dem eigenen Computer und zahlreichen weiteren Datenquellen verbunden wird, bietet viele Einfallstore. Anders als etwa bei einem Phishing-Angriff, den der normale Nutzer vielleicht noch lernen kann zu erkennen, ist er hier schutzlos ausgeliefert.

Der Fall illustriert zudem ein grundsätzliches Problem agentischer KI-Systeme: Je mehr Autonomie sie erhalten, desto größer wird ihre Angriffsfläche. Das zeigten bereits frühere Untersuchungen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: PromptArmor