Urheberrechtsstreit: NYT fordert Einblick in sensible ChatGPT-Nutzerdaten

6. August 2025

Midjourney prompted by THE DECODER

Kurz & Knapp

Im Urheberrechtsstreit mit der New York Times will OpenAI den Zugriff auf ChatGPT-Nutzergespräche auf 20 Millionen Logs beschränken, während die Zeitung Einsicht in 120 Millionen fordert, um systematische Urheberrechtsverletzungen nachweisen zu können.
OpenAI argumentiert, dass ein umfassender Zugriff erhebliche Datenschutz- und Sicherheitsrisiken birgt, da die Logs unstrukturierte und teils sensible Daten enthalten; allein die Bereitstellung der angebotenen 20 Millionen Logs würde etwa zwölf Wochen dauern.
Bereits zuvor musste OpenAI auf richterliche Anordnung sämtliche, auch gelöschte, Chatverläufe speichern – eine Maßnahme, die laut Unternehmen das Vertrauen der Nutzer gefährde und zu Datenschutzproblemen führe; Fachleute raten seither von der Nutzung sensibler Daten bei ChatGPT ab.

Im Urheberrechtsstreit mit der New York Times wehrt sich OpenAI gegen die Durchsuchung von 120 Millionen ChatGPT-Nutzergesprächen. Die Zeitung fordert umfassenden Einblick, um Beweise für Urheberrechtsverletzungen zu sichern.

OpenAI versucht im laufenden Urheberrechtsstreit mit der New York Times (NYT), den Zugriff auf Nutzergespräche mit ChatGPT deutlich zu begrenzen. Laut einem Bericht von Ars Technica bietet das Unternehmen der Zeitung Einsicht in 20 Millionen Chatverläufe an – ein Sechstel der von der NYT geforderten 120 Millionen.

Die NYT will mit der umfassenden Analyse nach potenziell urheberrechtsverletzenden Outputs suchen, die ChatGPT aus ihren Artikeln erzeugt haben könnte. Zudem will sie dokumentieren, wie sich solche Vorfälle über die 23-monatige Nutzungsdauer hinweg entwickelt haben.

OpenAI warnt vor Datenschutzrisiken

OpenAI argumentiert, dass das Durchsuchen der vollständigen Chat-Daten erhebliche technische und datenschutzrechtliche Risiken berge. Die Gesprächsprotokolle seien unstrukturierte Dateien mit teils über 5.000 Wörtern, die oft sensible Informationen wie Adressen oder Passwörter enthielten.

Diese müssten vor einer Freigabe aufwendig bereinigt werden. Laut OpenAI würde allein die Bereitstellung der 20 Millionen angebotenen Logs rund zwölf Wochen in Anspruch nehmen, bei 120 Millionen Logs wären es etwa 36 Wochen.

Zudem müssten die Daten aus einem Offline-System abgerufen und manuell aufbereitet werden. Dies erfordere erhebliche personelle und technische Ressourcen, so OpenAI. Das Unternehmen sieht zudem die Gefahr, dass durch die verlängerte Speicherung gelöschter Chats neue Angriffsflächen für Datenlecks entstehen.

Die NYT lehnt die Begrenzung auf 20 Millionen Logs ab. Die Zeitung besteht auf vollständigem Zugang, um nicht nur Einzelfälle, sondern systematische Urheberrechtsverletzungen und deren zeitlichen Verlauf nachweisen zu können.

OpenAI verweist hingegen auf den Informatiker Taylor Berg-Kirkpatrick, der ein Sample von 20 Millionen als statistisch hinreichend einstuft. Ein größerer Umfang sei laut OpenAI unverhältnismäßig und würde das Verfahren unnötig verzögern.

"Gelöschte" Daten müssen aufbewahrt werden

Vor dem aktuellen Streit über den Umfang der ChatGPT-Log-Durchsuchung hatte OpenAI bereits im Juni 2025 vor Gericht gegen eine richterliche Anordnung protestiert, die das Unternehmen dazu verpflichtet, sämtliche Chatverläufe – einschließlich gelöschter Gespräche – aufzubewahren. Die Anordnung war auf Betreiben der NYT und anderer Medienhäuser ergangen, die OpenAI vorwarfen, potenziell belastende Beweise durch automatisches Löschen zu vernichten.

OpenAI sah darin einen schweren Eingriff in die Privatsphäre von Hunderten Millionen Nutzerinnen und Nutzern. Vor dem Gericht argumentierte das Unternehmen, dass viele Gespräche "zutiefst persönliche" Inhalte wie Finanzdaten oder intime Überlegungen enthielten, etwa zur Hochzeitsplanung. Auch Geschäftskunden, die über die API-Schnittstelle sensible Unternehmensdaten verarbeiteten, seien betroffen. Die Anordnung zwinge OpenAI dazu, seine eigenen Datenschutzrichtlinien zu verletzen und gefährde das Vertrauen der Nutzer.

Zudem widersprach OpenAI dem Vorwurf der Beweisvernichtung. Es gebe keinen Nachweis, dass urheberrechtsverletzende Inhalte gezielt gelöscht worden seien – weder automatisch noch manuell. Die Behauptung, Nutzer würden ihre Chats massenhaft löschen, um rechtlich bedenkliche Inhalte zu verbergen, sei spekulativ. Dennoch sah die zuständige Richterin Anlass zur Annahme, dass Beweise durch Löschung verloren gehen könnten, und verfügte vorsorglich die umfassende Datensicherung.

Die Entscheidung löste in den sozialen Netzwerken Panik unter Nutzerinnen und Nutzern aus. Auf Plattformen wie LinkedIn und X (ehemals Twitter) warnten Fachleute vor Sicherheitsrisiken und empfahlen, keine sensiblen Daten mehr mit ChatGPT zu teilen. Einige Unternehmen sahen in der Anordnung sogar eine potenzielle Vertragsverletzung durch OpenAI, da vertrauliche Daten nun länger gespeichert und womöglich Dritten zugänglich gemacht werden könnten.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Ars Technica