Im Urheberrechtsstreit mit der New York Times wehrt sich OpenAI gegen die Durchsuchung von 120 Millionen ChatGPT-Nutzergesprächen. Die Zeitung fordert umfassenden Einblick, um Beweise für Urheberrechtsverletzungen zu sichern.
OpenAI versucht im laufenden Urheberrechtsstreit mit der New York Times (NYT), den Zugriff auf Nutzergespräche mit ChatGPT deutlich zu begrenzen. Laut einem Bericht von Ars Technica bietet das Unternehmen der Zeitung Einsicht in 20 Millionen Chatverläufe an – ein Sechstel der von der NYT geforderten 120 Millionen.
Die NYT will mit der umfassenden Analyse nach potenziell urheberrechtsverletzenden Outputs suchen, die ChatGPT aus ihren Artikeln erzeugt haben könnte. Zudem will sie dokumentieren, wie sich solche Vorfälle über die 23-monatige Nutzungsdauer hinweg entwickelt haben.
OpenAI warnt vor Datenschutzrisiken
OpenAI argumentiert, dass das Durchsuchen der vollständigen Chat-Daten erhebliche technische und datenschutzrechtliche Risiken berge. Die Gesprächsprotokolle seien unstrukturierte Dateien mit teils über 5.000 Wörtern, die oft sensible Informationen wie Adressen oder Passwörter enthielten.
Diese müssten vor einer Freigabe aufwendig bereinigt werden. Laut OpenAI würde allein die Bereitstellung der 20 Millionen angebotenen Logs rund zwölf Wochen in Anspruch nehmen, bei 120 Millionen Logs wären es etwa 36 Wochen.
Zudem müssten die Daten aus einem Offline-System abgerufen und manuell aufbereitet werden. Dies erfordere erhebliche personelle und technische Ressourcen, so OpenAI. Das Unternehmen sieht zudem die Gefahr, dass durch die verlängerte Speicherung gelöschter Chats neue Angriffsflächen für Datenlecks entstehen.
Die NYT lehnt die Begrenzung auf 20 Millionen Logs ab. Die Zeitung besteht auf vollständigem Zugang, um nicht nur Einzelfälle, sondern systematische Urheberrechtsverletzungen und deren zeitlichen Verlauf nachweisen zu können.
OpenAI verweist hingegen auf den Informatiker Taylor Berg-Kirkpatrick, der ein Sample von 20 Millionen als statistisch hinreichend einstuft. Ein größerer Umfang sei laut OpenAI unverhältnismäßig und würde das Verfahren unnötig verzögern.
"Gelöschte" Daten müssen aufbewahrt werden
Vor dem aktuellen Streit über den Umfang der ChatGPT-Log-Durchsuchung hatte OpenAI bereits im Juni 2025 vor Gericht gegen eine richterliche Anordnung protestiert, die das Unternehmen dazu verpflichtet, sämtliche Chatverläufe – einschließlich gelöschter Gespräche – aufzubewahren. Die Anordnung war auf Betreiben der NYT und anderer Medienhäuser ergangen, die OpenAI vorwarfen, potenziell belastende Beweise durch automatisches Löschen zu vernichten.
OpenAI sah darin einen schweren Eingriff in die Privatsphäre von Hunderten Millionen Nutzerinnen und Nutzern. Vor dem Gericht argumentierte das Unternehmen, dass viele Gespräche "zutiefst persönliche" Inhalte wie Finanzdaten oder intime Überlegungen enthielten, etwa zur Hochzeitsplanung. Auch Geschäftskunden, die über die API-Schnittstelle sensible Unternehmensdaten verarbeiteten, seien betroffen. Die Anordnung zwinge OpenAI dazu, seine eigenen Datenschutzrichtlinien zu verletzen und gefährde das Vertrauen der Nutzer.
Zudem widersprach OpenAI dem Vorwurf der Beweisvernichtung. Es gebe keinen Nachweis, dass urheberrechtsverletzende Inhalte gezielt gelöscht worden seien – weder automatisch noch manuell. Die Behauptung, Nutzer würden ihre Chats massenhaft löschen, um rechtlich bedenkliche Inhalte zu verbergen, sei spekulativ. Dennoch sah die zuständige Richterin Anlass zur Annahme, dass Beweise durch Löschung verloren gehen könnten, und verfügte vorsorglich die umfassende Datensicherung.
Die Entscheidung löste in den sozialen Netzwerken Panik unter Nutzerinnen und Nutzern aus. Auf Plattformen wie LinkedIn und X (ehemals Twitter) warnten Fachleute vor Sicherheitsrisiken und empfahlen, keine sensiblen Daten mehr mit ChatGPT zu teilen. Einige Unternehmen sahen in der Anordnung sogar eine potenzielle Vertragsverletzung durch OpenAI, da vertrauliche Daten nun länger gespeichert und womöglich Dritten zugänglich gemacht werden könnten.