Meta nutzte Piraterie-Netzwerke für KI-Trainingsdaten - mit Zuckerbergs Segen

10. Januar 2025

Midjourney prompted by THE DECODER

Neue Gerichtsdokumente enthüllen, dass Meta gezielt Torrent-Netzwerke nutzte, um urheberrechtlich geschützte Bücher für das KI-Training herunterzuladen - trotz deutlicher Warnungen des eigenen KI-Teams.

Meta-CEO Mark Zuckerberg genehmigte persönlich die Nutzung der Pirateriedatenbank LibGen für das Training von KI-Modellen. Das geht aus diese Woche in Kalifornien veröffentlichten Gerichtsdokumenten hervor.

Führende KI-Manager des Unternehmens hatten zuvor eindringlich vor der Verwendung der "nachweislich raubkopierten Datenbank" gewarnt und auf mögliche Konsequenzen für Verhandlungen mit Regulierungsbehörden hingewiesen.

"Torrenting von einem Firmen-Laptop fühlt sich nicht richtig an", schrieb ein Meta-Ingenieur in einer internen Diskussion. Die Unternehmensführung setzte sich über diese und weitere Bedenken hinweg.

"Viele rote Flaggen": Meta verschleierte systematisch Urheberrechtsverletzungen

Meta ging bei der Nutzung der raubkopierten Werke systematisch vor. Das Unternehmen entfernte gezielt sämtliche Urheberrechtshinweise aus den heruntergeladenen Werken - von Copyright-Informationen im LibGen-Datensatz über Copyright-Paragraphen in wissenschaftlichen Artikeln bis hin zu Quell-Metadaten.

Ein Meta-Manager bestätigte in einer Aussage vom 20. November 2024, dass das Unternehmen die Torrent-Software "LibTorrent" bewusst so konfigurierte, dass ein "minimales Seeding" stattfand. Das bedeutet: Meta teilte die raubkopierten Dateien aktiv im Netzwerk, um weitere Downloads zu ermöglichen.

In einer aktuellen Stellungnahme bezeichnete Zuckerberg diese Praktiken als etwas, das "viele rote Flaggen" aufwerfe und "wie eine schlechte Sache erscheint" - ein Kontrast zu seiner früheren Genehmigung der LibGen-Nutzung.

Gerichtsdokument-Ausschnitt mit Text über Metas Verwendung der LibGen-Datenbank und interne Diskussionen über Copyright-Bedenken. — Gerichtsdokumente offenbaren, dass Meta systematisch urheberrechtlich geschützte Werke aus der LibGen-Datenbank für KI-Training verwendete, trotz interner Bedenken bezüglich der Rechtmäßigkeit dieser Praxis. | Bild: via Court Listener

Die Kläger, darunter die Autoren Richard Kadrey und Christopher Golden sowie die Komikerin Sarah Silverman, haben ihre Klage nun um zwei weitere Anklagepunkte erneuert:

Zum einen werfen sie Meta einen Verstoß gegen den Digital Millennium Copyright Act (DMCA) vor. Dieser verbietet ausdrücklich die Entfernung von Urheberrechtsvermerken - genau das tat Meta systematisch bei den heruntergeladenen Werken.

Zum anderen klagen sie wegen Verstoßes gegen den California Comprehensive Computer Data Access and Fraud Act (CDAFA). Dieser stellt den unerlaubten Zugriff auf Computersysteme unter Strafe. Die Kläger argumentieren, dass Metas Nutzung von Torrent-Netzwerken zum Download der urheberrechtlich geschützten Werke einen solchen illegalen Zugriff darstellt.

Die Kombination beider Vorwürfe betrifft die Nutzung der Werke selbst und die Art und Weise, wie Meta sich Zugang zu den Daten verschafft und sie anschließend manipuliert hat.

Rechtliche Grauzone trotz fragwürdiger Methoden

Meta und andere KI-Unternehmen argumentieren, dass die Verwendung urheberrechtlich geschützter Daten fürs KI-Training unter die "Fair Use"-Doktrin falle. Ob die Entfernung von Copyright-Daten Meta zum Verhängnis wird, hängt davon ab, ob die Kläger einen konkreten Schaden nachweisen können. Metas Nutzung eines Raubkopie-Datensatzes via Torrent könnte als separate Straftat geahndet werden.

Eine New Yorker Bundesrichterin lehnte kürzlich in einem ähnlichen Fall die Klage ab und folgte OpenAIs Argumentation, dass KI-generierte Inhalte auf Basis von Trainingsinhalten keine Urheberrechtsverletzung darstellen. Die DMCA-Klage sei dem eigentlichen Klagegrund, der Verwendung von Daten fürs Training, nur vorgeschoben.

Die Medienmarke The Intercept konnte jedoch kürzlich eine DMCA-Klage vor Gericht durchsetzen und darf die Klage fortführen. Der Richter sah zumindest die Möglichkeit, dass der Kläger einen konkreten Schaden durch die Entfernung der Copyright-Informationen nachweisen könnte.

An der grundsätzlichen Fair-Use-Argumentation dürfte all dies nichts ändern - auch andere Datensätze wie Books3, auf denen Meta trainiert hat, enthalten urheberrechtlich geschützte Bücher.

Die LibGen-Affäre fügt sich in eine größere Debatte um KI und Urheberrecht ein. Auch wenn die rechtliche Position der KI-Unternehmen Bestand haben könnte, geraten ihre Methoden zunehmend in die öffentliche Kritik. Der Fall Meta zeigt exemplarisch, wie KI-Unternehmen bei der Beschaffung von Trainingsdaten mitunter fragwürdige Praktiken verfolgen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Meta nutzte Piraterie-Netzwerke für KI-Trainingsdaten - mit Zuckerbergs Segen

"Viele rote Flaggen": Meta verschleierte systematisch Urheberrechtsverletzungen

Rechtliche Grauzone trotz fragwürdiger Methoden

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.