Neue Gerichtsdokumente enthüllen, dass Meta gezielt Torrent-Netzwerke nutzte, um urheberrechtlich geschützte Bücher für das KI-Training herunterzuladen - trotz deutlicher Warnungen des eigenen KI-Teams.
Meta-CEO Mark Zuckerberg genehmigte persönlich die Nutzung der Pirateriedatenbank LibGen für das Training von KI-Modellen. Das geht aus diese Woche in Kalifornien veröffentlichten Gerichtsdokumenten hervor.
Führende KI-Manager des Unternehmens hatten zuvor eindringlich vor der Verwendung der "nachweislich raubkopierten Datenbank" gewarnt und auf mögliche Konsequenzen für Verhandlungen mit Regulierungsbehörden hingewiesen.
"Torrenting von einem Firmen-Laptop fühlt sich nicht richtig an", schrieb ein Meta-Ingenieur in einer internen Diskussion. Die Unternehmensführung setzte sich über diese und weitere Bedenken hinweg.
"Viele rote Flaggen": Meta verschleierte systematisch Urheberrechtsverletzungen
Meta ging bei der Nutzung der raubkopierten Werke systematisch vor. Das Unternehmen entfernte gezielt sämtliche Urheberrechtshinweise aus den heruntergeladenen Werken - von Copyright-Informationen im LibGen-Datensatz über Copyright-Paragraphen in wissenschaftlichen Artikeln bis hin zu Quell-Metadaten.
Ein Meta-Manager bestätigte in einer Aussage vom 20. November 2024, dass das Unternehmen die Torrent-Software "LibTorrent" bewusst so konfigurierte, dass ein "minimales Seeding" stattfand. Das bedeutet: Meta teilte die raubkopierten Dateien aktiv im Netzwerk, um weitere Downloads zu ermöglichen.
In einer aktuellen Stellungnahme bezeichnete Zuckerberg diese Praktiken als etwas, das "viele rote Flaggen" aufwerfe und "wie eine schlechte Sache erscheint" - ein Kontrast zu seiner früheren Genehmigung der LibGen-Nutzung.
Die Kläger, darunter die Autoren Richard Kadrey und Christopher Golden sowie die Komikerin Sarah Silverman, haben ihre Klage nun um zwei weitere Anklagepunkte erneuert:
Zum einen werfen sie Meta einen Verstoß gegen den Digital Millennium Copyright Act (DMCA) vor. Dieser verbietet ausdrücklich die Entfernung von Urheberrechtsvermerken - genau das tat Meta systematisch bei den heruntergeladenen Werken.
Zum anderen klagen sie wegen Verstoßes gegen den California Comprehensive Computer Data Access and Fraud Act (CDAFA). Dieser stellt den unerlaubten Zugriff auf Computersysteme unter Strafe. Die Kläger argumentieren, dass Metas Nutzung von Torrent-Netzwerken zum Download der urheberrechtlich geschützten Werke einen solchen illegalen Zugriff darstellt.
Die Kombination beider Vorwürfe betrifft die Nutzung der Werke selbst und die Art und Weise, wie Meta sich Zugang zu den Daten verschafft und sie anschließend manipuliert hat.
Rechtliche Grauzone trotz fragwürdiger Methoden
Meta und andere KI-Unternehmen argumentieren, dass die Verwendung urheberrechtlich geschützter Daten fürs KI-Training unter die "Fair Use"-Doktrin falle. Ob die Entfernung von Copyright-Daten Meta zum Verhängnis wird, hängt davon ab, ob die Kläger einen konkreten Schaden nachweisen können. Metas Nutzung eines Raubkopie-Datensatzes via Torrent könnte als separate Straftat geahndet werden.
Eine New Yorker Bundesrichterin lehnte kürzlich in einem ähnlichen Fall die Klage ab und folgte OpenAIs Argumentation, dass KI-generierte Inhalte auf Basis von Trainingsinhalten keine Urheberrechtsverletzung darstellen. Die DMCA-Klage sei dem eigentlichen Klagegrund, der Verwendung von Daten fürs Training, nur vorgeschoben.
Die Medienmarke The Intercept konnte jedoch kürzlich eine DMCA-Klage vor Gericht durchsetzen und darf die Klage fortführen. Der Richter sah zumindest die Möglichkeit, dass der Kläger einen konkreten Schaden durch die Entfernung der Copyright-Informationen nachweisen könnte.
An der grundsätzlichen Fair-Use-Argumentation dürfte all dies nichts ändern - auch andere Datensätze wie Books3, auf denen Meta trainiert hat, enthalten urheberrechtlich geschützte Bücher.
Die LibGen-Affäre fügt sich in eine größere Debatte um KI und Urheberrecht ein. Auch wenn die rechtliche Position der KI-Unternehmen Bestand haben könnte, geraten ihre Methoden zunehmend in die öffentliche Kritik. Der Fall Meta zeigt exemplarisch, wie KI-Unternehmen bei der Beschaffung von Trainingsdaten mitunter fragwürdige Praktiken verfolgen.