Ein US-Gericht hat entschieden, dass das Training von KI-Modellen mit urheberrechtlich geschützten Büchern unter bestimmten Bedingungen als Fair Use gelten kann. Zugleich stellte es fest, dass das KI-Unternehmen Anthropic bei der Beschaffung eines Teils seiner Trainingsdaten gegen Urheberrechte verstoßen hat.
Laut Gericht war die Verwendung urheberrechtlich geschützter Bücher zur Entwicklung von Sprachmodellen wie Claude rechtlich zulässig – allerdings nur, sofern diese Werke legal beschafft wurden. Die Nutzung sei "spektakulär transformativ" gewesen, da sie nicht auf die Reproduktion der Originalwerke abzielte, sondern auf das Erlernen statistischer Zusammenhänge zwischen Textfragmenten.
Die fertigen Sprachmodelle hätten die Werke zudem nicht direkt reproduziert. Die Kläger, die Autoren Andrea Bartz, Charles Graeber und Kirk Wallace Johnson, versuchten laut Gericht gar nicht erst zu belegen, dass Claude Ausgaben erzeugt, die den Originalen ähneln oder diese ersetzen.
Dieser Teil des Urteils betrifft Bücher, die Anthropic legal als Printversionen – häufig gebraucht – gekauft, von ihren Bindungen befreit, eingescannt und anschließend vernichtet hat. Die so entstandenen PDFs wurden in einer internen, durchsuchbaren Bibliothek gespeichert. Da keine zusätzlichen Kopien erstellt oder weitergegeben wurden, sei diese Nutzung ebenfalls durch die Fair-Use-Klausel gedeckt, so das Gericht.
Piraterie bleibt unentschuldbar
Ganz anders fällt die Bewertung für Bücher aus, die Anthropic aus Piratenquellen wie Books3, LibGen und PiLiMi bezogen hat. Zwischen Januar 2021 und Juli 2022 lud das Unternehmen über sieben Millionen Bücher aus illegalen Quellen herunter – darunter auch Werke der Kläger. Diese Dateien wurden dauerhaft gespeichert, auch wenn sie nicht für das Training verwendet wurden. Auch Meta und andere KI-Firmen dürften diese Datenquellen genutzt haben.
Das Gericht betonte, dass der Aufbau einer digitalen "General Purpose"-Bibliothek mit Raubkopien keine transformative Nutzung darstelle und daher nicht unter Fair Use falle. Die bloße Absicht, daraus später eventuell eine rechtmäßige Nutzung zu entwickeln, rechtfertige nicht den initialen Rechtsverstoß. "Es gibt keine Ausnahme im Urheberrecht für KI-Unternehmen", heißt es in der Begründung.
Damit unterstreicht das Gericht: Die Nutzung urheberrechtlich geschützter Werke zum Training von KI-Modellen kann unter bestimmten Bedingungen als Fair Use gelten – vorausgesetzt, die Daten wurden rechtmäßig beschafft. Unternehmen, die jedoch gezielt Raubkopien nutzen, können sich nicht auf Fair Use berufen.
Offen ist jetzt die Frage, ob etwa das massenhafte Scraping von Inhalten im Internet – insbesondere dann, wenn technische Zugangsbeschränkungen umgangen werden – als rechtmäßige Beschaffung gelten kann.
Viele KI-Modelle basieren auf Trainingsdaten, die ohne Zustimmung der Urheber aus öffentlich zugänglichen Quellen extrahiert wurden. Bislang fehlen klare rechtliche Leitlinien. Falls das Urteil eine massenhafte Lizenzierungspflicht für urheberrechtlich geschützte Daten zur Folge hätte, wäre das kaum im Sinne der KI-Unternehmen; auch wenn die eigentliche Nutzung für das KI-Training als transformativ gewertet würde.
Weitere Verfahren über Schadensersatz folgen
Obwohl das Gericht Anthropic in Bezug auf das eigentliche KI-Training und die Konvertierung gekaufter Bücher in digitale Form Recht gab, wies es den Antrag auf vollständige Abweisung der Klage zurück. Die Vorwürfe im Zusammenhang mit der Nutzung von Raubkopien und der dauerhaften Speicherung nicht verwendeter Werke bleiben bestehen.
Das Verfahren wird in diesem Punkt fortgesetzt – insbesondere zur Frage, in welchem Umfang Anthropic für die Nutzung piratisierter Inhalte haftbar gemacht werden kann. Auch mögliche Schadensersatzforderungen wegen "willentlicher Verletzung" stehen im Raum.
Das Verfahren befindet sich weiterhin in einem frühen Stadium und wird zunächst ausschließlich vor dem Bundesgericht im Northern District of California verhandelt. Welche Signalwirkung das Verfahren auf andere anhängige Prozesse zur Nutzung urheberrechtlich geschützter Daten für das Training von KI-Modellen entfalten wird, ist derzeit offen. Ein anderer US-Richter äußerte kürzlich in einem Vefahren mit Meta grundlegend Zweifel, dass urheberrechtlich geschützte Daten überhaupt fürs KI-Training genutzt werden dürfen.