Ein kalifornisches Bezirksgericht hat die Urheberrechtsklage gegen das KI-Programmiertool GitHub Copilot und das (damals) zugrunde liegende Sprachmodell Codex von OpenAI teilweise abgewiesen. Die Entscheidung könnte richtungsweisend für den Einsatz von KI-Tools sein, die auf urheberrechtlich geschützten Daten trainiert werden.
Das Bezirksgericht des Northern District of California hat eine Klage aus 2022 der Joseph Saveri Law Firm abgewiesen, die behauptet, dass die KI-Programmierhilfe GitHub Copilot gegen das Urheberrecht verstößt, in wesentlichen Teilen abgewiesen.
Die Kläger argumentierten, dass GitHub und OpenAI Urheberrechte verletzen, indem Copilot und das damals zugrundeliegende KI-Modell Codex Quellcode reproduzieren, ohne die erforderlichen Lizenzbedingungen wie Urheberrechtshinweise und Attribution einzuhalten.
Github Copilot wird mittlerweile von GPT-4 angetrieben, das Code-Modell Codex ist eingestellt. Das Gerichtsurteil könnte jedoch auf andere KI-Modelle übertragbar sein und wäre daher von grundlegender Bedeutung, wenn ähnliche Trainingsprinzipien und Fähigkeiten verwendet werden.
Gericht sieht keinen klaren Verstoß gegen Urheberrecht
Das Gericht wies den Anspruch der Kläger nach Section 1202(b) des Digital Millennium Copyright Act (DMCA) zurück, der besagt, dass Copyright-Hinweise nicht entfernt werden dürfen, was bei den Copilot-Ausgaben grundsätzlich der Fall wäre.
In seiner früheren Entscheidung hatte das Gericht jedoch festgestellt, dass die Kläger nachweisen müssen, dass Copilot identische Kopien ihrer geschützten Werke anfertigt. Eine identische Kopie ist Voraussetzung für die Anwendbarkeit des DMCA.
Auch in der zweiten, geänderten Klage konnten die Kläger nach Ansicht des Gerichts nicht glaubhaft machen, dass Copilot dazu tendiert, urheberrechtlich geschützten Code identisch zu reproduzieren.
GitHub hat vor kurzem eine optionale Funktion eingeführt, die es Nutzern ermöglicht, Vorschläge zu verbergen, die öffentlich verfügbarem Code ähneln. Die Kläger argumentierten neu, dass dies die Fähigkeit von Copilot beweise, urheberrechtlich geschützten Code exakt zu reproduzieren.
Das Gericht folgte dieser Argumentation jedoch nicht und lehnt die DMCA-Klage final ab. Das Vorhandensein eines solchen Filters mache es nicht wahrscheinlicher, dass Copilot bei normaler Nutzung eine identische Kopie der Werke der Kläger herstelle. Außerdem gebe es kein einziges Beispiel dafür, dass Copilot eine identische Kopie eines urheberrechtlich geschützten Werkes hergestellt habe.
Die Kläger verwiesen auch auf eine Studie aus dem März 2023, nach der die Wahrscheinlichkeit, dass KI-Systeme ihre Trainingsdaten wortwörtlich reproduzieren, mit der Größe der Modelle zunimmt. Diese Studie beziehe sich jedoch nicht speziell auf die Werke der Kläger oder auf Copilot.
Darüber hinaus kam die Studie zu dem Schluss, so der Richter Jon S. Tigar, dass Copilot "in normalen Situationen nur selten gespeicherten Code ausgibt und Code-Reproduktion meist nur dann auftritt, wenn das Modell mit langen Codeabschnitten konfrontiert wird, die den Trainingsdaten sehr ähnlich sind."
Die Entscheidung könnte richtungsweisend für den Einsatz von KI-Systemen sein, die mit urheberrechtlich geschützten Daten trainiert werden. Sie deutet darauf hin, dass Urheberrechtsklagen schwierig sein könnten, solange KI-Systeme bei normaler Nutzung nicht regelmäßig wörtliche Kopien ihres Trainingsmaterials erstellen.
Sie dürfte auch OpenAI in die Hände spielen, das in einem Copyright-Rechtsstreit mit der New York Times der Zeitung vorwirft, spezielle Prompts verwendet und häufig ausgeführt zu haben, um die Generierung exakter Kopien von NYT-Artikeln in ChatGPT zu provozieren.
Klage wegen Rechtsverletzung bei Open-Source-Lizenzen bleibt bestehen
Neben den Urheberrechtsansprüchen wies das Gericht auch die Forderungen der Kläger nach ungerechtfertigter Bereicherung und Wettbewerbsverzerrung ab. Die Kläger konnten keine ausreichenden Beweise für Betrug, Zwang oder ähnliche Handlungen vorlegen konnten, die eine Entschädigung rechtfertigen würden.
Allerdings ließ das Gericht die Klage wegen Vertragsverletzung bei Open-Source-Lizenzen zu. Die Kläger argumentieren, dass Copilot gegen Lizenzbedingungen verstoße, indem es Code ohne Quellenangaben reproduziere.
Auch wenn es sich bei den verletzten Lizenzbedingungen eher um urheberrechtliche "Bedingungen" handele, schließe dies nach der Rechtsprechung eine Vertragsverletzungsklage nicht aus, so das Gericht.
Dem an der Klage beteiligten Programmierer und Anwalt Matthew Butterick ging es nach eigenen Angaben speziell um diese möglichen Verstöße gegen die Open-Source-Lizenz. Die Open-Source-Szene werde von Programmierwerkzeugen wie Copilot vereinnahmt und unerlaubt monetarisiert.