Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Welche Daten dürfen für das Training von KI-Modellen verarbeitet werden? Japan und Israel formulieren erste Positionen, die aber wie alles bei diesem Thema noch im Fluss sind.

Große Sprach- und Bildmodelle werden mit unzähligen Daten aus dem Internet trainiert. Viele dieser Daten sind urheberrechtlich geschützt und wurden nicht explizit für das Training von KI-Modellen freigegeben.

Insbesondere in der Design- und Kunstbranche und seit dem Aufkommen von Bildgeneratoren wie Stable Diffusion ist daher eine Diskussion über die rechtliche Zulässigkeit solcher Modelle entbrannt.

Japanisches Gesetz begünstigt generative KI

Die japanische Ministerin für Bildung, Kultur, Sport, Wissenschaft und Technologie, Keiko Nagaoka, hat in einer Anhörung mit dem japanischen Politiker Takashi Kii Ende April die bestehende japanische Gesetzgebung bestätigt, wonach die Nutzung von im Internet gesammelten Daten für nicht-kommerzielle und kommerzielle Zwecke auch im Kontext der generativen KI gilt.

Anzeige
Anzeige

Dies ist natürlich keine explizite Bestätigung der Legitimität großer KI-Modelle, die mit urheberrechtlich geschützten Daten trainiert werden, sondern eine Momentaufnahme im Kontext des bestehenden japanischen Rechts.

Takashi Kii äußerte im Rahmen des Gesprächs, dass er neue, an das Zeitalter der KI angepasste Urheberrechtsregelungen für notwendig halte. Auch gebe es in Japan noch keine Regeln für den Umgang mit generativer KI im Bildungskontext.

Israel positioniert sich zu Copyright bei Trainingsdaten

Konkreter ist dagegen ein bereits 2022 veröffentlichtes Positionspapier des israelischen Justizministeriums (via Project Disco), das davon ausgeht, dass "typischerweise" die Fair-Use-Doktrin gilt und einige Projekte unter eine Doktrin fallen könnten, die eine "beiläufige Nutzung von urheberrechtlich geschütztem Material" erlaubt, wenn die urheberrechtlich geschützten Werke am Ende des Trainingsprozesses gelöscht werden.

Ausgenommen von dieser Betrachtung sind Datensätze, die gezielt mit Werken einzelner Urheber trainiert werden, um anschließend mit diesen in Wettbewerb zu treten. Man stelle sich etwa ein KI-System vor, das ausschließlich mit Harry-Potter-Romanen trainiert wird, um weitere zu generieren.

Zudem bezieht sich die Stellungnahme nur auf das Training und nicht auf den Output der Systeme, der unabhängig vom Trainingsprozess Urheberrechte verletzen könnte.

Empfehlung

Ein weiterer Sonderfall in der Urheberrechtsdebatte dürften Chatbots wie die von Microsoft, OpenAI und Google sein, die Webinhalte in Echtzeit scannen und in leicht veränderter Form z.B. als Suchergebnis präsentieren.

Diese Urheberrechtsdebatte ist ebenfalls losgelöst von den eigentlichen Trainingsmaterialien, wobei auch hier Verlage versuchen dürften, etwaige Rechte geltend zu machen, wenn ihre Werke aus ihrer Sicht unberechtigt für das Training oder die Generierung verwendet werden.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • KI und Urheberrecht, das ist kompliziert: Zum einen muss geklärt werden, ob das Web-Scraping von urheberrechtlich geschützten Daten für das KI-Training in Ordnung ist und z.B. durch Fair Use gedeckt ist.
  • Zum anderen muss geklärt werden, ob der Output von KI-Systemen, z.B. ein Bild, und die Verarbeitung bestehender Inhalte und deren Wiedergabe in leicht veränderter Form Urheberrechte verletzt oder als Plagiat gilt.
  • Japan und Israel signalisieren, dass sie zumindest das Sammeln von Daten für das KI-Training als rechtskonform ansehen. Explizite Urteile oder gar Gesetze existieren jedoch nicht.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!