Welche Daten dürfen für das Training von KI-Modellen verarbeitet werden? Japan und Israel formulieren erste Positionen, die aber wie alles bei diesem Thema noch im Fluss sind.
Große Sprach- und Bildmodelle werden mit unzähligen Daten aus dem Internet trainiert. Viele dieser Daten sind urheberrechtlich geschützt und wurden nicht explizit für das Training von KI-Modellen freigegeben.
Insbesondere in der Design- und Kunstbranche und seit dem Aufkommen von Bildgeneratoren wie Stable Diffusion ist daher eine Diskussion über die rechtliche Zulässigkeit solcher Modelle entbrannt.
Japanisches Gesetz begünstigt generative KI
Die japanische Ministerin für Bildung, Kultur, Sport, Wissenschaft und Technologie, Keiko Nagaoka, hat in einer Anhörung mit dem japanischen Politiker Takashi Kii Ende April die bestehende japanische Gesetzgebung bestätigt, wonach die Nutzung von im Internet gesammelten Daten für nicht-kommerzielle und kommerzielle Zwecke auch im Kontext der generativen KI gilt.
Dies ist natürlich keine explizite Bestätigung der Legitimität großer KI-Modelle, die mit urheberrechtlich geschützten Daten trainiert werden, sondern eine Momentaufnahme im Kontext des bestehenden japanischen Rechts.
Takashi Kii äußerte im Rahmen des Gesprächs, dass er neue, an das Zeitalter der KI angepasste Urheberrechtsregelungen für notwendig halte. Auch gebe es in Japan noch keine Regeln für den Umgang mit generativer KI im Bildungskontext.
Israel positioniert sich zu Copyright bei Trainingsdaten
Konkreter ist dagegen ein bereits 2022 veröffentlichtes Positionspapier des israelischen Justizministeriums (via Project Disco), das davon ausgeht, dass "typischerweise" die Fair-Use-Doktrin gilt und einige Projekte unter eine Doktrin fallen könnten, die eine "beiläufige Nutzung von urheberrechtlich geschütztem Material" erlaubt, wenn die urheberrechtlich geschützten Werke am Ende des Trainingsprozesses gelöscht werden.
Ausgenommen von dieser Betrachtung sind Datensätze, die gezielt mit Werken einzelner Urheber trainiert werden, um anschließend mit diesen in Wettbewerb zu treten. Man stelle sich etwa ein KI-System vor, das ausschließlich mit Harry-Potter-Romanen trainiert wird, um weitere zu generieren.
Zudem bezieht sich die Stellungnahme nur auf das Training und nicht auf den Output der Systeme, der unabhängig vom Trainingsprozess Urheberrechte verletzen könnte.
Ein weiterer Sonderfall in der Urheberrechtsdebatte dürften Chatbots wie die von Microsoft, OpenAI und Google sein, die Webinhalte in Echtzeit scannen und in leicht veränderter Form z.B. als Suchergebnis präsentieren.
Diese Urheberrechtsdebatte ist ebenfalls losgelöst von den eigentlichen Trainingsmaterialien, wobei auch hier Verlage versuchen dürften, etwaige Rechte geltend zu machen, wenn ihre Werke aus ihrer Sicht unberechtigt für das Training oder die Generierung verwendet werden.