Anzeige
Skip to content

Copyright und KI-Training: Japan und Israel mit ersten Positionen

Image description
Midjourney prompted by THE DECODER

Welche Daten dürfen für das Training von KI-Modellen verarbeitet werden? Japan und Israel formulieren erste Positionen, die aber wie alles bei diesem Thema noch im Fluss sind.

Große Sprach- und Bildmodelle werden mit unzähligen Daten aus dem Internet trainiert. Viele dieser Daten sind urheberrechtlich geschützt und wurden nicht explizit für das Training von KI-Modellen freigegeben.

Insbesondere in der Design- und Kunstbranche und seit dem Aufkommen von Bildgeneratoren wie Stable Diffusion ist daher eine Diskussion über die rechtliche Zulässigkeit solcher Modelle entbrannt.

Japanisches Gesetz begünstigt generative KI

Die japanische Ministerin für Bildung, Kultur, Sport, Wissenschaft und Technologie, Keiko Nagaoka, hat in einer Anhörung mit dem japanischen Politiker Takashi Kii Ende April die bestehende japanische Gesetzgebung bestätigt, wonach die Nutzung von im Internet gesammelten Daten für nicht-kommerzielle und kommerzielle Zwecke auch im Kontext der generativen KI gilt.

Anzeige
DEC_D_Incontent-1

Dies ist natürlich keine explizite Bestätigung der Legitimität großer KI-Modelle, die mit urheberrechtlich geschützten Daten trainiert werden, sondern eine Momentaufnahme im Kontext des bestehenden japanischen Rechts.

Takashi Kii äußerte im Rahmen des Gesprächs, dass er neue, an das Zeitalter der KI angepasste Urheberrechtsregelungen für notwendig halte. Auch gebe es in Japan noch keine Regeln für den Umgang mit generativer KI im Bildungskontext.

Israel positioniert sich zu Copyright bei Trainingsdaten

Konkreter ist dagegen ein bereits 2022 veröffentlichtes Positionspapier des israelischen Justizministeriums (via Project Disco), das davon ausgeht, dass "typischerweise" die Fair-Use-Doktrin gilt und einige Projekte unter eine Doktrin fallen könnten, die eine "beiläufige Nutzung von urheberrechtlich geschütztem Material" erlaubt, wenn die urheberrechtlich geschützten Werke am Ende des Trainingsprozesses gelöscht werden.

Ausgenommen von dieser Betrachtung sind Datensätze, die gezielt mit Werken einzelner Urheber trainiert werden, um anschließend mit diesen in Wettbewerb zu treten. Man stelle sich etwa ein KI-System vor, das ausschließlich mit Harry-Potter-Romanen trainiert wird, um weitere zu generieren.

Anzeige
DEC_D_Incontent-2

Zudem bezieht sich die Stellungnahme nur auf das Training und nicht auf den Output der Systeme, der unabhängig vom Trainingsprozess Urheberrechte verletzen könnte.

Ein weiterer Sonderfall in der Urheberrechtsdebatte dürften Chatbots wie die von Microsoft, OpenAI und Google sein, die Webinhalte in Echtzeit scannen und in leicht veränderter Form z.B. als Suchergebnis präsentieren.

Diese Urheberrechtsdebatte ist ebenfalls losgelöst von den eigentlichen Trainingsmaterialien, wobei auch hier Verlage versuchen dürften, etwaige Rechte geltend zu machen, wenn ihre Werke aus ihrer Sicht unberechtigt für das Training oder die Generierung verwendet werden.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren