Eine Untersuchung des Musikverlegerverbands ICMP und ein Bericht von The Atlantic zeigen eine systematische Doppelmoral auf: Tech-Konzerne nutzen urheberrechtlich geschützte Werke für KI-Trainings, verbieten aber die gleiche Praxis für ihre eigenen Inhalte.
»Von KI- und Tech-Unternehmen hören wir immer nur: ‚Wir brauchen Ausnahmeregelungen, um im großen Stil und ohne Lizenzen auf Daten für unser Training zugreifen zu können‘«, sagt John Phelan, Generaldirektor des ICMP. »Unsere Arbeit zeigt, dass sie zur selben Zeit von allen anderen eine vorherige schriftliche Erlaubnis verlangen, bevor deren Inhalte genutzt werden dürfen.«
Eine Untersuchung des internationalen Musikverlegerverbands ICMP, über die Billboard berichtet, und ein separater Bericht von The Atlantic legen eine systematische Doppelmoral bei führenden Tech-Konzernen nahe. Während Firmen wie Google, Meta und Microsoft demnach massenhaft urheberrechtlich geschützte Musik und Videos für ihre KI-Modelle scrapen, verbieten ihre eigenen Nutzungsbedingungen ausdrücklich die Vervielfältigung ihrer Inhalte ohne vorherige schriftliche Zustimmung.
ICMP bezeichnet KI-Training als "größten Diebstahl geistigen Eigentums der Geschichte"
Laut dem internationalen Musikverlegerverband (ICMP) haben einige der weltgrößten Technologieunternehmen, darunter Google, Microsoft, Meta, OpenAI und X, urheberrechtlich geschützte Musik im großen Stil für das Training ihrer KI-Systeme genutzt. Der Verband, der über zwei Jahre Beweise sammelte, bezeichnet dies als den "größten Diebstahl geistigen Eigentums in der Geschichte der Menschheit". John Phelan, Generaldirektor des ICMP, erklärte gegenüber Billboard, dass "täglich zig Millionen Werke verletzt werden".
Das vom ICMP vorgelegte Dossier enthält laut eigener Aussage "umfassende und klare" Beweise. So sollen die Musik-Apps Udio und Suno illegal Musik von YouTube gescrapt haben. Die Analyse von Metas Llama 3 deute darauf hin, dass das Modell mit Texten von Künstlern wie The Weeknd und Ed Sheeran trainiert wurde. Gerichtsakten im Fall gegen Anthropic zeigten, dass dessen KI-Modell Claude massenhaft Songtexte kopiert, darunter "American Pie" und "Halo". Auch Microsofts CoPilot und Googles Gemini sollen urheberrechtlich geschützte Songtexte repliziert haben.
Die im Billboard-Bericht aufgeführten Beweise umfassen jedoch auch deutlich fragwürdige Beispiele, etwa schriftliche Eingeständnisse von Chatbots wie ChatGPT oder Gemini bezüglich der verwendeten Datensätze für Produkte der jeweiligen Unternehmen. Angesichts der Funktionsweise von Sprachmodellen sind solche Aussagen für eine Beweisführung, wie sie der ICMP versucht, praktisch wertlos. Unabhängig davon gibt es aber zahlreiche Hinweise darauf, dass sich große – ebenso wie kleinere – Tech-Unternehmen hinter dem KI-Boom in großem Umfang an urheberrechtlich geschützten Daten bedient haben. Im Textbereich laufen entsprechende Verfahren, etwa die Klage der New York Times gegen OpenAI oder die kürzlich vorerst gestoppte Einigung zwischen Anthropic und betroffenen Autor:innen. Im Musikbereich sieht sich etwa Suno Klagen gegenüber, und im Bildbereich laufen Verfahren gegen Anbieter wie Midjourney.
Millionen von YouTube-Videos für KI-Videogeneratoren missbraucht
Parallel dokumentiert The Atlantic, dass Tech-Unternehmen ohne Erlaubnis mindestens 15,8 Millionen YouTube‑Videos von mehr als 2 Millionen Kanälen massenhaft heruntergeladen und in mindestens 13 Datensätzen gebündelt haben – fast 1 Million davon How‑to‑Videos. In vielen Fällen seien Titel und Kanalnamen anonymisiert, ließen sich aber über eindeutige IDs zuordnen. Der Massendownload verstoße gegen die YouTube‑Nutzungsbedingungen, YouTube habe wenig bis nichts dagegen unternommen und auf eine Anfrage nicht reagiert, berichtet The Atlantic. Über eine separate Webseite lassen sich dort enthaltene Videos durchsuchen.
Die Datensätze würden laut Recherche von Firmen wie Microsoft, Meta, Amazon, Nvidia, Runway, ByteDance, Snap und Tencent zum Training genutzt. Meta, Amazon und Nvidia antworteten, betonten den Respekt für Creator und die Rechtskonformität der Nutzung; Amazon fokussiert bei Video derzeit auf die Generierung „ansprechender, hochwertiger Anzeigen“. Besonders betroffen seien Nachrichten‑ und Bildungskanäle: BBC mit mindestens 33.000 Videos, TED mit nahezu 50.000, dazu Hunderttausende Einzel‑Creator. Ein Leak aus Runway, über das 404 Media berichtete, zeige, welche Qualitäten bevorzugt werden: „high camera movement“, „beautiful cinematic landscapes“, „super high quality sci‑fi short films“ – ein Kanal wurde als „THE HOLY GRAIL OF CAR CINEMATICS SO FAR“ bezeichnet, so The Atlantic.
Kuratoren setzten bei Sammlungen wie HowTo100M und HD‑VILA‑100M auf hohe View‑Zahlen, bei HD‑VG‑130M kamen KI‑Modelle zur Selektion „ästhetisch hochwertiger“ Clips zum Einsatz. Oft würden Videos mit Overlays (Untertitel, Logos) gemieden – ein Wasserzeichen verringere die Trainingsattraktivität. Zur Aufbereitung würden lange Videos in Clip‑Segmente geschnitten und mit englischsprachigen Szenenbeschreibungen versehen – durch Crowd‑Arbeit oder automatisiert mittels KI, erklärt The Atlantic.
Die Ergebnisse landen bereits in Produkten: Meta entwickelt die Text‑zu‑Video‑Suite Movie Gen, Snap bietet AI Video Lenses, Googles Gemini animiert Fotos zu kurzen Clips oder generiert mit Veo 3 direkt neue Videos. Zugleich trainieren Plattformen auf eigenen Beständen: Google auf mindestens 70 Mio. YouTube‑Clips, Meta auf mehr als 65 Mio. Instagram‑Clips. Creator müssen dadurch auf denselben Plattformen mit einer Flut synthetischer Inhalte konkurrieren.
Die Doppelmoral der Tech-Konzerne
Die Berichte über die weit verbreitete Praxis der Tech-Unternehmen und ein Blick auf ihre AGBs zeigt den vorherrschenden Widerspruch. Während sie für sich weitreichende Ausnahmen beim Urheberrecht fordern, um KI-Modelle trainieren zu können, verbieten dieselben Firmen in ihren eigenen Nutzungsbedingungen das Scrapen ihrer Inhalte. Der ICMP verweist auf entsprechende Klauseln bei Facebook, YouTube, X, Google, OpenAI, Microsoft und Adobe, die eine vorherige schriftliche Zustimmung für die Nutzung ihrer Daten verlangen.
Die Berichte liefern widersprechen auch einem weiteren Argument der Tech-Industrie. Unternehmen behaupten oft, eine Offenlegung der Trainingsdaten sei zu komplex. Die vom ICMP und in geleakten Dokumenten von Firmen wie Runway analysierten Daten zeigen jedoch das Gegenteil: Die gescrapten Inhalte werden akribisch mit Metadaten wie Künstler, Genre und Tempo versehen, was eine detaillierte Nachverfolgung möglich machen würde, wie sie etwa im AI Act der Europäischen Union gefordert wird.