Skip to content

Tech-Unternehmen sollen YouTube-Daten illegal fürs KI-Training genutzt haben

Image description
Midjourney prompted by THE DECODER

Kurz & Knapp

  • Proof News hat aufgedeckt, dass Tech- und KI-Unternehmen wie Anthropic, Nvidia, Apple und Salesforce ohne Wissen der Urheber tausende YouTube-Videos zum Training ihrer KI-Modelle genutzt haben.
  • Der "YouTube Subtitles"-Datensatz, der Teil des von Eleuther AI zusammengestellten Datensatzes "The Pile" ist, enthält Untertitel von 173.536 Videos von über 48.000 Kanälen, darunter Bildungs-, Medien- und Creator-Inhalte.
  • Laut YouTube-CEO Neal Mohan ist diese Art der Datennutzung durch die YouTube-Nutzungsbedingungen untersagt. Ob die Unternehmen sich dennoch auf "Fair Use"-Prinzip berufen können, ist noch unklar und wird vermutlich gerichtlich geklärt werden müssen.

Laut einer Untersuchung der Nachrichtenplattform Proof News haben mehrere führende Technologie- und KI-Unternehmen, darunter Apple, Nvidia, Anthropic und Salesforce, offenbar ohne Wissen der Urheber tausende YouTube-Videos für das Training ihrer KI-Modelle genutzt.

Proof News fand heraus, dass die Unternehmen Untertitel von 173.536 YouTube-Videos von mehr als 48.000 Kanälen verwendeten. Der als "YouTube Subtitles" bezeichnete Datensatz enthält Video-Transkripte von Bildungskanälen wie Khan Academy, MIT und Harvard sowie von Medienunternehmen wie The Wall Street Journal, NPR und BBC.

Auch Material von Late-Night-Shows wie "The Late Show with Stephen Colbert" und "Jimmy Kimmel Live!" sowie von bekannten YouTube-Persönlichkeiten wie MrBeast und Marques Brownlee wurde laut der Recherche für das KI-Training genutzt. Letztgenannter bezeichnet die KI-Trainingsdebatte als "Problem, dass sich noch lange Zeit weiterentwickeln" wird. Interessierte können mit diesem Tool suchen, welche Daten im Datensatz enthalten sind.

Der "YouTube Subtitles"-Datensatz ist Teil von "The Pile", einer von der Forschungsorganisation Eleuther AI zusammengestellten Sammlung von Internetdaten. Apple nutzte The Pile beispielsweise für seine Open-Source-Modelle OpenELM, die möglicherweise in der eigenen Apple Intelligence zum Einsatz kommen. Anthropic und Salesforce haben bereits bestätigt, dass sie The Pile für ihre KI-Systeme genutzt haben.

Es gibt bei YouTube-Daten womöglich eine Besonderheit: YouTube-CEO Neal Mohan betonte im April, dass diese Art der Datennutzung durch die YouTube-Nutzungsbedingungen ausdrücklich untersagt ist. Ob das am Grundsatz des "Fair Use" etwas ändert, auf den sich die datensammelnden KI-Unternehmen – einschließlich Google in eigenen Rechtsstreitigkeiten – meist berufen, bleibt abzuwarten.

Die rechtliche Situation bezüglich der Nutzung von Daten für das KI-Training ist nach wie vor unklar. Ein kürzlich ergangenes Urteil zum Code-KI-Tool Github Copilot besagt, dass zumindest keine Urheberrechtsverletzung vorliegt, solange der Output der Systeme nicht identisch mit dem ursprünglichen Inhalt ist.

Der Fall reiht sich ein in eine wachsende Zahl von Rechtsstreitigkeiten. Mehrere Sammelklagen von Verlagen und Autoren gegen Technologiekonzerne sind bereits anhängig, unter anderem wegen der Nutzung von Büchern als Trainingsdaten. Ähnliche Klagen sind auch im Bild- und Musikbereich anhängig, weitere zeichnen sich im Videobereich ab.

Quelle: ProofNews.org

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren