KI-Training mit Reddit-Content: Plattform bittet zur Kasse

20. April 2023

Midjourney prompted by THE DECODER

Reddit spielt eine zentrale Rolle beim Training großer Sprachmodelle. Jetzt will das Netzwerk seine Daten monetarisieren.

OpenAIs GPT-3.5 oder GPT-4, Metas LLaMA oder Googles Bard - große Sprachmodelle werden mit Internettexten trainiert, und ein nicht unwesentlicher Teil der Trainingsdaten stammt aus Reddit-Threads.

Dass dies ungefragt und vor allem unbezahlt geschieht, scheint den Betreibern des Netzwerks ebenso ein Dorn im Auge zu sein wie den Verlagen, die sich schon vor einiger Zeit öffentlich gegen die Nutzung ihrer Inhalte für das Training generativer KI-Modelle ausgesprochen haben. Nun schließt sich auch Reddit dem Protest an und kündigt Konsequenzen an.

Der Datenbestand von Reddit ist wirklich wertvoll. Aber wir müssen diesen Wert nicht kostenlos an einige der größten Unternehmen der Welt abgeben.
Anzeige
DEC_D_Incontent-1

Steve Huffman, Gründer und Geschäftsführer von Reddit

Reddit will Unternehmen künftig für die Nutzung der Programmierschnittstelle (API) zur Kasse bitten, wie das Netzwerk am Dienstag mitteilte.

Reddit-API: KI-Training wird jetzt ausdrücklich erwähnt

Das Unternehmen aktualisierte die Nutzungsrichtlinien der Reddit-API. Während diese zuvor die Nutzung von Reddit-Daten für maschinelles Lernen nicht erwähnten und damit der allgemeinen Rechtslage überließ, wird dieser Anwendungsfall nun explizit ausgeschlossen.

Sie dürfen nicht und dürfen nicht zulassen, dass diejenigen, die in Ihrem Namen handeln:
Anzeige
DEC_D_Incontent-2

die Daten-APIs zu verwenden, um illegale Aktivitäten oder die Verletzung von Rechten Dritter zu fördern oder zu unterstützen (einschließlich der Verwendung von Benutzerinhalten zum Trainieren eines maschinellen Lern- oder KI-Modells ohne die ausdrückliche Genehmigung der Rechteinhaber der betreffenden Benutzerinhalte);

Nutzungsbedingungen der Reddit-API
Anzeige

Auch die FAQ wurden entsprechend aktualisiert und erlauben das Training von KI mit Reddit-Inhalten nur mit ausdrücklicher Genehmigung des Unternehmens. Der Einsatz der API zu wissenschaftlichen Zwecken wird der Webseite zufolge nicht grundlegend eingeschränkt.

Reddit spielt etwa in den Trainingsdaten von GPT-3.5 auf unterschiedliche Weise eine Rolle. Etwas mehr als ein Fünftel besteht aus dem WebText2-Datensatz, der Webseiten aus Reddit-Einträgen oberhalb einer bestimmten Bewertung extrahiert. Reddit ist auch Teil der Common Crawl Kollektionen, die von Unternehmen wie OpenAI, Meta oder Google für das KI-Training genutzt werden.

Börsengang und Sprachmodell?

Der Zeitpunkt der Ankündigung steht möglicherweise im Zusammenhang mit einem für später in diesem Jahr geplanten Börsengang. Angesichts mehrerer Neueinstellungen im Unternehmen gibt es zudem Spekulationen, dass Reddit an der Entwicklung eines eigenen großen Sprachmodells arbeitet.

Reddit ist nicht das einzige soziale Netzwerk, das in letzter Zeit versucht hat, seine API zu monetarisieren. Auch Twitter hat unter Elon Musk diesen Weg eingeschlagen und so Anwendungen von Drittanbietern praktisch unbrauchbar gemacht.

Inwieweit Huffmans Plan, die eigenen Daten zu monetarisieren, aufgeht, bleibt abzuwarten, da bereits mehr als ein Jahrzehnt an Reddit-Daten über Common Crawl öffentlich zugänglich sind. Der Wert qualitativ hochwertiger, von Menschen kuratierter Daten könnte jedoch in Zukunft steigen - und damit auch der Wert der Reddit-Threads.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

KI-Training mit Reddit-Content: Plattform bittet zur Kasse

Reddit-API: KI-Training wird jetzt ausdrücklich erwähnt

Börsengang und Sprachmodell?

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.