Reddit spielt eine zentrale Rolle beim Training großer Sprachmodelle. Jetzt will das Netzwerk seine Daten monetarisieren.
OpenAIs GPT-3.5 oder GPT-4, Metas LLaMA oder Googles Bard - große Sprachmodelle werden mit Internettexten trainiert, und ein nicht unwesentlicher Teil der Trainingsdaten stammt aus Reddit-Threads.
Dass dies ungefragt und vor allem unbezahlt geschieht, scheint den Betreibern des Netzwerks ebenso ein Dorn im Auge zu sein wie den Verlagen, die sich schon vor einiger Zeit öffentlich gegen die Nutzung ihrer Inhalte für das Training generativer KI-Modelle ausgesprochen haben. Nun schließt sich auch Reddit dem Protest an und kündigt Konsequenzen an.
Der Datenbestand von Reddit ist wirklich wertvoll. Aber wir müssen diesen Wert nicht kostenlos an einige der größten Unternehmen der Welt abgeben.
Steve Huffman, Gründer und Geschäftsführer von Reddit
Reddit will Unternehmen künftig für die Nutzung der Programmierschnittstelle (API) zur Kasse bitten, wie das Netzwerk am Dienstag mitteilte.
Reddit-API: KI-Training wird jetzt ausdrücklich erwähnt
Das Unternehmen aktualisierte die Nutzungsrichtlinien der Reddit-API. Während diese zuvor die Nutzung von Reddit-Daten für maschinelles Lernen nicht erwähnten und damit der allgemeinen Rechtslage überließ, wird dieser Anwendungsfall nun explizit ausgeschlossen.
Sie dürfen nicht und dürfen nicht zulassen, dass diejenigen, die in Ihrem Namen handeln:
- die Daten-APIs zu verwenden, um illegale Aktivitäten oder die Verletzung von Rechten Dritter zu fördern oder zu unterstützen (einschließlich der Verwendung von Benutzerinhalten zum Trainieren eines maschinellen Lern- oder KI-Modells ohne die ausdrückliche Genehmigung der Rechteinhaber der betreffenden Benutzerinhalte);
Nutzungsbedingungen der Reddit-API
Auch die FAQ wurden entsprechend aktualisiert und erlauben das Training von KI mit Reddit-Inhalten nur mit ausdrücklicher Genehmigung des Unternehmens. Der Einsatz der API zu wissenschaftlichen Zwecken wird der Webseite zufolge nicht grundlegend eingeschränkt.
Reddit spielt etwa in den Trainingsdaten von GPT-3.5 auf unterschiedliche Weise eine Rolle. Etwas mehr als ein Fünftel besteht aus dem WebText2-Datensatz, der Webseiten aus Reddit-Einträgen oberhalb einer bestimmten Bewertung extrahiert. Reddit ist auch Teil der Common Crawl Kollektionen, die von Unternehmen wie OpenAI, Meta oder Google für das KI-Training genutzt werden.
Börsengang und Sprachmodell?
Der Zeitpunkt der Ankündigung steht möglicherweise im Zusammenhang mit einem für später in diesem Jahr geplanten Börsengang. Angesichts mehrerer Neueinstellungen im Unternehmen gibt es zudem Spekulationen, dass Reddit an der Entwicklung eines eigenen großen Sprachmodells arbeitet.
Reddit ist nicht das einzige soziale Netzwerk, das in letzter Zeit versucht hat, seine API zu monetarisieren. Auch Twitter hat unter Elon Musk diesen Weg eingeschlagen und so Anwendungen von Drittanbietern praktisch unbrauchbar gemacht.
Inwieweit Huffmans Plan, die eigenen Daten zu monetarisieren, aufgeht, bleibt abzuwarten, da bereits mehr als ein Jahrzehnt an Reddit-Daten über Common Crawl öffentlich zugänglich sind. Der Wert qualitativ hochwertiger, von Menschen kuratierter Daten könnte jedoch in Zukunft steigen - und damit auch der Wert der Reddit-Threads.