Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Reddit spielt eine zentrale Rolle beim Training großer Sprachmodelle. Jetzt will das Netzwerk seine Daten monetarisieren.

OpenAIs GPT-3.5 oder GPT-4, Metas LLaMA oder Googles Bard - große Sprachmodelle werden mit Internettexten trainiert, und ein nicht unwesentlicher Teil der Trainingsdaten stammt aus Reddit-Threads.

Dass dies ungefragt und vor allem unbezahlt geschieht, scheint den Betreibern des Netzwerks ebenso ein Dorn im Auge zu sein wie den Verlagen, die sich schon vor einiger Zeit öffentlich gegen die Nutzung ihrer Inhalte für das Training generativer KI-Modelle ausgesprochen haben. Nun schließt sich auch Reddit dem Protest an und kündigt Konsequenzen an.

Der Datenbestand von Reddit ist wirklich wertvoll. Aber wir müssen diesen Wert nicht kostenlos an einige der größten Unternehmen der Welt abgeben.

Steve Huffman, Gründer und Geschäftsführer von Reddit

Reddit will Unternehmen künftig für die Nutzung der Programmierschnittstelle (API) zur Kasse bitten, wie das Netzwerk am Dienstag mitteilte.

Anzeige
Anzeige

Reddit-API: KI-Training wird jetzt ausdrücklich erwähnt

Das Unternehmen aktualisierte die Nutzungsrichtlinien der Reddit-API. Während diese zuvor die Nutzung von Reddit-Daten für maschinelles Lernen nicht erwähnten und damit der allgemeinen Rechtslage überließ, wird dieser Anwendungsfall nun explizit ausgeschlossen.

Sie dürfen nicht und dürfen nicht zulassen, dass diejenigen, die in Ihrem Namen handeln:

  • die Daten-APIs zu verwenden, um illegale Aktivitäten oder die Verletzung von Rechten Dritter zu fördern oder zu unterstützen (einschließlich der Verwendung von Benutzerinhalten zum Trainieren eines maschinellen Lern- oder KI-Modells ohne die ausdrückliche Genehmigung der Rechteinhaber der betreffenden Benutzerinhalte);

Nutzungsbedingungen der Reddit-API

Auch die FAQ wurden entsprechend aktualisiert und erlauben das Training von KI mit Reddit-Inhalten nur mit ausdrücklicher Genehmigung des Unternehmens. Der Einsatz der API zu wissenschaftlichen Zwecken wird der Webseite zufolge nicht grundlegend eingeschränkt.

Reddit spielt etwa in den Trainingsdaten von GPT-3.5 auf unterschiedliche Weise eine Rolle. Etwas mehr als ein Fünftel besteht aus dem WebText2-Datensatz, der Webseiten aus Reddit-Einträgen oberhalb einer bestimmten Bewertung extrahiert. Reddit ist auch Teil der Common Crawl Kollektionen, die von Unternehmen wie OpenAI, Meta oder Google für das KI-Training genutzt werden.

Börsengang und Sprachmodell?

Der Zeitpunkt der Ankündigung steht möglicherweise im Zusammenhang mit einem für später in diesem Jahr geplanten Börsengang. Angesichts mehrerer Neueinstellungen im Unternehmen gibt es zudem Spekulationen, dass Reddit an der Entwicklung eines eigenen großen Sprachmodells arbeitet.

Reddit ist nicht das einzige soziale Netzwerk, das in letzter Zeit versucht hat, seine API zu monetarisieren. Auch Twitter hat unter Elon Musk diesen Weg eingeschlagen und so Anwendungen von Drittanbietern praktisch unbrauchbar gemacht.

Empfehlung

Inwieweit Huffmans Plan, die eigenen Daten zu monetarisieren, aufgeht, bleibt abzuwarten, da bereits mehr als ein Jahrzehnt an Reddit-Daten über Common Crawl öffentlich zugänglich sind. Der Wert qualitativ hochwertiger, von Menschen kuratierter Daten könnte jedoch in Zukunft steigen - und damit auch der Wert der Reddit-Threads.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Reddit will künftig Geld für die Nutzung der API verlangen.
  • Auch für das Training von KI-Modellen ist eine explizite Zustimmung erforderlich.
  • Der Wert qualitativ hochwertiger, von Menschen kuratierter Daten könnte in Zukunft steigen - und Reddits Plan, die eigenen Daten zu monetarisieren, könnte aufgehen.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!