Update vom 22. Februar 2024:
Bei dem KI-Unternehmen handelt es sich offenbar um Google. Das berichtet Reuters unter Berufung auf anonyme Quellen. Reuters bestätigt die Lizenzgebühr von 60 Millionen US-Dollar pro Jahr, wobei offen bleibt, in welchem Umfang und welche Daten Reddit für diese Summe zur Verfügung stellt.
Ursprünglicher Artikel vom 17. Februar 2024:
Reddit profitiert von KI-Boom: 60 Millionen Dollar für KI-Trainingsdaten
Reddit hat einen Jahresvertrag über 60 Millionen US-Dollar mit einem nicht genannten KI-Unternehmen unterzeichnet, das die Inhalte der Plattform nutzen darf, um seine KI-Modelle zu trainieren.
Laut Bloomberg teilte Reddit das vorab potenziellen Investoren mit, die den geplanten Börsengang mit einer Bewertung von mindestens fünf Milliarden US-Dollar unterstützen sollen. Der Vertrag zeigt, wie Reddit vom derzeit großen Interesse an KI-Trainingsdaten profitieren kann.
Auch andere Social-Media-Plattformen könnten ihre Nutzerinhalte auf diese Weise verkaufen und zusätzliche Gewinne erzielen. Meta und X nutzen ihre Social-Media-Daten für das KI-Training ihrer eigenen Modelle.
Reddit hat große Bedeutung fürs KI-Training
Viele gehen davon aus, dass Reddit eine zentrale Rolle beim Training großer Sprachmodelle wie GPT-3.5 oder GPT-4 von OpenAI, LLaMa von Meta oder den Modellen von Google spielt.
Denn Reddit-Beiträge enthalten durch die Up- und Downvote-Funktion der Plattform in vielen Beiträgen bereits eine menschliche Bewertung, die eine Vorsortierung erleichtert. Zudem enthalten die Beiträge weiterführende, kontextbezogene Links. Beides macht die Daten für KI-Unternehmen wertvoll.
"Die Daten von Reddit sind wirklich wertvoll. Aber wir müssen diesen Wert nicht umsonst an einige der größten Unternehmen der Welt abgeben", sagte Reddit-Mitgründer Steve Huffman im Frühling 2023.
Damals kündigte Reddit an, Unternehmen, die über die Programmierschnittstelle an Nutzerdaten gelangen wollten, zur Kasse zu bitten. Frühere Modelle haben kostenlos auf Reddit-Daten trainiert. Diese steigenden Lizenzkosten für das Training zukünftiger KI-Modelle betreffen neben Reddit auch andere Textquellen.
So gehen KI-Unternehmen zunehmend Partnerschaften mit Verlagen ein, um Daten für das Training ihrer Modelle zu erhalten. OpenAI hat etwa eine Vereinbarung mit Axel Springer bestätigt, die allerdings auch die Bereitstellung von Springer-News auf ChatGPT beinhalten soll. Auch Apple soll und Google sollen Verlagen Lizenzverträge anbieten.
Meta erklärte in einer Stellungnahme an die US-Copyright-Behörde, dass KI-Training auf rein lizenziertem Material in dem erforderlichen Umfang unerschwinglich wäre. Auch OpenAI sagte gegenüber der britischen Regierung, dass die Entwicklung von fortschrittlicher KI ohne Training auf lizenziertem Material nicht möglich sei.