Inhalt
summary Zusammenfassung

Eine Studie zeigt, dass KI-Modelle zunehmend von ihren Trainingsdaten im Web abgeschnitten werden. Die rapide wachsende Zahl von Einschränkungen könnte dazu führen, dass Modelle in Zukunft aus weniger, einseitigeren und veralteten Informationen lernen müssen.

Anzeige

Eine großangelegte Studie der unabhängigen akademischen Data Provenance Initiative dokumentiert einen rapiden Rückgang des Zugangs zu Webdaten für KI-Modelle. Das Forscherteam analysierte die Robots.txt-Dateien und Nutzungsbedingungen von 14.000 Webdomänen, die als Quellen für beliebte KI-Trainingsdatensätze wie C4, RefinedWeb und Dolma dienen.

Innerhalb eines Jahres, von April 2023 bis April 2024, stieg der Anteil der für KI-Crawler vollständig gesperrten Token in diesen Datensätzen von etwa 1 Prozent auf 5 bis 7 Prozent. Mit Token sind die einzelnen Satz- und Wortbestandteile gemeint, mit denen ein KI-Modell trainiert wird.

Bei den wichtigsten Datenquellen war der Anstieg noch deutlicher: Hier stieg der Anteil der gesperrten Token von weniger als 3 Prozent auf 20 auf 33 Prozent. Die Forscher prognostizieren, dass sich dieser Trend in den kommenden Monaten fortsetzen wird. Besonders häufig wird OpenAI ausgesperrt, gefolgt von Anthropic und Google.

Anzeige
Anzeige
Die Visualisierung zeigt, dass in der zweiten Jahreshälfte 2023 viele Inhalteanbieter dazu übergegangen sind, den Zugang zu ihren Inhalten für KI-Unternehmen zu sperren, entweder durch eine Robots.txt-Datei oder durch eine Klausel in den Nutzungsbedingungen der Website oder durch beides. | Bild: Data Provenance Initiative

Die Beschränkungen gehen vorwiegend von Nachrichtenwebsites, Foren und Social-Media-Plattformen aus. Bei Nachrichtenseiten stieg der Anteil vollständig gesperrter Tokens innerhalb eines Jahres von drei Prozent auf 45 Prozent. Deren Anteil in den Trainingsdaten dürfte daher zugunsten von Unternehmens- und E-Commerce-Websites, die weniger Restriktionen aufweisen, sinken.

KI-Herstellern dürfte genau dieser Trend besonders treffen: In der Branche hat sich mittlerweile die Erkenntnis durchgesetzt, dass es für die weitere Entwicklung von KI wichtig sein wird, dass die Modelle mehr aus weniger, dafür aber qualitativ hochwertigen Daten lernen.

Die Studie zeigt auch, dass die tatsächliche Nutzung von generativen KI-Modellen vom Inhalt ihrer Trainingsdaten abweicht. Dies könnte insofern relevant sein, als Verlage, die KI-Hersteller verklagen, dies unter der Prämisse tun, dass Angebote wie ChatGPT mit den Informationsangeboten der Verlage konkurrieren und diese Fähigkeit auf Basis der Verlagsinhalte erlangt haben.

Die häufigsten Web-Dienste entsprechen laut Forschenden nicht den tatsächlichen ChatGPT-Anwendungsfällen. Links: Anteil der Token pro Webdienst und deren Monetarisierung durch Paywalls/Werbung. Rechts: Anteil der verschiedenen Nutzeranfragen in WildChat, einem Datensatz mit ChatGPT-Interaktionen. | Bild: Data Provenance Initiative

Insgesamt könnte diese Entwicklung das Training leistungsfähiger und zuverlässiger KI-Systeme erschweren oder zumindest verteuern. Anbieter hochwertiger Inhalte könnten neue Einnahmequellen erschließen und zu den großen Profiteuren werden.

OpenAI beispielsweise hat in den vergangenen Monaten mehrere millionenschwere Verträge mit Verlagen ausgehandelt, um Zugang zu deren Inhalten für Echtzeit-Anzeige in Chat-Systemen und KI-Training zu erhalten. Andere dürften diesem Beispiel folgen, es sei denn, ein Fair-Use-Urteil stellt die gesamte Entwicklung auf den Kopf.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie der Data Provenance Initiative zeigt, dass KI-Modelle zunehmend von ihren Trainingsdaten im Web abgeschnitten werden. Innerhalb eines Jahres ist der Anteil der für KI-Crawler gesperrten Token in beliebten Datensätzen von etwa 1 Prozent auf 5 bis 7 Prozent gestiegen.
  • Nachrichtenseiten, Foren und Social-Media-Plattformen blockieren den Zugang für KI-Unternehmen besonders häufig. Bei Nachrichtenseiten ist der Anteil der vollständig blockierten Token innerhalb eines Jahres von 3 Prozent auf 45 Prozent gestiegen.
  • Diese Entwicklung könnte das Training leistungsfähiger KI-Systeme erschweren oder verteuern. Anbieter hochwertiger Inhalte könnten neue Einnahmequellen erschließen, indem sie mit KI-Unternehmen wie OpenAI Verträge über den Zugang zu ihren Inhalten aushandeln.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!