Anzeige
Skip to content

Google sammelt dreimal mehr KI-Daten als OpenAI dank Suchmonopol

Image description
GPT-Image-1 prompted by THE DECODER

Kurz & Knapp

  • Cloudflare-Messungen zeigen, dass Google aufgrund seiner Marktmacht 3,2-mal mehr Webseiten für KI-Training erfassen kann als OpenAI und fast 5-mal mehr als Anthropic.
  • Google bündelt seine Crawler für die Suche und für KI-Training, sodass Publisher ihre Daten nicht vor KI-Modellen schützen können, ohne gleichzeitig aus dem Suchindex zu verschwinden.
  • CEO Matthew Prince bezeichnet dies als Ausnutzung einer historischen Monopolstellung und fordert eine Trennung der Crawler, um faire Wettbewerbsbedingungen und Lizenzierungsmodelle für Publisher zu ermöglichen.

Cloudflare-Daten zeigen, wie massiv Googles Datenvorsprung gegenüber OpenAI und Anthropic durch die Kopplung von Suche und KI-Scraping ist.

"Sie haben diesen unglaublich privilegierten Zugang", sagt Cloudflare-CEO Matthew Prince über Googles dominante Position beim Sammeln von Webdaten.

Laut Prince zeigen interne Messungen von Cloudflare, dass Google derzeit 3,2-mal mehr Seiten im Internet sieht als OpenAI. Der Vorsprung gegenüber anderen Konkurrenten ist noch drastischer: Google erfasst 4,6-mal mehr Inhalte als Microsoft und 4,8-mal mehr als Anthropic oder Meta. Ursache für diese Diskrepanz ist laut Prince die Strategie von Google, den Such-Crawler mit dem KI-Crawler zu bündeln: Webseitenbetreiber können das KI-Training nicht blockieren, ohne gleichzeitig aus der Google-Suche zu verschwinden – ein Dilemma, das Google einen exklusiven Datenvorteil verschafft.

Für Prince ist die aktuelle Taktik ein klarer Missbrauch historischer Marktmacht: "Es sollte nicht sein, dass man seine Monopolstellung von gestern nutzen kann, um eine Monopolstellung auf dem Markt von morgen zu erlangen."

Anzeige
DEC_D_Incontent-1

"Google ist hier das Problem"

Die Dimension dieses Ungleichgewichts wird vor dem Hintergrund der massiven Abwehrmaßnahmen deutlich, die Webseitenbetreiber eigentlich ergreifen wollen. Seit dem 1. Juli hat Cloudflare für seine Kunden bereits 416 Milliarden KI-Anfragen blockiert. Diese Blockaden greifen jedoch vor allem bei Akteuren, die sich an Standards halten oder separat identifizierbar sind – Google hingegen umgeht diesen Schutzwall effektiv durch die technische Bündelung seiner Dienste. Publisher stehen somit vor der Wahl: Entweder sie liefern ihre Daten für Googles KI-Modelle aus oder sie verzichten auf die Sichtbarkeit in der Suchmaschine, was für viele einem wirtschaftlichen Todesurteil gleichkommt.

"Google ist hier das Problem", sagt Prince deutlich gegenüber WIRED. Es sei das Unternehmen, das den Fortschritt aufhalte, solange es nicht gezwungen oder überzeugt werde, seine Crawler für Suche und KI aufzuteilen. Ohne diese Trennung sei es für Publisher fast unmöglich, ihre Inhalte effektiv zu schützen und Lizenzierungsmodelle durchzusetzen, die in der neuen Ära der generativen KI überlebenswichtig sein könnten.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: WIRED