Google ignoriert Publisher-Opt-out bei KI-Training für Suche

4. Mai 2025

GPT-Image-1 prompted by THE DECODER

Publisher nehmen Google Deepmind 80 Milliarden Trainings-Token weg – aber Google stört das erst mal nicht. In einem laufenden Kartellverfahren räumt ein Manager ein, dass Google Search dennoch KI-Training mit diesen Inhalten durchführt.

Google trainiert seine KI-Modelle für die Internetsuche mit Inhalten aus dem Web – auch dann, wenn Websitebetreiber deren Nutzung ausdrücklich untersagt haben. Das erklärte Eli Collins, Vizepräsident bei Google Deepmind, während einer Gerichtsverhandlung in Washington, wie Bloomberg berichtet.

Demnach gilt die bestehende Opt-out-Regelung lediglich für Googles KI-Tochter Deepmind, die die Gemini-Modelle trainiert. Andere Bereiche des Unternehmens, insbesondere die für die Websuche zuständige Abteilung, können die Inhalte trotzdem für ihre eigenen KI-Systeme verwenden.

"Sobald man Gemini in die Suchorganisation integriert, kann diese auf Daten zugreifen, die Publisher eigentlich vom Training ausgeschlossen haben – korrekt?", fragte Diana Aguilar vom US-Justizministerium. Collins antwortete: "Korrekt – für die Nutzung in der Suche."

Google verwendet die von der Suche gesammelten Daten für KI-Funktionen wie "AI Overviews", die KI-Antworten direkt über den regulären Suchergebnissen anzeigen. Diese Funktion steht unmittelbar in Konkurrenz zu den Angeboten von Webseiten-Betreibern, weil sie Nutzer davon abhält, auf die eigentlichen Websites zu klicken – deren Inhalte aber für die KI-Antworten verwendet werden.

Google "verliert" die Hälfte an Publisher-Trainingsdaten

Ein internes Google-Dokument aus dem Sommer 2024 nennt 160 Milliarden sogenannte Tokens – kurze Textausschnitte –, die ursprünglich für das Training von KI-Modellen vorgesehen waren. Davon wurden 80 Milliarden entfernt, weil sie von Publishern stammen, die ein Opt-out erklärt hatten.

Die Aussage von Eli Collins legt jedoch nahe, dass diese Inhalte weiterhin für KI-Anwendungen im Bereich der Websuche verwendet werden – nur nicht direkt von Google Deepmind. Damit nutzt Google die Daten an anderer Stelle innerhalb des Unternehmens, obwohl Publisher sicher beabsichtigten, Google insgesamt von der Verwendung auszuschließen.

Die Aussagen fielen im Rahmen eines laufenden Kartellverfahrens gegen Google vor einem Bundesgericht in Washington. Das US-Justizministerium fordert unter anderem den Verkauf des Chrome-Browsers und ein Verbot von Zahlungen an Gerätehersteller und App-Entwickler, um Google als voreingestellte Suchmaschine zu platzieren. Diese Forderungen sollen auch für KI-Angebote wie Gemini gelten, da diese laut der Behörde ebenfalls von Googles Suchmonopol profitieren.

Sollten große KI-Labore künftig auf qualitativ hochwertige Trainingsdaten angewiesen sein, um die Leistungsfähigkeit ihrer Modelle zu erhalten, könnte sich ein Markt für solche Inhalte entwickeln. Dieser würde allerdings im Widerspruch zur bisherigen Praxis stehen, Trainingsdaten ungefragt und unentgeltlich aus dem offenen Internet zu entnehmen – häufig unter Berufung auf das US-Konzept der "Fair Use"-Nutzung. Ein US-Richter hatte kürzlich dieser Argumentation im Fall Meta jedoch eine klare Absage erteilt.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Google ignoriert Publisher-Opt-out bei KI-Training für Suche

Google "verliert" die Hälfte an Publisher-Trainingsdaten

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.