Inhalt
summary Zusammenfassung

Publisher nehmen Google Deepmind 80 Milliarden Trainings-Token weg – aber Google stört das erst mal nicht. In einem laufenden Kartellverfahren räumt ein Manager ein, dass Google Search dennoch KI-Training mit diesen Inhalten durchführt.

Anzeige

Google trainiert seine KI-Modelle für die Internetsuche mit Inhalten aus dem Web – auch dann, wenn Websitebetreiber deren Nutzung ausdrücklich untersagt haben. Das erklärte Eli Collins, Vizepräsident bei Google Deepmind, während einer Gerichtsverhandlung in Washington, wie Bloomberg berichtet.

Demnach gilt die bestehende Opt-out-Regelung lediglich für Googles KI-Tochter Deepmind, die die Gemini-Modelle trainiert. Andere Bereiche des Unternehmens, insbesondere die für die Websuche zuständige Abteilung, können die Inhalte trotzdem für ihre eigenen KI-Systeme verwenden.

"Sobald man Gemini in die Suchorganisation integriert, kann diese auf Daten zugreifen, die Publisher eigentlich vom Training ausgeschlossen haben – korrekt?", fragte Diana Aguilar vom US-Justizministerium. Collins antwortete: "Korrekt – für die Nutzung in der Suche."

Anzeige
Anzeige

Google verwendet die von der Suche gesammelten Daten für KI-Funktionen wie "AI Overviews", die KI-Antworten direkt über den regulären Suchergebnissen anzeigen. Diese Funktion steht unmittelbar in Konkurrenz zu den Angeboten von Webseiten-Betreibern, weil sie Nutzer davon abhält, auf die eigentlichen Websites zu klicken – deren Inhalte aber für die KI-Antworten verwendet werden.

Google "verliert" die Hälfte an Publisher-Trainingsdaten

Ein internes Google-Dokument aus dem Sommer 2024 nennt 160 Milliarden sogenannte Tokens – kurze Textausschnitte –, die ursprünglich für das Training von KI-Modellen vorgesehen waren. Davon wurden 80 Milliarden entfernt, weil sie von Publishern stammen, die ein Opt-out erklärt hatten.

Die Aussage von Eli Collins legt jedoch nahe, dass diese Inhalte weiterhin für KI-Anwendungen im Bereich der Websuche verwendet werden – nur nicht direkt von Google Deepmind. Damit nutzt Google die Daten an anderer Stelle innerhalb des Unternehmens, obwohl Publisher sicher beabsichtigten, Google insgesamt von der Verwendung auszuschließen.

Die Aussagen fielen im Rahmen eines laufenden Kartellverfahrens gegen Google vor einem Bundesgericht in Washington. Das US-Justizministerium fordert unter anderem den Verkauf des Chrome-Browsers und ein Verbot von Zahlungen an Gerätehersteller und App-Entwickler, um Google als voreingestellte Suchmaschine zu platzieren. Diese Forderungen sollen auch für KI-Angebote wie Gemini gelten, da diese laut der Behörde ebenfalls von Googles Suchmonopol profitieren.

Sollten große KI-Labore künftig auf qualitativ hochwertige Trainingsdaten angewiesen sein, um die Leistungsfähigkeit ihrer Modelle zu erhalten, könnte sich ein Markt für solche Inhalte entwickeln. Dieser würde allerdings im Widerspruch zur bisherigen Praxis stehen, Trainingsdaten ungefragt und unentgeltlich aus dem offenen Internet zu entnehmen – häufig unter Berufung auf das US-Konzept der "Fair Use"-Nutzung. Ein US-Richter hatte kürzlich dieser Argumentation im Fall Meta jedoch eine klare Absage erteilt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Ein Manager von Google DeepMind hat in einem Kartellverfahren bestätigt, dass Google Such-KI mit Web-Inhalten trainiert, auch wenn Publisher deren Nutzung für KI-Training über Deepminds Opt-out-Regelung untersagt haben.
  • Diese Opt-out-Regelung gilt nur für Google Deepmind, nicht aber für die Google-Suche, die Daten für Funktionen wie "AI Overviews" nutzt. Ebendiese Funktion reduziert jedoch die Klicks für Publisher aus der Suche.
  • Obwohl 80 Milliarden Tokens von Publishern mit Opt-out aus dem Training für das Gemini-Modell entfernt wurden, kann die Google-Suche diese Inhalte laut Aussage eines Managers weiterhin für ihre eigenen KI-Systeme nutzen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!