Publisher nehmen Google Deepmind 80 Milliarden Trainings-Token weg – aber Google stört das erst mal nicht. In einem laufenden Kartellverfahren räumt ein Manager ein, dass Google Search dennoch KI-Training mit diesen Inhalten durchführt.
Google trainiert seine KI-Modelle für die Internetsuche mit Inhalten aus dem Web – auch dann, wenn Websitebetreiber deren Nutzung ausdrücklich untersagt haben. Das erklärte Eli Collins, Vizepräsident bei Google Deepmind, während einer Gerichtsverhandlung in Washington, wie Bloomberg berichtet.
Demnach gilt die bestehende Opt-out-Regelung lediglich für Googles KI-Tochter Deepmind, die die Gemini-Modelle trainiert. Andere Bereiche des Unternehmens, insbesondere die für die Websuche zuständige Abteilung, können die Inhalte trotzdem für ihre eigenen KI-Systeme verwenden.
"Sobald man Gemini in die Suchorganisation integriert, kann diese auf Daten zugreifen, die Publisher eigentlich vom Training ausgeschlossen haben – korrekt?", fragte Diana Aguilar vom US-Justizministerium. Collins antwortete: "Korrekt – für die Nutzung in der Suche."
Google verwendet die von der Suche gesammelten Daten für KI-Funktionen wie "AI Overviews", die KI-Antworten direkt über den regulären Suchergebnissen anzeigen. Diese Funktion steht unmittelbar in Konkurrenz zu den Angeboten von Webseiten-Betreibern, weil sie Nutzer davon abhält, auf die eigentlichen Websites zu klicken – deren Inhalte aber für die KI-Antworten verwendet werden.
Google "verliert" die Hälfte an Publisher-Trainingsdaten
Ein internes Google-Dokument aus dem Sommer 2024 nennt 160 Milliarden sogenannte Tokens – kurze Textausschnitte –, die ursprünglich für das Training von KI-Modellen vorgesehen waren. Davon wurden 80 Milliarden entfernt, weil sie von Publishern stammen, die ein Opt-out erklärt hatten.
Die Aussage von Eli Collins legt jedoch nahe, dass diese Inhalte weiterhin für KI-Anwendungen im Bereich der Websuche verwendet werden – nur nicht direkt von Google Deepmind. Damit nutzt Google die Daten an anderer Stelle innerhalb des Unternehmens, obwohl Publisher sicher beabsichtigten, Google insgesamt von der Verwendung auszuschließen.
Die Aussagen fielen im Rahmen eines laufenden Kartellverfahrens gegen Google vor einem Bundesgericht in Washington. Das US-Justizministerium fordert unter anderem den Verkauf des Chrome-Browsers und ein Verbot von Zahlungen an Gerätehersteller und App-Entwickler, um Google als voreingestellte Suchmaschine zu platzieren. Diese Forderungen sollen auch für KI-Angebote wie Gemini gelten, da diese laut der Behörde ebenfalls von Googles Suchmonopol profitieren.
Sollten große KI-Labore künftig auf qualitativ hochwertige Trainingsdaten angewiesen sein, um die Leistungsfähigkeit ihrer Modelle zu erhalten, könnte sich ein Markt für solche Inhalte entwickeln. Dieser würde allerdings im Widerspruch zur bisherigen Praxis stehen, Trainingsdaten ungefragt und unentgeltlich aus dem offenen Internet zu entnehmen – häufig unter Berufung auf das US-Konzept der "Fair Use"-Nutzung. Ein US-Richter hatte kürzlich dieser Argumentation im Fall Meta jedoch eine klare Absage erteilt.