KI in der Praxis

So verhindert ihr, dass OpenAI eure Webinhalte für ChatGPT verwendet

Matthias Bastian
Ein Roboter steht im digitalen Raum und betrachtet eine Art Daten-Weltkarte.

Midjourney prompted by THE DECODER

Der GPTBot durchsucht im Auftrag von OpenAI das Netz nach Inhalten, die von KI-Modellen weiterverwendet werden können. Wer das nicht möchte, kann den Bot blockieren.

Die von GPTBot besuchten Webseiten können laut OpenAI potenziell zur Verbesserung zukünftiger KI-Modelle verwendet werden. Wer GPTBot Zugang zu den eigenen Inhalten gewähre, trage dazu bei, KI-Modelle genauer, fähiger und sicherer zu machen, schreibt das Unternehmen.

GPTBot vom Besuch der eigenen Website ausschließen

Wer mit seinen Inhalten nicht kostenlos zu den KI-Modellen von OpenAI beitragen möchte, kann GPTBot aussperren.

Als "User-agent: GPTBot" kann der Bot entweder komplett vom Besuch der Website oder vom Besuch einzelner Ordner oder Kategorien auf der Website abgehalten werden. Analog zur Sperrung von z.B. Google-Crawlern erfolgt die Sperrung über einen entsprechenden Eintrag in der "robots.txt".

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

User-agent: GPTBot
Disallow: /

Example:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Automatisch ausgefiltert werden Inhalte hinter Paywalls, Seiten, die Informationen zur persönlichen Identifikation abfragen oder gegen die Content-Richtlinien von OpenAI verstoßen. Eine vollständige Anleitung ist hier verfügbar.

ChatGPT und das Content-Dilemma

Bereits bei der Einführung der ChatGPT Internet-Browsing-Funktion hat OpenAI angekündigt, dass Webseitenbetreiber wie Verlage den Crawling-Bot blockieren können, wenn sie nicht wollen, dass ihre Inhalte in oder für ChatGPT verwendet werden.

Den Bot zu blockieren bedeutet aber wiederum, in einem möglicherweise entstehenden Ökosystem nicht präsent zu sein - ein Dilemma, das mit der (Nicht-)Indexierung in der Google-Suche vergleichbar ist, bei der Content-Anbieter ungewollt sowohl zu Zulieferern eines fremden Ökosystems als auch finanziell von diesem abhängig werden.

Bei Chatbots ist die Ausgangslage für Inhalteanbieter allerdings noch ungünstiger: Während Suchmaschinen (weitgehend) darauf ausgelegt sind, Suchende auf Webseiten zu leiten, wo sie dem Webseitenbetreiber einen Gegenwert bringen, sind Chatbots darauf optimiert, Suchenden direkt im Chat möglichst direkte und umfassende Antworten zu geben. Hier profitiert fast ausschließlich der Anbieter des Chatbots.

OpenAI bietet Webbrowsing derzeit nicht an, nachdem bekannt wurde, dass ChatGPT-Browsing teilweise Inhalte hinter der Paywall lesen und kostenlos in den Chat ziehen konnte. Wann das Browsing-Plugin wieder online geht, ist nicht bekannt. Möglicherweise befürchtet OpenAI hier aus den oben genannten Gründen weitere rechtliche Konsequenzen und wartet zunächst ab.

Auch Microsoft und Google trainieren ihre Chatbots mit zum Teil urheberrechtlich geschütztem Material und ziehen Inhalte von Webseiten ohne weitere Erlaubnis in ihre Chatbots. Es soll bereits Gespräche mit Verlagen geben, die angeblich Milliarden für die Nutzung ihrer Inhalte verlangen wollen.

Von den großen Chatbot-Betreibern wie Microsoft gibt es bislang bestenfalls Lippenbekenntnisse zum Erhalt des Web-Ökosystems. Auch die neue KI-Suche von Google zielt darauf ab, die Nutzerinnen und Nutzer möglichst lange und exklusiv im Google-Ökosystem zu halten.

Quellen: