So verhindert ihr, dass OpenAI eure Webinhalte für ChatGPT verwendet

Midjourney prompted by THE DECODER

Der GPTBot durchsucht im Auftrag von OpenAI das Netz nach Inhalten, die von KI-Modellen weiterverwendet werden können. Wer das nicht möchte, kann den Bot blockieren.

Die von GPTBot besuchten Webseiten können laut OpenAI potenziell zur Verbesserung zukünftiger KI-Modelle verwendet werden. Wer GPTBot Zugang zu den eigenen Inhalten gewähre, trage dazu bei, KI-Modelle genauer, fähiger und sicherer zu machen, schreibt das Unternehmen.

GPTBot vom Besuch der eigenen Website ausschließen

Wer mit seinen Inhalten nicht kostenlos zu den KI-Modellen von OpenAI beitragen möchte, kann GPTBot aussperren.

Als "User-agent: GPTBot" kann der Bot entweder komplett vom Besuch der Website oder vom Besuch einzelner Ordner oder Kategorien auf der Website abgehalten werden. Analog zur Sperrung von z.B. Google-Crawlern erfolgt die Sperrung über einen entsprechenden Eintrag in der "robots.txt".

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

User-agent: GPTBot
Disallow: /

Example:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Automatisch ausgefiltert werden Inhalte hinter Paywalls, Seiten, die Informationen zur persönlichen Identifikation abfragen oder gegen die Content-Richtlinien von OpenAI verstoßen. Eine vollständige Anleitung ist hier verfügbar.

ChatGPT und das Content-Dilemma

Bereits bei der Einführung der ChatGPT Internet-Browsing-Funktion hat OpenAI angekündigt, dass Webseitenbetreiber wie Verlage den Crawling-Bot blockieren können, wenn sie nicht wollen, dass ihre Inhalte in oder für ChatGPT verwendet werden.

Empfehlung

KI in der Praxis

Urteil zu GitHub Copilot: KI-Programmiertool verstößt nicht gegen Urheberrecht

Den Bot zu blockieren bedeutet aber wiederum, in einem möglicherweise entstehenden Ökosystem nicht präsent zu sein - ein Dilemma, das mit der (Nicht-)Indexierung in der Google-Suche vergleichbar ist, bei der Content-Anbieter ungewollt sowohl zu Zulieferern eines fremden Ökosystems als auch finanziell von diesem abhängig werden.

Bei Chatbots ist die Ausgangslage für Inhalteanbieter allerdings noch ungünstiger: Während Suchmaschinen (weitgehend) darauf ausgelegt sind, Suchende auf Webseiten zu leiten, wo sie dem Webseitenbetreiber einen Gegenwert bringen, sind Chatbots darauf optimiert, Suchenden direkt im Chat möglichst direkte und umfassende Antworten zu geben. Hier profitiert fast ausschließlich der Anbieter des Chatbots.

OpenAI bietet Webbrowsing derzeit nicht an, nachdem bekannt wurde, dass ChatGPT-Browsing teilweise Inhalte hinter der Paywall lesen und kostenlos in den Chat ziehen konnte. Wann das Browsing-Plugin wieder online geht, ist nicht bekannt. Möglicherweise befürchtet OpenAI hier aus den oben genannten Gründen weitere rechtliche Konsequenzen und wartet zunächst ab.

Auch Microsoft und Google trainieren ihre Chatbots mit zum Teil urheberrechtlich geschütztem Material und ziehen Inhalte von Webseiten ohne weitere Erlaubnis in ihre Chatbots. Es soll bereits Gespräche mit Verlagen geben, die angeblich Milliarden für die Nutzung ihrer Inhalte verlangen wollen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Von den großen Chatbot-Betreibern wie Microsoft gibt es bislang bestenfalls Lippenbekenntnisse zum Erhalt des Web-Ökosystems. Auch die neue KI-Suche von Google zielt darauf ab, die Nutzerinnen und Nutzer möglichst lange und exklusiv im Google-Ökosystem zu halten.

So verhindert ihr, dass OpenAI eure Webinhalte für ChatGPT verwendet

GPTBot vom Besuch der eigenen Website ausschließen

ChatGPT und das Content-Dilemma

Urteil zu GitHub Copilot: KI-Programmiertool verstößt nicht gegen Urheberrecht

ChatGPT wächst zweistellig inmitten schrumpfender Web-Giganten

Was OpenAI aus seinem gescheiterten ChatGPT-Update lernen will

OpenAI zieht ChatGPT-Update wegen nerviger KI-Persönlichkeit zurück

US-Denkfabrik warnt vor "umgekehrtem Brain Drain" in Chinas KI-Sektor

Umstrittenes KI-Manipulationsexperiment der Universität Zürich auf Reddit endet ohne Paper

OpenAIs o3 ist weniger AGI als ursprünglich angekündigt

So verhindert ihr, dass OpenAI eure Webinhalte für ChatGPT verwendet

GPTBot vom Besuch der eigenen Website ausschließen

ChatGPT und das Content-Dilemma

Artikel teilen

Bankverbindung