Inhalt
summary Zusammenfassung

Der GPTBot durchsucht im Auftrag von OpenAI das Netz nach Inhalten, die von KI-Modellen weiterverwendet werden können. Wer das nicht möchte, kann den Bot blockieren.

Die von GPTBot besuchten Webseiten können laut OpenAI potenziell zur Verbesserung zukünftiger KI-Modelle verwendet werden. Wer GPTBot Zugang zu den eigenen Inhalten gewähre, trage dazu bei, KI-Modelle genauer, fähiger und sicherer zu machen, schreibt das Unternehmen.

GPTBot vom Besuch der eigenen Website ausschließen

Wer mit seinen Inhalten nicht kostenlos zu den KI-Modellen von OpenAI beitragen möchte, kann GPTBot aussperren.

Als "User-agent: GPTBot" kann der Bot entweder komplett vom Besuch der Website oder vom Besuch einzelner Ordner oder Kategorien auf der Website abgehalten werden. Analog zur Sperrung von z.B. Google-Crawlern erfolgt die Sperrung über einen entsprechenden Eintrag in der "robots.txt".

Anzeige
Anzeige

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

User-agent: GPTBot
Disallow: /

Example:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Automatisch ausgefiltert werden Inhalte hinter Paywalls, Seiten, die Informationen zur persönlichen Identifikation abfragen oder gegen die Content-Richtlinien von OpenAI verstoßen. Eine vollständige Anleitung ist hier verfügbar.

ChatGPT und das Content-Dilemma

Bereits bei der Einführung der ChatGPT Internet-Browsing-Funktion hat OpenAI angekündigt, dass Webseitenbetreiber wie Verlage den Crawling-Bot blockieren können, wenn sie nicht wollen, dass ihre Inhalte in oder für ChatGPT verwendet werden.

Empfehlung

Den Bot zu blockieren bedeutet aber wiederum, in einem möglicherweise entstehenden Ökosystem nicht präsent zu sein - ein Dilemma, das mit der (Nicht-)Indexierung in der Google-Suche vergleichbar ist, bei der Content-Anbieter ungewollt sowohl zu Zulieferern eines fremden Ökosystems als auch finanziell von diesem abhängig werden.

Bei Chatbots ist die Ausgangslage für Inhalteanbieter allerdings noch ungünstiger: Während Suchmaschinen (weitgehend) darauf ausgelegt sind, Suchende auf Webseiten zu leiten, wo sie dem Webseitenbetreiber einen Gegenwert bringen, sind Chatbots darauf optimiert, Suchenden direkt im Chat möglichst direkte und umfassende Antworten zu geben. Hier profitiert fast ausschließlich der Anbieter des Chatbots.

OpenAI bietet Webbrowsing derzeit nicht an, nachdem bekannt wurde, dass ChatGPT-Browsing teilweise Inhalte hinter der Paywall lesen und kostenlos in den Chat ziehen konnte. Wann das Browsing-Plugin wieder online geht, ist nicht bekannt. Möglicherweise befürchtet OpenAI hier aus den oben genannten Gründen weitere rechtliche Konsequenzen und wartet zunächst ab.

Auch Microsoft und Google trainieren ihre Chatbots mit zum Teil urheberrechtlich geschütztem Material und ziehen Inhalte von Webseiten ohne weitere Erlaubnis in ihre Chatbots. Es soll bereits Gespräche mit Verlagen geben, die angeblich Milliarden für die Nutzung ihrer Inhalte verlangen wollen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Von den großen Chatbot-Betreibern wie Microsoft gibt es bislang bestenfalls Lippenbekenntnisse zum Erhalt des Web-Ökosystems. Auch die neue KI-Suche von Google zielt darauf ab, die Nutzerinnen und Nutzer möglichst lange und exklusiv im Google-Ökosystem zu halten.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Der OpenAI GPTBot durchsucht das Web nach Inhalten, die von KI-Modellen verwendet werden können. Websitebesitzer können den Bot blockieren, wenn sie nicht möchten, dass ihre Inhalte kostenlos in OpenAI-Modellen verwendet werden.
  • Die Blockierung des GPTBot kann durch das Hinzufügen von "User-agent: GPTBot" zur "robots.txt"-Datei mit entsprechenden Freigaben erfolgen, ähnlich der Konfiguration von Google-Crawlern.
  • Für die Anbieter von Inhalten besteht ein Dilemma zwischen der Teilnahme an einem möglicherweise entstehenden KI-Ökosystem und der Vermeidung, zum kostenlosen Content-Lieferanten für ein fremdes System zu werden oder sich wirtschaftlich von diesem abhängig zu machen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!