Inhalt
summary Zusammenfassung

Eine Analyse von Cloudflare zeigt, dass Bytespider, Amazonbot und ClaudeBot zu den aktivsten KI-Crawlern im Internet gehören. Viele Unternehmen verbergen ihre KI-Crawler.

Anzeige

Cloudflare wertete über das letzte Jahr aus, welche KI-Crawler mit bekannten Nutzeragent-Strings das größte Anfragevolumen aufweisen. Die Bytedance-Tochter Bytespider führt die Liste der aktivsten KI-Webcrawler an, gefolgt von Amazonbot, ClaudeBot und GPTBot von OpenAI.

Bytespider könnte Trainingsdaten für den chinesischen ChatGPT-Konkurrenten Doubao sammeln, der Amazonbot soll hauptsächlich Alexa-Antworten indexieren. ClaudeBot sammelt Trainingsdaten für Anthropics Claude-Modelle.

Bytedance und Anthropic scheinen derzeit besonders stark nach KI-Trainingsdaten zu crawlen. | Bild: Cloudflare

GPTBot von OpenAI, der Trainingsdaten für Produkte wie ChatGPT sammelt, ist der am zweithäufigsten blockierte KI-Bot und derjenige mit den zweitmeisten Webseitenaufrufen. Bytespider führt beide Ranglisten an.

Anzeige
Anzeige
Bild: Cloudflare

Die Cloudflare-Analyse zeigt jedoch auch, dass sich viele Website-Betreiber des Ausmaßes der KI-Crawler-Aktivitäten nicht bewusst sind. Nur wenige blockieren insgesamt betrachtet KI-Bots wie Bytespider und ClaudeBot aktiv in ihrer robots.txt-Datei.

Im Juni crawlten KI-Bots laut Cloudflare rund 39 Prozent der Top-1-Million-Domains. Nur 2,98 Prozent dieser Webseiten blockierten oder filterten die Anfragen. Je höher eine Seite gerankt ist, desto wahrscheinlicher ist sie Ziel von KI-Bots und blockiert diese auch, so Cloudflare.

Bild: Cloudflare

Diese Statistik ist insofern logisch, als bei besonders populären Websites die Inhalte wahrscheinlich das Kerngeschäft oder einen Teil des Kerngeschäfts des Website-Betreibers darstellen und dieser sich daher mehr um den Schutz der Inhalte kümmert. Außerdem verfügen sie über die Ressourcen zur Umsetzung technischer Maßnahmen.

Dass der OpenAI-Bot bei der Anzahl der besuchten Webseiten an zweiter Stelle steht, deutet darauf hin, dass OpenAI trotz der im Vergleich zu den Bots von Bytedance und Anthropic geringeren Crawling-Frequenz weiterhin viele Daten sammelt. Die geringere Crawling-Frequenz könnte darauf zurückzuführen sein, dass der GPT-Bot effizienter oder selektiver Trainingsdaten sammelt.

OpenAI-Chef Sam Altman sagte kürzlich, dass es in Zukunft darum gehen wird, mehr aus qualitativ hochwertigen Daten zu lernen, anstatt immer mehr Daten anzuhäufen. Zudem dürfte OpenAI bereits über eine große Menge an Daten aus früheren Crawling-Prozessen verfügen.

Empfehlung

Dass der GPTBot von OpenAI relativ häufig geblockt wird, liegt vermutlich daran, dass OpenAI diese Möglichkeit transparent kommuniziert hat und ChatGPT die bekannteste KI-Plattform ist.

KI-Crawler von OpenAI werden mit Abstand am häufigsten blockiert. | Bild: Cloudflare

KI-Bots tarnen sich als Browser

Cloudflare beobachtet zudem, dass sich KI-Bots zunehmend als normale Browser tarnen, um Zugriff auf Inhalte zu erhalten. Zuletzt stand hier Perplexity in der Kritik.

Dazu ändern die Crawler ihren User-Agent-String. Die globalen Machine-Learning-Modelle von Cloudflare erkennen solche Crawler jedoch zuverlässig anhand von Mustern, ohne dass sie manuell trainiert werden müssen, so die Analyse des Unternehmens.

Um Website-Betreiber zu unterstützen, hat Cloudflare jetzt ein neues Feature für alle Kunden eingeführt, mit dem sich alle KI-Bots mit einem Klick im Dashboard blockieren lassen. Die Funktion soll laufend um neue Fingerabdrücke erweitert werden, wenn Cloudflare weitere Crawler identifiziert.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Zudem bietet Cloudflare ein Reporting-Tool, über das man KI-Crawler an das Unternehmen melden kann, damit sie analysiert und zukünftig automatisch geblockt werden.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Cloudflare hat die aktivsten KI-Webcrawler im Internet anhand ihres Anfragevolumens analysiert. Bytespider von Bytedance führt die Liste an, gefolgt von Amazonbot und ClaudeBot von Anthropic. Bei der Anzahl der gecrawlten Websites liegen Bytespider und GPTBot von OpenAI vorn.
  • Nur wenige Website-Betreiber sind sich des Ausmaßes der KI-Crawler-Aktivitäten bewusst und blockieren diese aktiv. Im Juni crawlten laut Cloudflare KI-Bots rund 39 Prozent der Top-1-Million-Domains, aber nur 2,98 Prozent dieser Websites blockierten oder filterten die Anfragen.
  • KI-Bots tarnen sich zunehmend als normale Browser, um Zugang zu Inhalten zu erhalten. Cloudflare bietet nun eine Funktion, mit der alle KI-Bots mit einem Klick im Dashboard blockiert werden können, sowie ein Reporting-Tool, mit dem neue Crawler gemeldet werden können.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!