Skip to content

Viele Website-Betreiber ahnungslos: Nur 3 % blockieren die aktivsten KI-Crawler

Image description
Midjourney prompted by THE DECODER

Kurz & Knapp

  • Cloudflare hat die aktivsten KI-Webcrawler im Internet anhand ihres Anfragevolumens analysiert. Bytespider von Bytedance führt die Liste an, gefolgt von Amazonbot und ClaudeBot von Anthropic. Bei der Anzahl der gecrawlten Websites liegen Bytespider und GPTBot von OpenAI vorn.
  • Nur wenige Website-Betreiber sind sich des Ausmaßes der KI-Crawler-Aktivitäten bewusst und blockieren diese aktiv. Im Juni crawlten laut Cloudflare KI-Bots rund 39 Prozent der Top-1-Million-Domains, aber nur 2,98 Prozent dieser Websites blockierten oder filterten die Anfragen.
  • KI-Bots tarnen sich zunehmend als normale Browser, um Zugang zu Inhalten zu erhalten. Cloudflare bietet nun eine Funktion, mit der alle KI-Bots mit einem Klick im Dashboard blockiert werden können, sowie ein Reporting-Tool, mit dem neue Crawler gemeldet werden können.

Eine Analyse von Cloudflare zeigt, dass Bytespider, Amazonbot und ClaudeBot zu den aktivsten KI-Crawlern im Internet gehören. Viele Unternehmen verbergen ihre KI-Crawler.

Cloudflare wertete über das letzte Jahr aus, welche KI-Crawler mit bekannten Nutzeragent-Strings das größte Anfragevolumen aufweisen. Die Bytedance-Tochter Bytespider führt die Liste der aktivsten KI-Webcrawler an, gefolgt von Amazonbot, ClaudeBot und GPTBot von OpenAI.

Bytespider könnte Trainingsdaten für den chinesischen ChatGPT-Konkurrenten Doubao sammeln, der Amazonbot soll hauptsächlich Alexa-Antworten indexieren. ClaudeBot sammelt Trainingsdaten für Anthropics Claude-Modelle.

Bytedance und Anthropic scheinen derzeit besonders stark nach KI-Trainingsdaten zu crawlen. | Bild: Cloudflare

GPTBot von OpenAI, der Trainingsdaten für Produkte wie ChatGPT sammelt, ist der am zweithäufigsten blockierte KI-Bot und derjenige mit den zweitmeisten Webseitenaufrufen. Bytespider führt beide Ranglisten an.

Bild: Cloudflare

Die Cloudflare-Analyse zeigt jedoch auch, dass sich viele Website-Betreiber des Ausmaßes der KI-Crawler-Aktivitäten nicht bewusst sind. Nur wenige blockieren insgesamt betrachtet KI-Bots wie Bytespider und ClaudeBot aktiv in ihrer robots.txt-Datei.

Im Juni crawlten KI-Bots laut Cloudflare rund 39 Prozent der Top-1-Million-Domains. Nur 2,98 Prozent dieser Webseiten blockierten oder filterten die Anfragen. Je höher eine Seite gerankt ist, desto wahrscheinlicher ist sie Ziel von KI-Bots und blockiert diese auch, so Cloudflare.

Bild: Cloudflare

Diese Statistik ist insofern logisch, als bei besonders populären Websites die Inhalte wahrscheinlich das Kerngeschäft oder einen Teil des Kerngeschäfts des Website-Betreibers darstellen und dieser sich daher mehr um den Schutz der Inhalte kümmert. Außerdem verfügen sie über die Ressourcen zur Umsetzung technischer Maßnahmen.

Dass der OpenAI-Bot bei der Anzahl der besuchten Webseiten an zweiter Stelle steht, deutet darauf hin, dass OpenAI trotz der im Vergleich zu den Bots von Bytedance und Anthropic geringeren Crawling-Frequenz weiterhin viele Daten sammelt. Die geringere Crawling-Frequenz könnte darauf zurückzuführen sein, dass der GPT-Bot effizienter oder selektiver Trainingsdaten sammelt.

OpenAI-Chef Sam Altman sagte kürzlich, dass es in Zukunft darum gehen wird, mehr aus qualitativ hochwertigen Daten zu lernen, anstatt immer mehr Daten anzuhäufen. Zudem dürfte OpenAI bereits über eine große Menge an Daten aus früheren Crawling-Prozessen verfügen.

Dass der GPTBot von OpenAI relativ häufig geblockt wird, liegt vermutlich daran, dass OpenAI diese Möglichkeit transparent kommuniziert hat und ChatGPT die bekannteste KI-Plattform ist.

KI-Crawler von OpenAI werden mit Abstand am häufigsten blockiert. | Bild: Cloudflare

KI-Bots tarnen sich als Browser

Cloudflare beobachtet zudem, dass sich KI-Bots zunehmend als normale Browser tarnen, um Zugriff auf Inhalte zu erhalten. Zuletzt stand hier Perplexity in der Kritik.

Dazu ändern die Crawler ihren User-Agent-String. Die globalen Machine-Learning-Modelle von Cloudflare erkennen solche Crawler jedoch zuverlässig anhand von Mustern, ohne dass sie manuell trainiert werden müssen, so die Analyse des Unternehmens.

Um Website-Betreiber zu unterstützen, hat Cloudflare jetzt ein neues Feature für alle Kunden eingeführt, mit dem sich alle KI-Bots mit einem Klick im Dashboard blockieren lassen. Die Funktion soll laufend um neue Fingerabdrücke erweitert werden, wenn Cloudflare weitere Crawler identifiziert.

Zudem bietet Cloudflare ein Reporting-Tool, über das man KI-Crawler an das Unternehmen melden kann, damit sie analysiert und zukünftig automatisch geblockt werden.

Source: Cloudflare

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren