Der KI-Antwortdienst Perplexity soll laut Cloudflare heimlich Webseiten crawlen, selbst wenn Betreiber dies explizit über robots.txt oder Firewall-Regeln verbieten. Das Unternehmen soll dafür seine Identität verschleiern und gegen etablierte Internet-Normen verstoßen.
Cloudflare wirft der KI-Suchmaschine Perplexity vor, heimliche Crawling-Methoden einzusetzen, um die Anweisungen von Webseitenbetreibern zu umgehen. Laut einem Blogbeitrag des Unternehmens soll Perplexity seine Crawling-Identität verschleiern, sobald sein offizieller Bot blockiert wird. Cloudflare hat Perplexity aufgrund dieses Verhaltens von seiner Liste verifizierter Bots entfernt und Maßnahmen ergriffen, um das als "Stealth Crawling" bezeichnete Vorgehen zu unterbinden.
Grundlage für die Untersuchung waren laut Cloudflare Kundenbeschwerden. Diese hatten berichtet, dass Perplexity trotz expliziter Blockaden in robots.txt-Dateien und spezifischen Firewall-Regeln weiterhin auf ihre Inhalte zugreifen konnte.
Cloudflare deckt Umgehungstaktiken durch Tests auf
Um die Vorwürfe zu überprüfen, führte Cloudflare ein gezieltes Experiment durch. Das Team erstellte dafür neue Domains, die öffentlich nicht auffindbar waren. Auf diesen Domains wurde eine robots.txt-Datei platziert, die allen Bots den Zugriff untersagte. Zusätzlich wurden die offiziell von Perplexity deklarierten Crawler "PerplexityBot" und "Perplexity-User" per Firewall blockiert.
Trotz dieser Vorkehrungen war Perplexity laut dem Bericht in der Lage, detaillierte Informationen über die Inhalte der gesperrten Domains zu liefern. Die Tests zeigten demnach, dass Perplexity die robots.txt-Datei entweder ignoriert oder in manchen Fällen gar nicht erst abruft.
Getarnte Crawler mit wechselnder Identität
Die Beobachtungen von Cloudflare deuten auf eine zweistufige Vorgehensweise hin. Zunächst versucht Perplexity, mit seinem deklarierten User-Agent auf Inhalte zuzugreifen. Wird dieser blockiert, soll ein zweiter, nicht deklarierter Crawler zum Einsatz kommen. Dieser tarnt sich laut Cloudflare mit einem generischen User-Agent, der einen Google-Chrome-Browser auf einem macOS-System imitiert.
Dieser getarnte Crawler soll nicht nur nicht deklarierte IP-Adressen verwenden, sondern diese und sogar die zugehörigen ASNs (Autonomous System Numbers) rotieren, um Blockaden zu umgehen. Eine ASN ist eine eindeutige Nummer, die einem Netzwerkbetreiber im Internet zugeordnet wird. Sie identifiziert ein sogenanntes "Autonomes System", also ein größeres zusammenhängendes Netzwerk, das eigenständig Routing-Entscheidungen trifft.
Durch den Wechsel der ASN kann ein Crawler so erscheinen, als stamme er aus völlig unterschiedlichen Netzwerken.Diese Aktivität wurde laut Cloudflare auf zehntausenden Domains mit Millionen von Anfragen pro Tag beobachtet. Wenn auch der getarnte Crawler erfolgreich blockiert wurde, lieferte Perplexity nur noch unspezifische Antworten, was die Wirksamkeit der Blockade bestätigte.
OpenAI als positives Gegenbeispiel
Cloudflare stellt diesem Verhalten die Praktiken "gutartiger" Crawler gegenüber, die transparent agieren und die Regeln von Webseitenbetreibern respektieren. Als positives Beispiel wird OpenAI genannt. Das Unternehmen deklariere seine Crawler und deren Zweck klar, respektiere robots.txt-Anweisungen und Netzwerkblockaden.
Ein identischer Test mit ChatGPT habe gezeigt, dass der Bot nach dem Abruf der robots.txt-Datei seine Crawling-Aktivitäten einstellte, als ihm der Zugriff verwehrt wurde. Es seien keine weiteren Umgehungsversuche von anderen User-Agents beobachtet worden.
Cloudflare reagiert mit neuen Schutzmaßnahmen
Als Konsequenz hat Cloudflare die Signaturen des getarnten Crawlers in seine verwalteten Regeln zum Blockieren von KI-Crawlern aufgenommen. Diese Regel steht allen Kunden zur Verfügung, auch denen mit kostenlosen Tarifen. Kunden, die bereits Bot-Management-Regeln zum Blockieren oder Herausfordern von Anfragen nutzen, seien bereits geschützt.
Cloudflare erwartet, dass sich die Techniken von Bot-Betreibern weiterentwickeln werden, und arbeitet nach eigenen Angaben mit Experten an der Standardisierung von Crawler-Verhalten, etwa durch Erweiterungen für robots.txt.