Cloudflare: Perplexity verwendet nicht deklarierte “stealth” Crawler

ai-generated-8533603_1280

Cloudflare beschreibt in einem aktuellen Blogpost, heimliches Crawling-Verhalten von Perplexity, einer KI-Suchmaschine, beobachtet zu haben. Obwohl Perplexity zunächst über den angegebenen User-Agent crawlt, scheint es bei einer Netzwerkblockade seine Crawling-Identität zu verschleiern, um die Einstellungen der Website zu umgehen. Cloudflare sieht weiterhin Hinweise darauf, dass Perplexity wiederholt seinen User-Agent modifiziert und seine Quell-ASNs ändert, um Crawling-Aktivitäten zu verbergen, sowie robots.txt-Dateien ignoriert oder manchmal sogar nicht abruft. In der Konsequenz gibt Cloudflare an, Perplexity als verifizierten Bot deaktiviert und neue Schutzmechanismen implementiert zu haben, die diesen heimlichen Zugriff unterbinden.

Doch wie kam es dazu? Cloudflare bemerkte den Sachverhalt, da das Unternehmen Beschwerden von Kunden erreichte, die sowohl die Crawling-Aktivitäten von Perplexity in ihren robots.txt-Dateien untersagt als auch WAF-Regeln erstellt hatten, um die beiden von Perplexity angegebenen Crawlern “PerplexityBot” und “Perplexity-User” gezielt zu blockieren. Diese Kunden teilten Cloudflare mit, dass die KI-Suchmaschine weiterhin auf ihre Inhalte zugreifen konnte, obwohl sie sahen, dass die Bots erfolgreich blockiert wurden. Cloudflare konnte bestätigen, dass die Crawler von Perplexity tatsächlich auf den betreffenden Seiten blockiert wurden, und führte anschließend mehrere gezielte Tests durch, um zu verifizieren, welches Verhalten genau beobachtet werden konnte.

Cloudflare erstellte mehrere brandneue Domains, ähnlich wie “testexample.com” und “secretexample.com”. Diese Domains wurden neu gekauft und waren noch nicht von einer Suchmaschine indexiert oder auf irgendeine Weise öffentlich zugänglich gemacht worden. Cloudflare hat eine “robots.txt”-Datei mit Anweisungen implementiert, um zu verhindern, dass respektvolle Bots auf irgendeinen Teil einer Website zugreifen können. Konkret führte das Unternehmen ein Experiment durch, indem es Perplexity AI gezielt Fragen zu diesen Domains stellte, und merkte dabei, dass Perplexity weiterhin detaillierte Informationen zu den genauen Inhalten bereitstellte, die auf jeder dieser eingeschränkten Domains gehostet wurden. Diese Reaktion war unerwartet, da Cloudflare alle notwendigen Vorkehrungen getroffen hatten, um zu verhindern, dass diese Daten von ihren Crawlern abgerufen werden können.

Vor etwas über einem Monat verkündete Cloudflare seinen Content Independence Day, der Content-Erstellern mehr Kontrolle darüber gibt, wie auf ihre Inhalte zugegriffen wird. Stand heute haben sich über zweieinhalb Millionen Websites dafür entschieden, KI-Training durch die verwaltete robots.txt-Funktion oder die verwaltete Regel zum Blockieren von KI-Crawlern vollständig zu unterbinden. Jeder Cloudflare-Kunde kann nun selektiv entscheiden, welche deklarierten KI-Crawler auf die Inhalte zugreifen dürfen.

Cloudflare hat nach eigener Aussage aufgrund dieser neuen Funktionen eine Veränderung im Verhalten von Bots und Crawlern erwartet und geht davon aus, dass sich die Techniken, mit denen Bot-Betreiber der Erkennung entgehen, weiterentwickeln werden. Cloudflare arbeitet aktiv mit technischen und politischen Experten auf der ganzen Welt zusammen, beispielsweise mit der IETF, um Erweiterungen für robots.txt zu standardisieren und klare und messbare Grundsätze festzulegen, an die sich wohlmeinende Bot-Betreiber halten sollten. Weitere Informationen finden Interessierte im dazugehörigen Blogpost