Bad Bots bekämpfen

Bot Wars

Tobias von Dewitz

Ein Großteil des Traffics im Internet wird heute nicht mehr direkt von Menschen verursacht, sondern von automatisierten Systemen, viele davon mit bösartigen Intentionen.

Menschen, die mit ihren Browsern auf Websites unterwegs sind, verursachen nur einen Bruchteil des Webtraffics im Internet. Das Gros des Traffics, circa 55 bis 65%, erzeugen sogenannte Bots. Ein Bot ist ein Agent, der ohne menschliche Interaktion autonom Aktionen ausführt.

Gewöhnliche Bots bringen den Websites, die sie besuchen, immer einen Mehrwert. Suchmaschinenbots wie die von Google oder Bing bringen Menschen auf Websites. Andere Bots überprüfen, ob eine Website verfügbar ist, validieren Preise für Vergleichsportale, laden Daten hoch, analysieren den Seiteninhalt für Werbung oder kämmen Websites im Hinblick auf deren SEO-Profil durch.

In der Regel verursachen diese guten Bots mit 35 bis 40% etwa gleich viel Traffic wie die menschlichen Besucher. Die restlichen 20 bis 30% des Traffics stammen von Bots, die negative Auswirkungen auf Websites haben, sogenannte Bad Bots (Abbildung 1).

Die Graphen zeigen die HTTP-Requests für Menschen (orange), gute Bots (lila) und Bad Bots (blau) aufeinandergestapelt (Abb. 1).

Ein Viertel des Traffics kommt von Bad Bots

Bad Bots sind automatisierte Agenten, die Websites auf der Applikationsebene attackieren. Studien zufolge verursachen sie einen Schaden von durchschnittlich 4% des Umsatzes. Eine Studie von Distil Networks und der Aberdeen Group unter dem Titel „Quantifying the Risk and Economic Impact of Bad Bots“ kommt bei der Risikoanalyse zu dem Schluss, dass 88 Prozent der Bad Bots sogenannte Advanced Persistent Bots (APB) sind, in Anlehnung an Advanced Persistent Threats (APT), bekannt aus der Cybersecurity.

Wann immer knappe Produkte im Internet angeboten werden, konkurrieren Menschen mit Bots, die Produkte um ein Vielfaches schneller kaufen können. Typischerweise sind das Tickets für Sportveranstaltungen und Konzerte oder limitierte Special Editions von Mode oder Sneakers. Die Botbetreiber verkaufen die so erlangten Waren in der Folge mit Aufschlag an die Menschen, die sie beim Kauf abgehängt haben.

Reisebranche und E-Commerce besonders betroffen

Eine Vielzahl von Anbietern crawlt Preisinformationen und Verfügbarkeiten im großen Stil und vertreibt die Daten an konkurrierende Händler, die mit diesen Informationen ihr Sortiment verfeinern und in der Breite immer etwas billiger sein können als der Konkurrent. Selbst wenn Unternehmen die Dienste dieser Anbieter nicht in Anspruch nehmen, crawlen viele die Websites ihrer Konkurrenten, um über deren Sortiment und Preise informiert zu sein. Amazon übernahm beispielsweise das Start-up diapers.com, indem es dessen Website crawlte und das Sortiment exakt in seinem Shop nachbaute, nur eben billiger. Der Umsatz von diapers.com brach daraufhin massiv ein, und Amazon kaufte es zum Spottpreis.

Besonders Airlines haben massiv mit Bad Bots zu kämpfen. Neben Airlines selbst, die über das Pricing der Konkurrenz im Bilde sein wollen, crawlen Preisaggregatoren Flugpreise. Zum Teil macht der durch Bad Bots verursachte Traffic bei Airlines 40 bis 50% aus.

Erhebliche Probleme mit Bad Bots haben neben Airlines Onlinewettbüros und -casinos. Die Betreiber der Bots versuchen dort, sich durch die Automatisierung einen Vorteil gegenüber Menschen zu verschaffen oder Arbitragesituationen zwischen verschiedenen Wettanbietern auszunutzen.

Aus SEO-Sicht ist es nicht wünschenswert, dass der mühsam erzeugte Unique Content der eigenen Website von Dritten gecrawlt und am Ende auf deren Websites veröffentlicht wird. Der Duplicate Content, der so entsteht, wird von Suchmaschinen negativ für die Ursprungswebsite bewertet. Stark betroffen von diesem Problem sind alle Arten von Verzeichnissen.

Crawler kopieren mitunter komplette (Shop-)Websites, um Menschen dazu zu bringen, sich auf den falschen Portalen zu authentifizieren. Mit den so gewonnenen Log-ins füttern sie wiederum Bots, die versuchen, sich auf vielen unterschiedlichen Portalen einzuloggen und Betrug zu begehen.

Ein weiteres Problem für E-Commerce-Websites sind Bots, die Produkte in den Warenkorb legen, diese aber nie bestellen. Der Händler muss Waren für einen gewissen Zeitraum vorhalten, die er sonst schon verkaufen könnte.

Bestellen, aber nie bezahlen– Datenleaks als Quelle

Kriminelle füttern ihre Bots mit Log-in-Daten aus Datenleaks, loggen sich damit auf so vielen Websites wie möglich ein und begehen analog zum Verfahren oben Betrug mit deren Accounts. Betroffene sind oft über ein Jahr damit beschäftigt, das dadurch entstandene Chaos in den Griff zu bekommen. Die negative PR, die Firmen dadurch erleiden, hat oft katastrophale Auswirkungen. Bad Bots analysieren außerdem Programmierschwachstellen in Webapplikationen und versuchen, sich über gefundene Lücken in das System zu hacken. Sie stehlen oder verändern Daten, benutzen den Server als Proxy für Attacken auf andere Server oder verschlüsseln Festplatten und verlangen Lösegeld für deren Entschlüsselung.

Bei einem großen Verzeichnisdienst beispielsweise stammen bis zu 50 Prozent des kompletten Traffics von Bad Bots – die Firma stellt quasi die Hälfte ihrer Server Menschen zur Verfügung, die Daten stehlen. In einem anderen Fall hatte ein E-Commerce-Kunde massiv mit unbrauchbaren Newsletterregistrierungen aus China zu kämpfen, was die Entwickler dazu zwang, wöchentlich manuell alle fragwürdigen E-Mail-Adressen zu löschen. Und ein Betreiber von Firmenprofilen steckte Energie und Geld in die Erstellung und Pflege von Inhalten, die dann konstant von Bots abgezogen und wiederverwendet wurden.

Konkreten Schaden gab es bei einem Preisvergleichsportal, das Shops per Affiliate-Links einbindet. Dort erhält der Betreiber Geld pro Klick auf einen Link in einen Shop und das wurde von diversen Kunden ausgenutzt, um der Konkurrenz zu schaden. Anbieter von Onlinewerbung kämpfen gegen Bots, deren Auftraggeber versuchen, der Konkurrenz finanziellen Schaden zuzufügen, indem sie auf deren Werbeanzeigen klicken.

Das Rauschen, das Bad Bots in den Trafficdaten verursachen, verfälscht Statistiken, die man zur fundierten Analyse und Entscheidungsfindung benötigt. Dem menschlichen Traffic von 40% steht also Bad-Bot-Traffic von 20% gegenüber. Anders ausgedrückt: Bad Bots verursachen eine Unsicherheit von einem Drittel. Falls diese Bots unerkannt in Statistiken wandern, sind fundierte Entscheidungen nicht möglich.

Was sich wie eine DDoS-Attacke anfühlt, ist oft ein schlecht konfigurierter Bot, der schlicht zu viele Anfragen innerhalb kurzer Zeit an die Applikation schickt, sei es aus Unwissenheit oder mit der Absicht, die Website lahmzulegen. Selbst wenn man lediglich die 20% Traffic verhindert, die Bad Bots verursachen, laufen die Server entspannter und haben mehr Luft für die üblichen Lastspitzen.

Es gibt viele Gründe, warum man unerwünschte Bots zu erkennen und aufzuhalten versucht: um Kunden fair zu behandeln und zu schützen, Herr über die Sortiment- und Preisgestaltung zu bleiben, das Investment in Unique Content zu schützen und die eigene Infrastruktur abzusichern.

Techniken von Bad Bots und Lösungsansätze

Was auch immer man gegen unerwünschte Bots unternimmt, die Reaktion muss in Echtzeit erfolgen. Logfiles einmal am Tag nach Auffälligkeiten zu durchsuchen, genügt nicht, weil der Schaden dann bereits verursacht wurde. Im Folgenden finden sich einfache Methoden, Bad Bots zu entdecken, die ohne großen Aufwand einen ersten Schutz bieten, aber auch etwas kompliziertere, die auch dezent operierende Bots aufspüren, allerdings eines gewissen Aufwands bedürfen.