Schädliche Bots / User Agents , gute Bots, unnütze Bots

Dezember 2017  Twitter @ItDoorlu

Schädliche Bots und schädliche User Agents , gute Bots, unnütze Bots

Nach der Anmeldung von ItDoor bei Twitter (@ItDoorlu) stieg die Anzahl der Bots, die die Website von ItDoor besucht haben. Anlaß für mich, sich mit dem Thema Bots zu beschäftigen und darüber zu schreiben. Zumal das Thema trotz seiner Brisanz insbesondere auf deutschsprachigen Websiten etwas vernachlässigt wird.

Bot wird hier auch als Synonym für Crawler, Spider oder Robots  genommen.

Natürlich ist Twitter nicht für die Besuche der Bots verantwortlich.

Es werden hier nicht Tausende Bots erwähnt. Dafür gibt es Bot Datenbanken (siehe unten).

Es werden hier die Bots erwähnt, die nach der Anmeldung von ItDoor bei Twitter die Website von ItDoor am schnellsten gefunden haben.

Unnütze und schädliche Bots blocken

Eine Methode, wie man unnütze und schädlliche Bots blocken kann, wird in dem Fachartikel „Anzahl Seitenaufrufe begrenzen – kostenlose WP Plugins – Hackerschutz/SEO“ erklärt.

Buchtipp bei BOD: Corona-Management

Was Deutschland hätte von anderen Ländern lernen können

[Link zur Leseprobe]

User Agents

Boots werden durch User Agents identifiziert.

Wie bekommen Sie den User Agents eines Bots heraus?

Wenn der Bot z. b. wegen fehlender robots.txt-Datei eine “404 Error – Page not found” oder “Fehler 404 – Seite nicht gefunden” kreiert.

Wenn man dann ein WordPress Plugin wie z. B. „404 to 301“ hat, wird aus der 404-Meldung eine 301-Meldung (moved permanently).

Dieser Redirect wird von dem Plugin gespeichert. Dort gibt es dann eine Spalte „User Agent“.

WordPress Pluging 404 to 301 zeigt den User Agent String
WordPress Pluging 404 to 301 zeigt den User Agent String

Natürlich gibt es noch andere Redirect Plugins von WordPress. Mehr dazu können Sie in dem Fachartikel „Plugins für Redirect “Fehler 404 – Seite nicht gefunden” nachlesen.

Eine andere Möglichkeit ist es, daß Ihre Besucherstatistikprogramm Ihnen den User Agent des Bots liefert.

User Agent String im Besucherstatistikprogramm von Bots
User Agent String im Besucherstatistikprogramm

Dafür muß bei diesem WordPress Plugin, also bei diesem Besucherstatistikprogramm, in den Einstellungen folgendes gemacht werden.

„Ignore Bots“ auf „Aus“ gestellt werden

Bei „Show User Agent“ auf „An“ gestellt werden.  An dieser Stelle gibt es diesen Text.

“Choose if you want to see the browser name or a complete user agent string when hovering on browser icons.”

Das kann bei jedem Besucherstatistikprogramm etwas anders sein. Worauf ich an dieser Stelle hinaus will:

Sie können nicht bei jedem Besucherstatistikprogramm davon ausgehen, daß Ihnen automatisch d.h. ohne irgendwelche Einstellungen vornehmen zu müssen, Ihnen die Bots und die User Agent Strings gezeigt werden.

Außerdem gibt es Besucherstatistikprogramme, die Ihnen die Bots und deren User Agent Strings nicht anzeigen. Es ist vom Programm einfach nicht vorgesehen.

Wofür brauchen Sie die User Agent Strings der Bots?

Damit Sie prüfen können, ob die Bots schädlich, gut oder unnütz sind.

Das können Sie z. B. auf der Webpage von Distil Networks machen [Link]

Wobei es hier reicht, den Namen des Bots einzugeben.

Es wird geprüft, ob e sich überhaupt um einen Bot handelt.

Zusätzlich hier eine Bewertung abgegeben, ob Good Bot oder Bad Bot.

Ferner gibt es z. B. noch die Bot Übersicht von Wetena. [Link]

Im Juni 2019 musste feststellen, dass es die Webpage von Wetena leider nicht mehr gibt. Daher habe ich den Link zu Wetena entfernt.

Hier muß man leider in den ausgesuchten Bot hineinklicken, um die Bewertung des Bots lesen zu können. Eine zusätzliche Spalte in der Übersicht, die schon mal grob darauf hinweist, ob sich um einen Good Bot oder um einen Bad Boot oder sonst in irgendeiner Art und Weise wäre hilfreich.

Wenn Sie aus eigener Überzeugung oder auf Grund der Bewertung von z. B. Distil Networks oder Wetena einen Bot ausschließen möchten, dann brauchen Sie den User Agent String des Bots.

Nicht jeder User Agent String, den Sie mittels Ihres Besucherstatistikprogrammes finden, ist der User Agent eines Bots. Das kann schon deswegen nicht sein, weil manche Bots sich als normale Besucher tarnen. D. h. in der User Agent Zeichenkette kommt das das Wort „Bot“ oder „Crawler“ nicht vor. Daher diese gemischte Überschrift.

Gute Bots bzw. User Agents, sind

Bots von Suchmaschinen, bei denen Ihre Website ein Ranking haben soll

Bots von Bibliotheken, die auf Grund eines rechtstaatlichen Gesetzes Ihre Website crawlen

Alle Stellen, bei denen Sie ihre Website angemeldet haben und sich dabei mit dem Besuch eines Bots  dieser Stelle einverstanden erklärt haben (z. B. ein Webverzeichnis)

Bots/User Agents von Suchmaschinen

Wer also von Bing ein Ranking haben will, der sollte diesen Bot zulassen.

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm

So jedenfalls der Bing Bot bei ItDoor.

Gleiches gilt für den Bot von Google.

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html

So jedenfalls der Google Bot bei ItDoor.

Gesetzlich legitimierte Bots

Rhetorische Frage: Kennen Sie diesen User Agent String?

Mozilla/5.0 (compatible; NLUX_IAHarvester/3.3.0 +http://crawl.bnl.lu/)

Das soll das web harvesting der  Bibliothèque nationale de Luxembourg sein, wobei hierfür Webcrawler heritrix verwendet wird. [Link]

Der Webcrawler heritrix wird noch von folgenden Bibliotheken und Nationalbibliotheken verwendet.

  • Österreichische Nationalbibliothek, Web-Archivierung
  • Bibliotheca Alexandrina Internet Archive
  • Bibliothèque nationale de France
  • British Library
  • California Digital Library Web Archiving Service
  • CiteSeerX
  • Library and Archives Canada
  • Library of Congress
  • National- und Universitätsbibliothek Island
  • Finnische Nationalbibliothek
  • National Library of New Zealand
  • Nationalbibliothek der Niederlande
  • Netarkivet.dk
  • Smithsonian Institution Archiv

Gefunden bei [Link]

Die  aktuelle Lage für Deutschland und die Deutsche Nationalbibliothek ist für mich nicht klar.

Hier ein Erfahrungsbericht aus dem März 2016 zum ersten Crawl der .de-Seiten [Link]

Ich persönlich habe mit dem Crawler der Nationalbibliotheken kein Problem.  Aus der Sicht einer Nationalbibliothek kann es doch keinen Unterschied machen, ob jemand 440 Seiten über Joomla in einem Papierbuch oder in einem E-Book oder wie bei ItDoor auf seiner Website veröffentlicht.

Bots/User Agents von Stellen, für die Ihre Einverständnis vorliegt

Wer ein Konto bei Twitter hat, der bekommt auch Besuch von einem Twitter Bot.

Das ist für mich in Ordnung. Ich erhalte ein kostenloses Konto von Twitter, dann kann Twitter auch einen Bot schicken.

Das ist für mich in Ordnung. Ich erhalte ein kostenloses Konto von Twitter, dann kann Twitter auch einen Bot schicken. Zumal über Twitter auch Besucher kommen. Unter Top Referrring Domains erscheint dann http://t.co. und die Top Referring URLs beginnen dann mit https://t.co/ .

Alle URLs, die auf Twitter gepostet werden, erhalten von Twitter eine Linkkürzung. Dieses Kürzen der Links kann man nicht abschalten. [Link]

Wer das nicht will, darf seine Links nicht auf Twitter posten. Dann kann man allerdings kaum Werbung auf Twitter für seine Website machen.

Wer seine Website bei einem Webverzeichnis angemeldet hat, dessen Website wird von diesem Webverzeichnis besucht.

Bei Bloggeramt 2.0 ist das dann dieser User Agent

Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36 Bloggeramt/2.0

Wie Sie sehen, ist hier das Wort “Bot” nicht im User Agent String zu finden.

Schlechte Bots/schlechte User Agents

Nicht jeder User Agent String, den Sie mittels Ihres Besucherstatistikprogrammes finden, ist der User Agent eines Bots. Das kann schon deswegen nicht sein, weil manche Bots sich als normale Besucher tarnen. D. h. in der User Agent Zeichenkette kommt das das Wort „Bot“ oder „Crawler“ nicht vor. Daher diese gemischte Überschrift

Programme bzw. Plugins wie z. B. das WordPress Plugin „WP“ Security“ bieten ein Blacklist Feld für User Agents an. Dort tragen Sie dann den User Agent String des Bots ein und speichern dann anschließend ab.

Bad Bots errichten kein Suchregister. Sie sind auf der Suche nach Emailadressen und nach Lücken, Exploits und Security Vulnerabilities oder erzeugen lange Listen von 404-Fehlern. Nach den Bad Bots kommen die Angriffe.[Link]

Mit anderen Worten. Die Hacker benutzen Bots, um die Schwachstellen Ihrer Website herauszufinden. Damit die Hacker gezielt angreifen können.

Ein Arzt röntgt auch erstmal, bevor einen Eingriff vornimmt. Wobei es sich bei einem Arzt natürlich um eine Person mit guten Absichten handelt.

Der wohl schädlichste User Agent String

Botnet Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1

  • 90 % der Hacker, die ItDoor besucht haben, haben diesen User Agent verwendet.

Dieser User Agent String ist gleichbedeutend mit diesem User Agent String.

Botnet Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1

Wegen der leicht unterschiedlichen Schreibweise handelt es sich für eine Blacklist (Ausschlußliste) um 2 verschiedene User Agents.

Zu dieser „Familie“ von User Agents gehört für mich auch noch:

Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20100101 Firefox/34.0

 

Andere negative Stimmen zu dem User Agent: Firefox 40.1

Der User Agent String Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1 taucht ausschließlich bei Login-Versuchen auf. Firefox 40.1 hat es nie gegeben. [Link]

 

The first HTTP request goes to „/wp-login.php“ Same action. wp-login first, then the home page, and occasionally index.php, too, just for good measure

[Link]

All of these probes to find the WordPress login page share the same thing in common: they all indicate Firefox 40.1 as the User Agent.

[Link]

This user agent string is used by a brute force that tries to login as an administrator to a WordPress site. For me the bot tried about 3000 times within about 18 hours with no success.

[Link]

Wenn man diesen User Agent ausschließt:

This won’t stop everything but it will drastically reduce the attempts @ wp-login.php and xlmrpc.php.

[Link]

Dotbot und Dotbot1-1

Hier der Agent User String:

Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)

This bot is considered a bad bot because it steals content without giving credit to the original source of content and is known to cause spikes in web traffic and to put strain on web infrastructures, causing downtime.

[Link]

Angeblich soll dieser Bot nur  E-Commerce Website  besuchen. Warum hat er dann ItDoor besucht? ItDoor ist keine E-Commerce Website.

Unnütze Boots

Spybots

Ein Beispiel für ein Spybot ist der Bot AhrefsBot/5.2.

Ahrefs.com also sell access to all the information they’ve collected from your website, offering detailed reports and tools allowing anyone else to ‘analyse’ your ‘content’ and ‘keywords’, and use that information for their own purposes.

[Link]

SpBot

Spbot, das ein bißchen wie Spyboot klingt.

Hier ein User Agent String:

Mozilla/5.0 (compatible; spbot/5.0.3; +http://OpenLinkProfiler.org/bot

Wetena schreibt  dazu:

Die Software bringt Websitebetreibern keinen erkennbaren Nutzen, es handelt sich also um einen weiteren nutzlosen Parasiten, der fremde Systemressourcen mißbraucht.

Wie bei allen Datenbanken für die Suchmaschinenmanipulation steigt die Wahrscheinlichkeit, Kommentarspammer anlocken, sobald die eigenen Seiten in diesen Datenbanken präsent sind.

Auf unseren Webservern wird Spbot standardmäßig blockiert.

Trendiction Bot

Kommentar von Wetena:

Ein Websitebetreiber hat keinerlei Nutzen davon, seine Website von dem Trendictionbot ausspionieren zu lassen; relevant sind die Daten von Trendiction allenfalls für Kunden des Unternehmens, für Konkurrenten und Kriminelle. Möchte man für diese Zielgruppen seine Serverressourcen unentgeltlich zur Verfügung stellen?

Auf unseren Servern wird der „Trendiction Bot“ standardmäßig blockiert.

BacklinkCrawler

Kommentar von Wetena:

Der Backlink Crawler ist ein Bot des kommerziellen Suchmaschinen-Manipulationsdiestleisters „2.0Promotion GbR“, der keine exakten Angaben darüber macht, welche Daten zu welchem konkreten Zweck gesammelt werden.

Backlink Crawler zählt zu den Parasiten des Internet: Der Betreiber des Bots nutzt fremde Internet-Angebote ungefragt, um die gesammelten Daten weiterzuverkaufen. Ein Nutzen dieses Dienstes für Website-Betreiber ist nicht erkennbar.

 

Das könnte man alles als Standardformulierung für weitere unnütze Bots nehmen. Daher verzichte ich an dieser Stelle weitere Beispiele  für unnütze Bots zu nennen.

Fazit:

Was als unnütze Bots zu bewerten ist, ist sicher eine Einzelfallentscheidung. Zum einen was den Bot selber angeht, zum anderen was den Entscheider angeht.

Außerdem ist die Abgrenzung zu Bad Bots schwierig. Schließlich ist ein Bot, der ohne meine Erlaubnis Informationen von meiner Website verkauft, nicht nur unnütz sondern sogar schlecht.

Wer Produkte und/oder Dienstleistungen  auf seiner Website anbietet oder dort direkt verkauft, der hat schon eher ein Interesse daran, daß es auch Bots gibt, die ihm kein Suchmaschinenranking liefern, sondern nur auf irgendeine Art und Weise den Bekanntheitsgrad der eigenen Website steigern.

Im Internet gibt es viele Stellen, die zeigen, wie man bestimmte Bots ausschließt. Das bedeutet, daß die Bots, die nicht ausgeschlossen werden, Ihre Website crawlen (dürfen). Unabhängig davon, mit welcher Leidenschaft man die Liste der ausgeschlossenen Bots pflegt, ist es generell einfacher einige Bots zuzulassen und den Rest einfach auszuschließen

Wie man das machen kann, wird hier erklärt [Link]

Ich selber habe diesen Code nicht ausprobiert.

Wenn Sie wollen, können Sie sich das also ganz einfach machen. Sie lassen einige Bots zu, wie z. B. die von Google und Bing. Der Rest wird ausgeschlossen. Sie kontrollieren dann noch gelegentlich, ob diese Maßnahme wirkt. Falls ja, wäre das Thema damit für Sie erledigt.

Damit war es dann auch zum Thema Schädliche Bots und schädliche User Agents , gute Bots, unnütze Bots.

verwandte Fachartikel

Crawlers/Bots, die gesperrte Beiträge/Seiten crawlen

WordPress Plugins für Hackerschutz – ein Vergleich

So könnte ein Hackerangriff/eine Hacker-Attacke aussehen

Andere Themenblöcke bei ItDoor

Software für Aktien und andere Wertpapiere

zu den Fachartikeln zum Thema Word von ItDoor für eilige Leser

Die Liste der Fachartikel zu WordPress von ItDoor

Zum WordPress Plugin Verzeichnis von ItDoor

Liste Fachartikel zum Thema Joomla von ItDoor

Fachartikel zum Thema Jutoh von ItDoor

IT Wörterbücher von ItDoor

zur Startseite von ItDoor

Kommentare:

swissadspaysfaucet.com sagt:

It’s a shame you don’t have a donate button! I’d without a doubt donate to this superb blog!
I guess for now i’ll settle for bookmarking and adding your RSS feed to
my Google account. I look forward to fresh updates and will share this site with my Facebook
group. Talk soon!

jasa bola online sagt:

21. November 2018 um 19:59 Uhr

Thanks designed for sharing such a fastidious thinking, post is nice, thats why  i have read it fully.

cafef.vn sagt:

I enjoy reading a post that can make men and women think. Also, many thanks for allowing me to comment!

Car Track sagt:

Just wish to say your article is as surprising. The clarity in your post is simply excellent and that i can think you’re a professional on this subject.
Well together with your permission allow me to snatch your feed to stay updated with drawing close post.
Thank you 1,000,000 and please carry on the gratifying work.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

÷ 3 = 1

error: Content is protected !!