August 2019 aktualisiert Twitter @ItDoorlu
Inhaltsverzeichnis
- 1 Braucht man eine robots.txt-Datei? Gut für SEO?
- 2 Die robots.txt-Datei muss immer im Root-Verzeichnis liegen
- 3 Die einfachste Methode bei Word-Press eine robots.txt.-Datei zu erstellen
- 4 Braucht man eine robots.txt-Datei? – Die Meinung von Google
- 5 Robots.txt-Datei als Werkzeug für Search Engine Optimization (SEO)?
- 6 Falls Ihnen der bisherige Inhalt der robots.txt-Datei zu simpel ist
- 7 Robots.txt-Datei überprüfen
- 8 verwandte Fachartikel
- 9 Andere Themenblöcke bei ItDoor
Braucht man eine robots.txt-Datei? Gut für SEO?
In diesen Fachartikel wird untersucht, ob man eine robots.txt-Datei braucht und ob das gut für SEO ist. Bei diesem Thema werden im Internet oftmals gleichbedeutend die Ausdrücke bot, crawler, spider und robot benutzt.
Um in diesem Fachartikel nicht ständig andere Begriffe zu benutzen, benutze ich hier den Ausdruck „bot“. Vom „bot“ ist der „User agent“ zu unterscheiden. In der robots.txt-Datei schließt man nicht den Bot, sondern dessen User agent aus.
Beispiel:
Der Bot von Bing hat z. B. den User agent „Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html“.
Das Beispiel hinkt, da es keinen Sinn macht, den Bot von Bing bzw. dessen User agent auszuschließen.
Joomla und die robots.txt.-Datei
Joomla stellt eine robots.txt.dist zur Verfügung, die man als Arbeitsgrundlage verwenden kann und nach erfolgreicher Bearbeitung in robots.txt umbenennen kann.
What’s your problem with the robots.txt.dist file? You don’t have to remove that at all. It’s there for convenience so you have a working example file you can copy or rename to robots.txt. [LINK]
WordPress und die robots.txt.-Datei
Standardmäßig bietet WordPress auch keine robots.txt.-Datei. Noch nicht mal als eine leere Hülle. Wer das Plugin Yoast SEO verwendet, kann bei Benutzung der Menüfolge „Werkzeuge-Datei-Editor“ erkennen, ob er eine robots.txt-Datei hat.
Setzt man das Plugin Yoast SEO nicht ein, kann man ganz einfach im Root-Verzeichnis nachschauen, ob man eine robots.txt.-Datei hat. Falls man eine robots.txt.-Datei hat, die nicht im Root-Verzeichnis ist, wäre das so, als ob man keine robots.txt.-Datei hätte.
Natürlich kann man das auch z. B über Besucherstatistik-Plugins oder über Redirect-Plugins feststellen, ob man eine robots.txt-Datei hat. So gut wie jeder Bot/User agent erzeugt eine 404-Meldung , wenn er die robots.txt-Datei nicht findet.
WordPress bietet eine virtuelle robots.txt.-Datei an?
Einige Kollegen schreiben so oder sinngemäß:
WordPress generates a virtual robots.txt file if the site root does not contain a physical file.
Das Plugin Yoast SEO bestätigte mir, dass ich keine robots.txt.-Datei habe (siehe oben).
Ich habe mit Filezilla meinen Webspace nach „robots.txt“ durchsucht und keine robots.txt-Datei gefunden.
Vielleicht gibt es ja Konstellationen, bei denen WordPress doch im Standard eine robots.txt-Datei anbietet???
Welche Konstellationen das sein sollen, sollen dann diejenigen erklären, die die Meinung vertreten, dass WordPress eine virtuelle robots.txt-Datei erstellt, solange man selbst keine separate Datei anlegt.
Wenn die WordPress erstellte robots.txt so virtuell ist, dass die Bots trotzdem 404-Meldungen erzeugen, stellt sich die Frage zudem nach dem Zweck einer solchen virtuellen robots.txt-Datei.
Die robots.txt-Datei muss immer im Root-Verzeichnis liegen
Wenn Sie zum ersten Mal die Dateien Ihrer WordPress-Website oder Ihrer Joomla Website per FTP z. B. mit dem Programm „Filezilla“ hochladen, müssen Sie natürlich wissen, welchen Namen Ihr Hoster dem Root-Verzeichnis gegeben hat.
In vielen Fällen heißt das Root-Verzeichnis „public_html“ oder „httpdocs“ oder „httpdocs/joomla“.
Der Hoster von ItDoor hatte beim Abschluss des Hosting-Vertrages (neben anderen Informationen) den Namen des Root-Verzeichnisses schriftlich mitgeteilt. Das kann man von jedem anderen Hoster auch erwarten.
Haben Sie Ihre Dateien in das Root-Verzeichnis hochgeladen, können Sie anschließend noch kurz kontrollieren, ob wichtige Verzeichnisse oder Dateien im Root-Verzeichnis enthalten sind.
Unterverzeichnisse im Root-Verzeichnis bei WordPress
Bei WordPress müssen z. B diese Unterverzeichnisse im Root-Verzeichnis sein.
wp-admin
wp-content
wp-includes
Datei im Root-Verzeichnis bei Joomla
Bei Joomla muss z. B diese Datei im Root-Verzeichnis enthalten sein [LINK].
configuration.php
Die einfachste Methode bei Word-Press eine robots.txt.-Datei zu erstellen
Bei dem Plugin Yoast SEO für WordPress, klickt man nach Benutzung der Menüfolge „Werkzeuge-Datei-Editor“ auf den Button „robots.txt Datei erstellen.
Nach einem Klick auf den Button „robots.txt Datei erstellen“ bietet mir das WordPress Plugin Yoast SEO diese Maske an.
Das Plugin Yoast SEO unterbreitet mir also einen Vorschlag, welchen Inhalt die robots.txt.-Datei haben soll. Nämlich dieser Inhalt:
User-agent: *
Disallow: /Wordpress/wp-admin/
Allow: /Wordpress/wp-admin/admin-ajax.php
Da ich dem Plugin Yoast SEO vertraue, klicke ich auf den Button „Speichere die Änderungen der robots.txt“. Diesen Inhalt könnte man natürlich auch für Webpages verwenden, die keine WordPress-Webpages sind. Bei diesen Webpages kann man allerdings diese Zeile weglassen:
Allow: /Wordpress/wp-admin/admin-ajax.php
Denn die Datei “admin-ajax.php” ist eine spezifische WordPress Datei. Einige der WordPress-Plugins und WordPress-Themes benutzen diese Datei. Einige Kollegen berichten, dass selbst der Bot von Google Probleme bekommt, falls diese Datei in der robots.txt.-Datei per Disallow ausgeschlossen worden ist. Siehe auch:
https://core.trac.wordpress.org/ticket/33156
Mit welchem Programm die robots.txt-Datei erstellen oder bearbeiten?
Statt die robots.txt mit Hilfe von Plugins zu erstelle, könnte man daran denken, die robots.txt manuell zu erstellen.
Dann sollte man aber die robots.txt nicht mit Word erstellen. Das ist zu unsicher, da die Word-Datei nach dem Abspeichern vom Standard- ASCII und UTF-8 Format abweichen kann.
Da es viele kostenlose Texteditoren wie z. B. „Notepad++“ gibt, sollte einem der Verzicht auf Word oder andere Textverarbeitungsprogramme für diesen Zweck nicht so schwerfallen.
Man kann die robots.txt Datei mit jedem Texteditor erstellen, der Dateien im Standard- ASCII und UTF-8 Format erstellen kann.
Braucht man eine robots.txt-Datei? – Die Meinung von Google
Sie brauchen nicht immer eine robots.txt-Datei.
Sie benötigen die robots.txt-Datei nur, wenn Ihre Website Inhalte aufweist, die nicht von den Suchmaschinen indexiert werden sollen.
Wenn Sie möchten, dass Suchmaschinen alle Ihre Websiteinhalte indexieren, benötigen Sie keine robots.txt-Datei – nicht einmal eine leere. Wenn keine robots.txt-Datei für Ihre Website vorhanden ist, gibt Ihr Server den Statuscode 404 zurück, sobald der Googlebot die Datei anfordert, und Google fährt mit dem Crawling Ihrer Website fort. Das ist kein Problem.
Diesen Text konnte man bis vor Kurzen hier noch finden: https://support.google.com/webmasters/answer/2409682?hl=de
Entweder ist dieser Text dem Umbau der neuen Google Search Console zum Opfer gefallen oder Google hat seine Meinung geändert. Vorsichtshalber sollte eine robots.txt-Datei erstellt werden (siehe oben).
So gut wie jeder Bot erzeugt eine 404-Meldung (siehe den Fachartikel „Plugins für Redirect “Fehler 404 – Seite nicht gefunden”), wenn er die robots.txt-Datei nicht gefunden hat. Diese Meldung kommt also nicht nur, wenn eine Seite (URL) nicht gefunden wird, sondern auch, wenn eine Datei nicht gefunden wird. Die meisten dieser Bots crawlen die Webpage von ItDoor, obwohl ItDoor keine robots.txt-Datei hat.
Bei dem Bot von Twitter habe ich den Verdacht, dass dieser seine Arbeit einstellt, wenn er keine robots.txt-Datei findet.
Robots.txt-Datei als Werkzeug für Search Engine Optimization (SEO)?
Viele im Internet preisen die robots.txt-Datei als SEO-Werkzeug an. Hier ein Beispiel:
The robots.txt file is a very powerful tool when you’re working on a website’s SEO.
Reduzierung von 404-Errors durch die robots.txt-Datei
Aus den Ausführungen oben kann man ableiten dass sich die Anzahl der 404-Meldungen reduziert, wenn eine robots.txt-Datei vorhanden ist. Verbessert sich dadurch das Ranking Ihrer Webpage?
If some URLs on your site 404, this fact alone does not hurt you or count against you in Google’s search results [LINK].
Die obige Aussage aus dem Jahr 2011 wurde mit den folgenden Worten aus dem Jahr 2013 bestätigt:
404 errors on invalid URLs do not harm your site’s indexing or ranking in any way. It doesn’t matter if there are 100 or 10 million, they won’t harm your site’s ranking.
And from the Search Console support site:
Generally, 404 errors don’t impact your site’s ranking in Google, and you can safely ignore them.
Diese Sätze können Sie hier nochmal nachlesen:
http://www.thesempost.com/404-error-pages-do-not-cause-a-google-penalty/
Google has always pointed out that 404s are normal. They also seem to be pretty forgiving with them. I mean, that’s natural, considering that they have 404s of their own [LINK]:
Wenn also 404-Errors, das Ranking der Webpage nicht verschlechtern, dann kann man nur zu dem Schluss kommen, dass die Reduzierung von 404-Errors durch eine erstellte robots.txt-Datei nicht zu einer Verbesserung des Rankings der Webpage führen kann. Ich habe auch niemand gefunden, der eine solche These vertritt.
Wenn der Bot von Twitter crawlt
Sollte es tatsächlich so sein, dass der Bot von Twitter (User Agent: Twitterbot/1.0) nur dann crawlt, wenn eine robots.txt-Datei vorhanden ist, stellt sich die Frage, ob das das Ranking der Webpage erhöht?
Auch wenn Twitter einen Bot hat, ist Twitter für mich keine Suchmaschine. Bei Twitter hinterlegte Links zur eigenen Webpage
Alle Links, die User in einem Tweet setzen, werden von Twitter im Grunde nicht übernommen. Stattdessen ersetzt Twitter seine Links mit einer eigenen internen Weiterleitung namens „Twitter´s Link Service.
Am Ende werden alle Links in die von Twitter verwalteten Linkmaschine T.CO übersetzt und von dort erst weitergeleitet. Auf der Oberfläche erscheint weiterhin der vom User gesetzte Link und gaukelt dem User den realen Link vor, obwohl sich dahinter der interne T.CO-Link von Twitter befindet.
Was Google technisch nicht auszulesen vermag, kann Google auch nicht bewerten.
(alles gefunden bei: https://www.digitalwelt.org/ratgeber/seo/twitter-seo)
Robots.txt-Datei als Google Ranking Faktor?
Nach übereinstimmender Meinung gibt es über 200 Faktoren, die das Ranking bei Google beeinflussen. Ich habe keine Quelle gefunden, die behauptet, dass die robots.txt-Datei ein Ranking-Faktor ist. Zudem wäre es widersprüchlich, wenn laut Google eine robots.txt-Datei nicht erforderlich ist (siehe oben) und auf der anderen Seite eine robots.txt-Datei ein Rankingfaktor bei Google sein soll.
Wer sich für Listen von Googles Rankingfaktoren interessiert, hier einige Verweise:
https://backlinko.com/google-ranking-factors
https://www.ithelps.at/blog/543-google-ranking-faktoren
https://www.chimpify.de/marketing/rankingfaktoren/
Falls Ihnen der bisherige Inhalt der robots.txt-Datei zu simpel ist
In der robots.txt-Datei einen Link zu den XML-Sitemaps einbauen?
Einige empfehlen, die Pfade zu den XML-Sitemaps in die robots.txt-Datei einzubauen. Hier eine abweichende Meinung:
Should you link to your XML Sitemap from your robots.txt?
We’ve always felt it pointless to link to your XML sitemap from your robots.txt file, because you should add your sitemap manually to your Google Search Console and Bing Webmaster Tools accounts and look at their feedback about it. This is why our Yoast SEO plugin doesn’t add it to your robots.txt. Don’t rely on search engines finding out about your XML sitemap through your robots.txt [LINK].
Ausschluss von Seiten Ihrer Webpage in der robots.txt-Datei?
Mit einem Disallow in der robots.txt-Datei kann man nicht erreichen, dass bestimmte Inhalte einer Webpage nicht indexiert werden.
If you are concerned that someone would find a particular web page or URL in the search results, then do NOT use the robots.txt file to disallow the URL from being crawled [LINK].
Suchmaschinen reagieren (fast) gar nicht auf den Noindex in der robots.txt.. Yahoo! ist es Schnuppe, ob eine Noindex-Angabe in der robots.txt steht [LINK].
Google: I’d Avoid Using NoIndex In Robots.txt File [LINK]
So if there’s an area of your site that has a lot of links pointing at it but you’d rather not have appear in search results, don’t block it via robots.txt, use a robots meta tag with a value of noindex, [no]follow instead. This allows search engines to properly distribute the link value for those pages across your site [LINK].
Es ist also wesentlich wirksamer ein Plugin zu benutzen, das die meta tags noindex und nofollow erzeugt, damit bestimmte Seiten nicht in den Suchmaschinen angezeigt werden.
Z. B. bei dem Plugin Yoast SEO sehen diese Einstellungsmöglichkeiten so aus:
Sollten Bots Inhalte (trotz Ihrer Anweisungen in robots.txt-Datei oder in einem Plugin) crawlen, dann schließen Sie diesen User agent aus (siehe den Fachartikel „Schädliche Bots / User Agents , gute Bots, unnütze Bots“). Bots bzw. User agents, die sich nicht an Ihre Anweisungen halten, sind auf Ihrer Webpage nicht willkommen!
Bots/Crawler/suchmaschinen, die nofollow-Einstellungen nicht respektieren
Trident/6.0 aus Frankreich
DomainStatsBot/1.0 (https://domainstats.com/pages/our-bot)
Baidu
trendiction
megaindex
bingbot
domaincrawler
Mozilla/5.0 (compatible; AhrefsBot/6.1; +http://ahrefs.com/robot/)
Damit Sie diese Bots erkennen können. benötigen Sie ein Hilfsprogramm , dass diese unerwünschten Bots entdeckt. Also ein Programm, dass den Traffic auf Ihrer Webpage analysiert. Sie können das dann testen, indem Sie eine Testseite mit einer no-follw Einstellung anlegen.
Weitere Gestaltungsmöglichkeiten für Ihre robots.txt-Datei
Hier finden Sie Beispiele, wie Sie den Inhalt einer robots.txt-Datei komplexer gestalten können.
https://en.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive
Robots.txt-Datei überprüfen
Der Inhalt einer robots.txt-Datei kann mit der Google Search Console überprüft werden.
Ich klicke hier auf „robots.txt-Tester“. Anschließen erhalte ich von der Google Search Console diese Meldung.
Heute haben wir aber den 28.4.2019. Da ist die Google Search Console nicht ganz aktuell.
Die Google Search Console kann also am 25.4.2019 keine robots.txt-Datei finden. Sollte es tatsächlich eine virtuelle robots.txt-Datei gegeben haben, ist diese so virtuell, dass noch mal die Google Search Console die robots.txt-Datei finden kann. Was soll der Sinn und Zweck einer virtuellen robots.txt-Datei sein, die noch nicht mal von Google gefunden wird?
In der Zeile „Neueste Version gesehen am 25.04.19, 04:34 Ok (200) 0 Byte „ finde ich rechts diesen Button.
Da die Sicht von Google veraltet ist, klicke ich auf den Button „Live verfügbare robots.txt ansehen“.
Die Google Search Console findet dann den folgenden Inhalt, aber ohne ihn zu prüfen.
User-agent: *
Disallow: /Wordpress/wp-admin/
Allow: /Wordpress/wp-admin/admin-ajax.php
Aber bereits 1 Tag später ist die robots.txt-Datei von der Google Search Console geprüft.
Wie Sie sehe: 0 Fehler und 0 Warnmeldungen
Eigentlich überflüssig zu erwähnen, dass ein abweichender Inhalt der robots.txt-Datei auch von der Google Search Console geprüft wird.
In der neuen Version von der Google Search Console habe ich die Funktion „robots.txt-Tester“ bisher nicht gefunden. Diese Funktion wird dort aber wahrscheinlich noch integriert.
Das war es dann zum Thema: Braucht man eine robots.txt-Datei? Gut für SEO?
Buchtipp bei BoD: Kostenlose WordPress-Themes
Schnell das passende Theme finden (für Anwender, Consultants und Theme-Developers). Mit über 75 hilfreichen Tabellen; ohne Programmierung, 152 Seiten
verwandte Fachartikel
Schädliche Bots / User Agents , gute Bots, unnütze Bots
Twitter mit Facebook verbinden und wieder trennen
Bing und Google – unterschiedliche Reaktionen auf eine Webpage
Andere Themenblöcke bei ItDoor
Software für Aktien und andere Wertpapiere
zu den Fachartikeln zum Thema Word von ItDoor für eilige Leser
Die Liste der Fachartikel zu WordPress von ItDoor
Zum WordPress Plugin Verzeichnis von ItDoor
Liste Fachartikel zum Thema Joomla von ItDoor