Technische Suchmaschinenoptimierung

Was ist Robots.txt?

Robots.txt ist eine Datei, die Suchmaschinen-Spiders anweist, bestimmte Seiten oder Abschnitte einer Website nicht zu crawlen.

Die meisten grossen Suchmaschinen (einschliesslich Google, Bing und Yahoo) erkennen und berücksichtigen Anfragen von Robots.txt.

Warum ist Robots.txt wichtig?

Die meisten Webseiten benötigen keine Robots.txt-Datei.

Dies liegt daran, dass Google «Robots» normalerweise alle wichtigen Seiten Ihrer Webseite finden und indizieren kann.

Sie indizieren automatisch KEINE Seiten, die nicht wichtig sind oder duplizieren Versionen anderer Seiten.

Allerdings gibt es drei Hauptgründe, warum Sie eine Robots.txt-Datei verwenden möchten.

Nichtöffentliche Seiten blockieren: Manchmal haben Sie Seiten auf Ihrer Webseite, die nicht indiziert werden sollen.

Beispielsweise haben Sie möglicherweise eine Staging-Version einer Seite.

Oder eine Login-Seite.

Diese Seiten müssen existieren.

Aber Sie möchten nicht, dass zufällige Leute auf ihnen landen.

In diesem Fall würden Sie robots.txt verwenden, um diese Seiten vor Suchmaschinen-Crawlern und Bots zu blockieren.

Crawl-Budget maximieren: Wenn es für Sie schwierig ist, alle Ihre Seiten zu indexieren, haben Sie möglicherweise ein Problem mit dem Crawler-Budget.

Durch das Blockieren unwichtiger Seiten mit «robots.txt» kann Googlebot mehr von Ihrem Crawl-Budget für die Seiten ausgeben, die tatsächlich von Bedeutung sind.

Indizierung von Ressourcen verhindern: Die Verwendung von Meta-Direktiven kann genauso gut wie Robots.txt funktionieren, um zu verhindern, dass Seiten indiziert werden.

Meta-Direktiven funktionieren jedoch nicht gut für Multimedia-Ressourcen wie PDFs und Bilder.

Hier kommt Robots.txt ins Spiel.

Die Quintessenz?

Robots.txt weist Suchmaschinen-Crawlern an, bestimmte Seiten Ihrer Webseite nicht zu durchsuchen.

Sie können in der Google Search Console überprüfen, wie viele Seiten Sie indiziert haben.

Wenn die Anzahl mit der Anzahl der Seiten übereinstimmt, die Sie indizieren möchten, müssen Sie sich nicht um eine Robots.txt-Datei kümmern.

Wenn diese Anzahl jedoch höher ist als erwartet (und Sie bemerken, dass indizierte URLs nicht indiziert werden sollten), müssen Sie eine Robots.txt-Datei für Ihre Webseite erstellen.

Robots.txt Tipps & Tricks

Erstellen Sie eine Robots.txt-Datei

Ihr erster Schritt ist das Erstellen Ihrer Robots.txt-Datei.

Da es sich um eine Textdatei handelt, können Sie tatsächlich eine Datei mit dem Windows-Editor erstellen.

Und egal, wie Sie Ihre Robots.txt-Datei letztendlich erstellen, das Format ist genau das gleiche:

User-agent: X

Disallow: Y

User-Agent ist der Bot, mit dem Sie gerade sprechen.

Alles, was nach „Nicht zulassen“ erscheint, sind Seiten oder Abschnitte, die Sie blockieren möchten.

Hier ist ein Beispiel:

User-agent: googlebot

Disallow: /images

Diese Regel weist Googlebot an, den Bildordner Ihrer Webseite nicht zu indexieren.

Sie können auch ein Sternchen (*) verwenden, um mit allen Bots zu sprechen, die sich auf Ihrer Webseite befinden.

Hier ist ein Beispiel:

User-agent: *

Disallow: /images

Das «*» weist alle Spiders an, Ihren Bilderordner NICHT zu durchsuchen.

Dies ist nur eine von vielen Möglichkeiten, eine Robots.txt-Datei zu verwenden.

In diesem hilfreichen Leitfaden von Google finden Sie weitere Informationen zu den verschiedenen Regeln, die Sie verwenden können, um zu verhindern, dass Bots verschiedene Seiten Ihrer Webseite crawlen.

Prüfen Sie nach Fehlern und Fehlern

Es ist WIRKLICH wichtig, dass Ihre Datei korrekt eingerichtet ist.

Ein Fehler und Ihre gesamte Webseite könnte deindexiert werden.

Glücklicherweise müssen Sie nicht hoffen, dass Ihr Code richtig eingerichtet ist.

Google hat ein schickes Roboter-Test-Tool, das Sie verwenden können:

Es zeigt Ihnen Ihre Datei… und alle Fehler und Warnungen, die gefunden werden.

Wie Sie sehen können, blockieren wir Spiders beim Crawlen unserer WP-Admin-Seite.

Wir verwenden auch Robots.txt, um das Crawlen von automatisch generierten Tags von WordPress zu blockieren (um doppelten Inhalt zu begrenzen).

Machen Sie Ihre Robots.txt-Datei einfach zu finden

Sobald Sie Ihre Datei erstellt haben, können Sie sie zum Leben erwecken.

Sie können Ihre Datei technisch in einem beliebigen Hauptverzeichnis Ihrer Seite platzieren.

Um die Wahrscheinlichkeit zu erhöhen, dass Ihre Datei gefunden wird, empfehlen wir, sie unter folgendem Platz abzulegen:

https://beispiel.ch/robots.txt

(Beachten Sie, dass in Ihrer Datei die Gross- und Kleinschreibung beachtet wird. Achten Sie darauf, dass Sie im Dateinamen ein kleines «r» verwenden.)

Robots.txt vs. Meta-Richtlinien

Warum sollten Sie robots.txt verwenden, wenn Sie Seiten auf Seitenebene mit dem Meta-Tag «noindex» blockieren können?

Wie bereits erwähnt, ist die Implementierung des noindex-Tags in Multimedia-Ressourcen wie Videos und PDFs schwierig.

Wenn Sie Tausende von Seiten blockieren möchten, ist es manchmal einfacher, den gesamten Bereich dieser Seite mit robots.txt zu sperren, anstatt jeder einzelnen Seite manuell ein noindex-Tag hinzuzufügen.

Es gibt auch Randfälle, in denen Sie kein Crawler-Budget bei Google landen möchten, wenn Sie auf Seiten mit dem Tag noindex landen.

Das gesagt:

Ausserhalb dieser drei Randfälle empfehlen wir die Verwendung von Meta-Direktiven anstelle von Robots.txt.

Sie sind einfacher zu implementieren.

Und die Gefahr einer Katastrophe ist geringer (z. B. das Blockieren der gesamten Seite).