Website-Icon OpenByt - Ihre ultimative Quelle für kostenloses WordPress-Wissen

Wie man eine robots.txt-Datei schreibt und einreicht

Controlling what search engines can and can’t crawl is an essential part of managing your online presence. One of the most effective ways to do this is using a robots.txt file. This plain text file tells search engines which parts of your website they can access and which they cannot, helping you guide traffic, protect sensitive content, and improve your site’s SEO.
In this blog, we’ll dive into the importance of a robots.txt file, how to create one, and how to customize it to suit your needs. Whether you’re a beginner or someone with experience managing websites, this guide will help you ensure your site is crawled effectively by search engines.

Was ist eine Robots.txt-Datei?

A robots.txt-Datei is a simple text file placed in the root directory of your website. Its purpose is to instruct web crawlers (such as Google’s Googlebot) on which parts of your site they can visit and index. Following the Roboter Ausschluss StandardMit dieser Datei können Sie den Zugriff auf bestimmte Verzeichnisse oder Seiten kontrollieren und gleichzeitig sicherstellen, dass wichtige Inhalte für Suchmaschinen zur Indizierung verfügbar bleiben.

Wenn Ihre Website zum Beispiel www.example.comsollte sich Ihre robots.txt-Datei in folgendem Verzeichnis befinden www.example.com/robots.txt.

Wie funktioniert eine Robots.txt-Datei?

A robots.txt file is made up of a series of rules, with each rule specifying whether a certain web crawler (called a “user agent”) can access specific parts of your website. The rules include commands like Nicht zulassen, Erlauben Sie, und Sitemapdie den Zugriff auf verschiedene URLs entweder einschränken oder erlauben kann.

Schauen wir uns ein einfaches Beispiel für eine robots.txt-Datei an:

Benutzer-Agent: Googlebot
Nicht zulassen: /nogooglebot/

Benutzer-Agent: *
Zulassen: /

Sitemap: https://www.example.com/sitemap.xml

Erläuterung der Datei:

Wenn keine robots.txt-Datei vorhanden ist, können alle Crawler standardmäßig auf die gesamte Website zugreifen. Die robots.txt-Datei verfeinert diese Berechtigungen.

Warum Sie eine Robots.txt-Datei benötigen

Die Verwendung einer robots.txt-Datei bietet mehrere Vorteile:

Wie man eine Robots.txt-Datei erstellt

Die Erstellung einer robots.txt-Datei ist ganz einfach und kann mit jedem einfachen Texteditor wie Notizblock, TextEdit, vi, oder Emacs. Vermeiden Sie die Verwendung von Textverarbeitungsprogrammen wie Microsoft Word, da diese Formatierungen einführen können, die das ordnungsgemäße Funktionieren der Datei beeinträchtigen könnten.

1. Erstellen Sie die Datei

Öffnen Sie Ihren Texteditor und speichern Sie eine Datei mit dem Namen robots.txt. Vergewissern Sie sich, dass die Kodierung in UTF-8 Format.

2. Regeln hinzufügen

Beginnen Sie mit dem Hinzufügen von Regeln, indem Sie angeben, für welche Benutzeragenten die Regeln gelten und welche Teile Ihrer Website sie crawlen dürfen (oder nicht).
Hier ein Beispiel dafür, wie Sie allen Webcrawlern den Zugriff auf ein bestimmtes Verzeichnis verwehren können:

Benutzer-Agent: *
Nicht zulassen: /privates-verzeichnis/

3. Hochladen der Datei

Laden Sie die robots.txt Datei in das Stammverzeichnis Ihrer Website. Wenn Ihre Website zum Beispiel www.example.commuss sich die Datei unter www.example.com/robots.txt. Wenn Sie sich nicht sicher sind, wie Sie auf das Stammverzeichnis zugreifen können, wenden Sie sich an Ihren Hosting-Provider.

4. Testen Sie die Datei

Nachdem Sie die Datei hochgeladen haben, können Sie sie testen, indem Sie einen Browser im privaten Modus öffnen und zu https://www.example.com/robots.txt. Wenn Sie die Datei sehen können, bedeutet dies, dass die Datei erfolgreich hochgeladen wurde.

Allgemeine Robots.txt-Regeln

Hier sind einige gängige Regeln, die in robots.txt-Dateien verwendet werden:

1. Blockieren Sie alle Crawler von der gesamten Website

Benutzer-Agent: *
Nicht zulassen: /

Diese Regel blockiert den Zugriff aller Crawler auf die gesamte Website. Seien Sie vorsichtig mit dieser Regel, da sie Suchmaschinen daran hindert, Ihre Inhalte zu indizieren.

2. Allen Crawlern Zugriff auf die gesamte Website gewähren

Benutzer-Agent: *
Zulassen: /

Diese Regel erlaubt allen Webcrawlern den Zugriff auf Ihre gesamte Website. Dies ist das Standardverhalten, wenn Sie keine Regeln in Ihrer robots.txt-Datei angeben.

3. Ein bestimmtes Verzeichnis sperren

Benutzer-Agent: *
Nicht zulassen: /privates-verzeichnis/

Diese Regel blockiert alle Crawler vom Zugriff auf die /privates-verzeichnis/. Denken Sie daran, dass der abschließende Schrägstrich anzeigt, dass alles innerhalb des Verzeichnisses ebenfalls nicht erlaubt ist.

4. Ein bestimmtes Verzeichnis zulassen, den Rest sperren

Benutzer-Agent: *
Nicht zulassen: /
Zulassen: /public/

Diese Regel blockiert den Zugriff auf die gesamte Website mit Ausnahme der /Öffentlich/ Verzeichnis. Dies ist nützlich, wenn Sie den größten Teil Ihrer Website privat halten, aber zulassen möchten, dass bestimmte öffentliche Seiten indiziert werden.

5. Eine bestimmte Seite sperren

Benutzer-Agent: *
Nicht zulassen: /nutzlose_seite.html

Diese Regel verhindert, dass alle Crawler auf eine bestimmte Seite Ihrer Website zugreifen.

6. Legen Sie eine Sitemap fest

Sitemap: https://www.example.com/sitemap.xml

Die Aufnahme einer Sitemap in Ihre robots.txt-Datei hilft Suchmaschinen, alle wichtigen Seiten Ihrer Website schnell zu finden und zu crawlen.

Bewährte Praktiken für Robots.txt-Dateien

Beachten Sie bei der Erstellung Ihrer robots.txt-Datei die folgenden bewährten Verfahren:

Wie Sie Ihre Robots.txt-Datei testen und einreichen

Nachdem Sie Ihre robots.txt-Datei hochgeladen haben, können Sie die Gültigkeit der Datei mit Der robots.txt-Tester der Google Search Console. Mit diesem Tool können Sie sicherstellen, dass Ihre Datei angemessen formatiert ist und von Google richtig interpretiert werden kann.

So übermitteln Sie Ihre robots.txt-Datei an Google:

Fazit

Eine gut strukturierte robots.txt-Datei ist ein leistungsfähiges Instrument zur Verwaltung der Interaktion von Suchmaschinen mit Ihrer Website. Wenn Sie wissen, wie Sie die Datei erstellen und konfigurieren, können Sie sicherstellen, dass Ihre Website für das Crawling optimiert ist und gleichzeitig sensible oder unnötige Inhalte vor den Crawlern der Suchmaschinen verborgen bleiben.
Whether managing a personal blog or a large corporate website, a properly implemented robots.txt file can improve your SEO, protect sensitive content, and ensure your site runs smoothly. Regularly review and update the file to align with your site’s growth and changes.

Die mobile Version verlassen