WordPress – die robots.txt optimieren

Im Ordner von WordPress kann eine robots.txt  Textdatei angelegt werden, die Suchmaschinen wie Google Anweisungen gibt, welche Order oder Dateien vom Googlebot durchsucht und in den Index aufgenommen werden sollen. Alle großen Suchmaschinen halten sich daran. Die robots.txt kann jedoch im Gegensatz zur .htaccess den Zugriff nicht verbieten.

Die Experten sind sich uneins darüber, wie wichtig oder sinnvoll eine robots.txt ist. Da sie bei richtiger Konfiguration nicht schadet, kann das Anlegen dieser Datei grundsätzlich empfohlen werden. Der WordPress Codex zeigt beispielhaft eine optimierte WordPress robots.txt, die ein guter Ausgangspunkt ist.

Sitemap: http://www.example.com/sitemap.xml
    
User-agent: Googlebot-Image
Disallow: Allow: /*
User-agent: Mediapartners-Google
Disallow: Allow: /*
User-agent: duggmirror
Disallow: /
User-agent: *
Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/cache/ Disallow: /wp-content/themes/ Disallow: /trackback/ Disallow: /feed/ Disallow: /comments/ Disallow: /category/ Disallow: /tag/ Disallow: */trackback/ Disallow: */feed/
Disallow: */comments/ Disallow: /*? Allow: /wp-content/uploads/

Die erste Zeile weist auf die Sitemap hin. Das ist nicht unbedingt nötig, gilt aber als gute Praxis. User-agent erlaubt oder verbietet bestimmten Bots den Zugang. In diesem Fall sind die Google Bildersuche sowie Adwords erlaubt, duggmirror wird gesperrt. Die globalen Definitionen gelten für alle Suchmaschinen. Hier werden  der WordPress Kern, die Plugins und Themes, Kommentare, Archive und Feeds ausgeschlossen. Damit werden doppelte Inhalte vermieden. Diese Regeln sollten natürlich nach den eigenen Taxonomien angepasst werden.

Mit einem Plugin wie WordPress SEO von Yoast lassen sich die Regeln auch im Backend erstellen. Sie werden dann als Metainfos in die jeweiligen Seiten eingebaut. Das sieht dann so aus:

<meta name="robots" content="noindex,follow"/>

Auf diese Weise lassen sich Archivseiten ausblenden, die nicht benötigt werden und doppelten Inhalt liefern. Wer etwa als einziger Autor ein Blog betreibt, braucht kein Archiv nach Autoren. Dieses Archiv würde das exakt gleiche Ergebnis liefern wie die Blogseite. Das gilt analog für die Archive Datum, Kategorie und Stichwort.

2 Kommentare Schreibe einen Kommentar

  1. Hallo. Die Begriffe verwirren mich ein wenig. Bei meinem Server ist ganz oben ein gelber Ordner-Symbol. Ohne Namensbezeichnung. Darunter der gelbe Ordner WordPress. Welches von beiden ist denn nun das Root-Verzeichnis? In welchen von beiden muss die robots.txt rein?

Schreibe einen Kommentar