Mehr Klarheit für Webmaster bringt die jüngste Initiative der drei grossen Suchmaschinen von Yahoo!, Google und Microsoft. Gemeinsame Regeln für die Datei robots.txt und robots Meta-Tags bringen mehr Übersichtlichkeit und erleichtern die Arbeit. Nachfolgend die Details.
Alle drei Suchmaschinen beziehen sich auf das seit 1994 existierende Robots Exclusion Protocol (REP), ohne jedoch genau Quellenangaben zu liefern. Im Laufe der Jahre haben sich die Möglichkeiten zur Verwendung von Robots.txt und robots Meta-Tags erweitert. Suchmaschinen haben ihre eigenen Tags entwickelt, mit denen sich ihre Crawler steuern lassen. Es gibt jedoch einige Gemeinsamkeiten, zu denen sich nun Google, Microsoft und Yahoo! kürzlich bekannten.
Richtlinien für den Einsatz in der Datei robots.txt
RICHTLINIE | WIRKUNG | EINSATZMÖGLICHKEITEN UND BEISPIELE |
Disallow | Veranlasst den Crawler, die Site nicht zu indexieren – die Datei robots.txt der Site muss jedoch gecrawlt werden, um diese Anweisung zu finden. Die per Disallow gesperrten Seiten werden jedoch nicht gecrawlt. |
‘No Crawl’-Seite einer Site. Diese Anweisung ist die Default-Syntax und bewahrt (einen) bestimmte(n) Pfad(e) einer Site davor, gecrawlt zu werden. Beispiele: Disallow:/ Disallow: /*? |
Allow | Sagt dem Crawler, welche Seiten der Site indexiert werden sollen, so dass Sie diese Anweisung in Kombination mit Disallow verwenden können. |
Wurde der Zugriff nicht durch Disallow eingeschränkt, ist er erlaubt und muss nicht separat erlaubt werden. Die Anwendung von Allow ist vor allem im Zusammenhang mit Disallow-Anweisungen nützlich, durch die große Teile einer Site mit Disallow gesperrt sind ausser eines kleinen Teils, der darin eingeschlossen ist. Beispiel: Disallow: /verzeichnis/ |
$ Wildcard Unterstützung | Sagt dem Crawler, alles ausgehend vom Ende einer URL zu suchen – bezieht sich auf eine große Anzahl von Verzeichnissen, ohne bestimmt Seiten anzugeben. |
‘No Crawl’-Dateien mit bestimmten Mustern, z. B. Dateien eines bestimmten Dateityps, der immer eine bestimmte Erweiterung hat, wie etwa pdf. Beispiel: Disallow: /*.pdf$ Disallow: /*? |
* Asterisk-Wildcard Unterstützung | Sagt dem Crawler, dass er nach einer Sequenz von Zeichen suchen soll. |
‘No Crawl’-URLs von einem bestimmten Muster, z. B. Disallow -URLs mit Session-IDs oder anderen überflüssigen Parametern. Beispiel: Disallow: /geheim*/
|
Sitemaps Location | Sagt dem Crawler, wo er die Sitemaps finden kann. |
Auf andere Orte verweisen, an denen sich Feeds befinden, die Crawlern helfen, URLs auf einer Site zu finden. Beispiel: Sitemap: http://www.meine-website.de/sitemap.xml |
HTML Meta-Richtlinien
Weiterführende Beiträge:
Suchmaschinen und die Datei robots.txt
Meta-Tags für Suchmaschinen und Browser
Beiträge der beteiligten Suchmaschinenbetreiber:
Yahoo!: One Standard Fits All: Robots Exclusion Protocol for Yahoo!, Google and Microsoft
Google: Verbesserungen des Robots-Exclusion Protokolls
Microsoft: Robots Exclusion Protocol: Joining Together to Provide Better Documentation