Suchmaschinen – Mehr Gemeinsamkeiten für Robots-Richtlinien

Mehr Klarheit für Webmaster bringt die jüngste Initiative der drei grossen Suchmaschinen von Yahoo!, Google und Microsoft. Gemeinsame Regeln für die Datei robots.txt und robots Meta-Tags bringen mehr Übersichtlichkeit und erleichtern die Arbeit. Nachfolgend die Details.

Alle drei Suchmaschinen beziehen sich auf das seit 1994 existierende Robots Exclusion Protocol (REP), ohne jedoch genau Quellenangaben zu liefern. Im Laufe der Jahre haben sich die Möglichkeiten zur Verwendung von Robots.txt und robots Meta-Tags erweitert. Suchmaschinen haben ihre eigenen Tags entwickelt, mit denen sich ihre Crawler steuern lassen. Es gibt jedoch einige Gemeinsamkeiten, zu denen sich nun Google, Microsoft und Yahoo! kürzlich bekannten.

Richtlinien für den Einsatz in der Datei robots.txt

RICHTLINIE	WIRKUNG	EINSATZMÖGLICHKEITEN UND BEISPIELE
Disallow	Veranlasst den Crawler, die Site nicht zu indexieren – die Datei robots.txt der Site muss jedoch gecrawlt werden, um diese Anweisung zu finden. Die per Disallow gesperrten Seiten werden jedoch nicht gecrawlt.	‘No Crawl’-Seite einer Site. Diese Anweisung ist die Default-Syntax und bewahrt (einen) bestimmte(n) Pfad(e) einer Site davor, gecrawlt zu werden. Beispiele: Disallow:/ Gesamte Präsenz soll nicht gecrawlt werden *Disallow: /?** Seiten, die ein Fragezeichen in der URL enthalten, sollen nicht gecrawlt werden.
Allow	Sagt dem Crawler, welche Seiten der Site indexiert werden sollen, so dass Sie diese Anweisung in Kombination mit Disallow verwenden können.	Wurde der Zugriff nicht durch Disallow eingeschränkt, ist er erlaubt und muss nicht separat erlaubt werden. Die Anwendung von Allow ist vor allem im Zusammenhang mit Disallow-Anweisungen nützlich, durch die große Teile einer Site mit Disallow gesperrt sind ausser eines kleinen Teils, der darin eingeschlossen ist. Beispiel: Disallow: /verzeichnis/ Allow: /verzeichnis/datei.htm
$ Wildcard Unterstützung	Sagt dem Crawler, alles ausgehend vom Ende einer URL zu suchen – bezieht sich auf eine große Anzahl von Verzeichnissen, ohne bestimmt Seiten anzugeben.	‘No Crawl’-Dateien mit bestimmten Mustern, z. B. Dateien eines bestimmten Dateityps, der immer eine bestimmte Erweiterung hat, wie etwa pdf. Beispiel: *Disallow: /.pdf$ Alle Dateien mit der Endung .pdf sollen nicht gecrawlt werden Disallow: /?* *Allow: /?$** Es sollen alle Dateien nicht gecrawlt werden, die ein Fragezeichen enthalten. Dateien, welche direkt mit einem Fragezeichen enden, sollen jedoch indexiert werden.
* Asterisk-Wildcard Unterstützung	Sagt dem Crawler, dass er nach einer Sequenz von Zeichen suchen soll.	‘No Crawl’-URLs von einem bestimmten Muster, z. B. Disallow -URLs mit Session-IDs oder anderen überflüssigen Parametern. Beispiel: *Disallow: /geheim/** alle verzeichnisse die mit geheim beginnen ( /geheimnis/, /geheim-halten/ usw.) sollen vom Crawling ausgeschlossen werden
Sitemaps Location	Sagt dem Crawler, wo er die Sitemaps finden kann.	Auf andere Orte verweisen, an denen sich Feeds befinden, die Crawlern helfen, URLs auf einer Site zu finden. Beispiel: Sitemap: http://www.meine-website.de/sitemap.xml

HTML Meta-Richtlinien

RICHTLINIE	WIRKUNG	EINSATZMÖGLICHKEITEN UND CODE-BEISPIEL
NOINDEX META Tag	Veranlasst den Crawler, eine bestimmte Seite nicht zu indexieren.	Seiten sollen nicht indexiert werden. Dies ermöglicht es, dass Seiten, die gecrawlt wurden, nicht in den Index aufgenommen werden. <meta name=”robots” content=”noindex”>
NOFOLLOW META Tag	Sagt dem Crawler, dass er einem Link zu anderem Inhalt auf einer bestimmten Seite nicht folgen soll.	Schützt Bereiche, die öffentlich zugänglich sind, davor, von Spammern zu Linkzwecken missbraucht zu werden. Indem Sie NOFOLLOW einsetzen, lassen Sie den Robot wissen, dass alle Links dieser Seite nicht für das Ranking berücksichtigt werden sollen. PageRank wird nicht weitergegeben. <meta name=”robots” content=”nofollow”>
NOSNIPPET META Tag	Sagt dem Crawler, dass Snippets für eine bestimmte Seite in den Suchergebnissen nicht anzeigt werden sollen.	Es soll kein Snippet für eine Seite in den Suchergebnissen angezeigt werden. <meta name=”robots” content=”nosnippet”>
NOARCHIVE META Tag	Sagt der Suchmaschine, dass für eine bstimmte Seite kein “Im Cache” Link angezeigt werden soll.	Den Nutzern soll keine Kopie der Seite im Cache der Suchmaschine zur Verfügung gestellt werden. <meta name=”robots” content=”noarchive”>
NOODP META Tag	Sagt dem Crawler, dass für eine bestimmte Seite nicht der Titel und das Snippet des Open Directory Projects verwendet werden soll.	Für eine bestimmte Seite soll nicht der Titel und das Snippet aus dem ODP (Open Directory Project) verwendet werden. <meta name=”robots” content=”noodp”>

Weiterführende Beiträge:
Suchmaschinen und die Datei robots.txt
Meta-Tags für Suchmaschinen und Browser

Beiträge der beteiligten Suchmaschinenbetreiber:
Yahoo!: One Standard Fits All: Robots Exclusion Protocol for Yahoo!, Google and Microsoft
Google: Verbesserungen des Robots-Exclusion Protokolls
Microsoft: Robots Exclusion Protocol: Joining Together to Provide Better Documentation