Slurp unterstützt Wildcards in robots.txt

Der Yahoo! Crawler Slurp erweitert sein Verständnis für Anweisungen in der Datei robots.txt. Platzhalter, sogenannte Wildcards, erlauben weitreichendere Möglichkeiten für Anweisungen in der robots.txt. Schauen wir, was das konkret bedeutet.

Slurp erkennt jetzt die Zeichen * und $.

Ganz “nebenbei” erklärt Priyank Garg (Product Manager, Yahoo! Search), dass “Allow” ebenfalls berücksichtigt wird. In der ursprünglichen Anleitung Web Server Administrator’s Guideto the Robots Exclusion Protocol ist “Allow” nicht vorgesehen. Wird dort aber schon indirekt vermisst, weil die Anweisungen in der robots.txt vereinfacht werden könnten.

Die Bedeutung der Wildcards:

* Platzhalter für eine Zeichenkette, kann an jeder beliebigen Stelle einer URL verwendet werden.

Beispiel:

User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Disallow: /*?sessionid

Das bedeutet:

* Erlaube das Crawlen für alle Verzeichnisse die mit ‘public’, beginnen, wie ‘/public_html/’ oder ‘/public_graphs/’
* Gestatte nicht das Crawlen aller Dateien oder Verzechnisse welche die Ziechenfolge ‘_print’ enthalten, z.B. ‘/card_print.html’ oder ‘/store_print/product.html’
* Gestatte nicht das Crawlen von Dateien mit ‘?sessionid’ in der URL, z.B. ‘/cart.php?sessionid=342bca31’

Ein ‘*’ am Ende ist nicht notwendig. Die beiden nachfolgende Disallow-anwesiungen sind in ihrer Wirkung identisch:

User-Agent: Yahoo! Slurp
Disallow: /private*
Disallow: /private

$’ – Legt das Ende einer URL Zeichenkette fest

Beispiel:

User-Agent: Yahoo! Slurp
Disallow: /*.gif$
Allow: /*?$

Das bedeutet

* Alle Dateien mit der Endung .gif sollen nicht gecrawlt werden.
Ein wichtiger Hinweis:
Ohne ‘$’, werden alle Dateien ausgeschlossen, die irgendwo im URL-Pfad ‘.gif’ enthalten!
* Erlaube alle Dateien die mit einem ‘?’ enden. Dateien deren URL irgendwo ( aber nicht am Ende) ein Fragezeichen enthalten, werden von dieser Erlaubnis nicht beeinflusst.

Das Dollar-Zeichen macht also wirklich nur am Ende einer URL Sinn. Alle evtl. nachfolgenden Symbole in der Anweisung werden ignoriert.

Zur Erinnerung.
Was sagt Google eigentlich zu diesen Möglichkeiten?
Sie werden unterstützt:
I don’t want to list every file that I want to block. Can I use pattern matching?

Der MSNBot unterstützt ebenfalls beide Zeichen. Siehe Punkt: Wie steuere ich, welche Seiten meiner Website indexiert werden?

Die drei wichtigsten Suchmaschinen unterstützen also die Wildcards in der robots.txt.

Yahoo! Search blog: Yahoo! Search Crawler (Yahoo! Slurp) – Supporting wildcards in robots.txt


Posted

in

by

Tags: