Mit dem X-Robot Tag der per HTTP-Header übertragen wird, bekommen Webmaster eine weitere Möglichkeit an die Hand, den Zugriff auf einzelne Webseiten zu steuern.
Bereits mit den Robots Meta-Tags lässt sich regeln, auf welche Seiten Crawler von Suchmaschinen nicht zugreifen bzw. deren Links nicht verfolgen sollen. In die Daten des HTTP-Header lässt sich diese Regelung ebenfalls einbauen. Vorteil:
1. Über den HTTP-Header können Anweisungen für sämtliche Dateitypen übertragen. Dazu gehören neben HTML u.a. PDF- Dateien, Dokumente aus Textverarbeitungssystemen, Tabellenkalkulationen, Präsentationen, Videos usw.
2. Die Seite muss nicht komplett aufgerufen werden um zu übermitteln ob sie erfasst werden soll. Werden diese Infos bereits mit dem HTTP-Header übertragen, kann evtl. die Seite unberührt bleiben. Das spart Zeit und Ressourcen für Crawler und Webserver.
Die HTTP-Direktiven sehen im Einzelnen wie folgt aus:
X-Robots-Tag: NOINDEX – Die Seite wird nicht erfasst, gelangt nicht in die Ergebnislisten von Yahoo!
X-Robots-Tag: NOFOLLOW – Die Seite wird erfasst, aber die Links nicht verfolgt
X-Robots-Tag: NOARCHIVE – Im Cache der suchmaschine wird keine Kopie der Seite abgelegt
X-Robots-Tag: NOSNIPPET – Es wird nicht automatisch eine zusammenfassende Kurzbeschreibung der Seite gebildet
Nach Google ist Yahoo! die zweite Suchmaschine, welche diese Optionen im HTTP-Header anbietet.
Yahoo! Search Support for X-Robots-Tag Directive to Simplify Webmaster’s Control and Weather Update
Siehe auch Beitrag: Verfallsdatum für Websites verkünden
Weitere Verweise zum HTTP-Protokoll:
Wikipedia – Hypertext Transfer Protokoll
W3C – Header Fields Informations
Firefox Add-On: Live HTTP-Headers