rel=”canonical” im HTTP-Header übergeben

Werden im Webangebot mehrere Seiten mit gleichem oder fast identischem Inhalt abglegt, so möchten Suchmaschinen gerne eine Information, welche Version bevorzugt werden soll. Dafür wurde im Jahr 2009 die Angabe einer einzigartigen, kanonischen URL eingeführt. Bisher wurde rel=”canonical” vorzugsweise im Head-Bereich der HTML-Datei verwendet. Google verarbeitet den rel=”canonical” Link nun auch, wenn die Angabe serverseitig im Header der Datei übermittelt wird.

Die kanonische Angabe in der HTML-Datei wurde von geschickten Hackern missbraucht um mit rel=”canonical” eine Weiterleitung auf völlig andere Inhalte zu realisieren. Es dürfte zumindest eine Stufe schwieriger sein, die Angaben im Header des Servers zu manipulieren.

Das Google Webmaster Blog geht aktuell nicht auf die Hacking-Ereignisse ein. “Wir haben auf Euer Feedback gehört” heisst es. Anhand einer PDF-Datei, welche inhaltlich gleich mit dem passenden HTML-Dokument ist, wird ein Beispiel gezeigt:

GET /white-paper.pdf HTTP/1.1 Host: www.example.com (...restliche HTTP request header...) HTTP/1.1 200 OK Content-Type: application/pdf Link: <http://www.example.com/white-paper.html>; rel="canonical" Content-Length: 785710 (... restliche HTTP response header...)

Das Link-Header Element wird derzeit nur für die Websuche unterstützt.

Manipulation des HTTP Headers

Sehr viele Webangebote werden auf virtuellen Servern gehostet. Das bedeutet, Webmaster haben keinen Zugriff auf die Serverkonfiguration. Soweit es vom Webhoster geduldet wird, lassen sich zahlreiche Manipulationen über die Datei .htaccess realisieren. Eine nützliche Quelle für die Arbeit mit der Datei .htaccess findet sich auf der Webpräsenz von Ask Apache: htaccess Tricks for Webmaster

Serverseitige Scriptsprachen wie PHP sind ebenfalls in der Lage den HTTP-Header zu verändern.
Weitere Erläuterungen in der Google Webmaster Tools Hilfe:

Über rel=”canonical”

Autorisierung

Posted

20. July, 2011

Google, Webmaster/SEO

Klaus Patzwaldt

Tags:

Duplicate Content, kanonische URL, rel=”canonical”, URL-Rewriting