Google Sitemaps

Google bietet einen neuen Dienst für Webmaster, die Google Sitemaps. Zunächst bezeichnet Google die Sitemaps als Experiment . Mit Sitemaps werden die URL einer Website komplett bereitgestellt um die Suchmaschinen darauf aufmerksam zu machen. Argumente für die Sitemap ist eine umfassende Information der Google Suchmaschine über den eigenen Seitenbestand und damit eine bessere Auffindbarkeit der Webpräsenz, aktuellere Ergebnisse, und effektivere Erfassung der Seiten.

Die Sitemap ist derzeit ein Experiment im Beta-Stadium und dient zur Steuerung der Google-Crawler. Diese können anhand der Sitemap feststellen welche Seiten vorhanden sind und welche kürzlich geändert wurden. Damit ist es nicht mehr notwendig bei jedem Durchlauf jede Datei aufzurufen. Der Crawler kann sich auf neue und geänderte Dateien beschränken. Das vermindert die Serverlast und erhöht erheblich die Effektivität der Erfassung von Webseiten.

Technik
Google unterstützt das Open Archives Initiative (OAI) Protocol for Metadata Harvesting (PMH), das im Bibliothekswesen verbreitet ist. Möglich sind auch RSS 2.0 und Atom 0.3 bei Verwendung der Felder link/lastMod. Notfalls wird eine reine Textliste akzeptiert, die ausschliesslich URL enthält.

Im Prinzip ist es egal mit welchen Werkzeugen diese Sitemaps erstellt werden. Wichtig ist deren syntaktische Korrektheit. Einfacher ist es, die Erfassung der Webseiten mit dem bereitgestellten Site Generator als Python-Script durchzuführen. Die Korrektheit der ausgegebenen XML-Datei ist damit automatisch gegeben. Der Webserver auf dem das Site Generator Script installiert wird, muss Python ab Version 2.2 unterstützen. Zusätzlich ist es sinnvoll einen Cronjob zu verwenden, da dieser zeitgesteuert die Aktualisierung der Sitemap veranlassen kann. Nutzer die sich ein Google-Konto einrichten oder bereits darüber verfügen ( z.b. als Nutzer von GMail, Google Groups, Google Alert, Google Suchprotokoll oder Froogle-Einkaufsliste) können angeben, in welchen Zeiträumen die Sitemap vom Crawler besucht werden soll. Die Sitemap wird als UTF codiertes XML-Dokument ausgegeben. Google geht davon aus, dass das Site Generator Script nicht von allen Websitebetreibern verwendet werden kann und ruft dazu auf, eigene Scripte zu schreiben und diese einzureichen. Es ist also wahrscheinlich, dass es zukünftig mehrere Scripte für unterschiedliche Anwendungsfälle geben wird. Wichtig ist, die Informationen der letzten Änderungen einfliessen zu lassen. Webserver können zwar im Prinzip die last-modified Header-Angabe übermitteln, doch praktisch sind damit zahlreiche Probleme verbunden. Im Zeitalter des Massen-Hostings haben viele Nutzer keinen Einfluss auf die Einstellungen des Webserver. Eine Sitemap kann jeder Website-Betreiber erstellen.

Fazit
Die Sitemap ist ein erster wichtiger Schritt um die Effektivität der Erfassung von Webseiten zu verbessern. Im Idealfall würde jeder Webserver eine Information an Suchmaschinen bzw. einen zentralen Dienst senden, ob und welche Inhalte sich geändert haben. Die Suchmaschinen könnten dann zur Laufzeit Änderungen und Neuigkeiten erfassen. Ganz so ideal ist Google Sitemap zwar nicht, doch ein Weg zu mehr Effektivität. Davon profitieren Website-Betreiber, Suchmaschinen und Suchmaschinennutzer gleichermassen. Vielleicht schaffen andere Suchmaschinenbetreiber anhand dieser Informationen ebenfalls die Aufnahme und Aktualisierung von Webseiten zu verbessern.

Google Sitemaps


Posted

in

by

Tags:

Comments

One response to “Google Sitemaps”

  1. […] 228;ßig besucht, jedoch nicht aufgenommen hatte. Da es ja sehr verschiedene Meinungen zum Nutzen von Google Sitemaps gibt, wartet ich erstmal ab, wie sich die Sache entwickelt. […]