Google revolutioniert das Crawling – Neuer Google SiteMap Generator

Mit dem neuen Google Sitemap Generator macht Google einen “uralten” Traum der Suchmaschinen wahr. Es sind nicht mehr die Webcrawler, die sich mühsam von Link zu Link durch das Internet arbeiten. Die Erfassung von Webseiten und deren Änderungen findet direkt beim Webserver statt. Vom Webserver werden regelmässig Informationen über Änderungen und neue Seiten an Suchmaschinen übermittelt.

Der normale Weg eines Suchmaschinencrawlers verlief bisher ausschliesslich über Verweise. Irrwege und unnötige Verfolgung von Links waren vorprogrammiert. Effektiver kann die Erfassung und Überprüfung von Webseiten durch den neuen Open Source SiteMap Generator werden. Probleme, die hier nicht näher beschrieben werden, sind allerdings nicht auszuschliessen.

Die Generierung der SiteMaps basiert auf den Logfiles, Dateien die auf dem Server liegen, und der Auswertung von Traffic (Besucherströmen). Auf Basis dieser Daten werden Sitemaps generiert, die an alle Suchmaschinen, welche das Sitemap-Protokoll aktiv unterstützen, übermittelt werden können.

Für jeweils einen Webserver genügt ein SiteMap Generator. Häufig werden in der Praxis mehrere Domains unter einem Webserver verwaltet. Im SiteMap Generator lässt sich die Erstellung der Sitemaps für einzelne Sites konfigurieren, Auch die Parameter sind für jede Site einzeln wählbar.

Sitemaps können für Web, Mobile und CodeSearch erstellt werden. Für Weblogs gibt es eine separate Option, die Blogsuche von Google per Ping von neuen Postings zu unterrichten. Normalerweise hat jedes Weblog eine eingebaute Ping-Funktion. Über den Google SiteMap Generator werden URL in der Datenbank des SiteMap Generators zusammengefasst und übermittelt. Für Blogs wird keine physische SiteMap angelegt.

Privatsphäre

Die vom Sitemap Generator erstellten Dateien unterscheiden sich nicht von anderen Sitemaps, die nach dem Sitemap Protokoll erstellt werden. Die Sitemap enthält keine Informationen über Seitenabrufe oder ähnliche Infos. Der Google Sitemap Generator entfernt automatisch alle Parameter die einem Fragezeichen folgen. Häufig werden z.B. per Formular, sehr persönliche Informationen wie Nutzernamen und Passwort per URL übermittelt. Es soll ausgeschlossen werden, dass solche Informationen unbeabsichtigt übermittelt werden. In der Administrationskonsole können bei Bedarf Parameter eingestellt werden, die übermittelt werden können und sollen.

Webmaster die mit dem SiteMap Generator arbeiten müssen einen Hinweis zum Datenschutz aufnehmen, der die Nutzer darüber informiert, dass auch Teile der URL, die private Informationen enthalten, an Google übermittelt werden.

Sollte sich diese Variante der Erfassung und Überprüfung von Webseiten durchsetzen, würden sich einige Vorteile ergeben.

Für Webmaster bzw. Betreiber von Webservern:
– Crawler müssten keinen unnötigen Traffic auf den Servern verursachen.
– Es würden nur dann Änderungen notiert, wenn sie wirklich anfallen.

Für Suchmaschinen:
– Leichtes Filtern von URL, basierend auf URL-Muster
– Automatische Berechnung bestimmter Meta-Daten wie Änderungszeit und Änderungsfrequenz.
– Updates werden immer dann erfasst, wenn ein Besucher eine Seite aufruft.

Der Google Sitemap Generator funktioniert auf Apache und IIS-Webservern. Aus den Installationsanleitungen lässt sich schliessen, dass der Sitemap Generator nur von einer Person mit Administratorrechten installiert werden kann. Für die grosse Zahl Webmaster, die einen virtuellen Webserver bei ihrem Provider gemietet haben, kommt eine Installation also nicht in Frage. Die Installation und Konfiguration muss in diesem Fall vom Hosting-Provider durchgeführt werden. Nur Webmaster die einen dedizierten Server gemietet haben, verfügen über die notwendigen Rechte (und Pflichten) einer
Serverkonfiguration.

Website mit Möglichkeit zum Download:
Google Sitemap Generator


Posted

in

by

Tags:

Comments

4 responses to “Google revolutioniert das Crawling – Neuer Google SiteMap Generator”

  1. Mario Fischer Avatar

    Hallo Klaus,
    wenn Du schreibst
    “Die Generierung der SiteMaps basiert auf den Logfiles, Dateien die auf dem Server liegen, und der Auswertung von Traffic (Besucherströmen).”
    Bekommt G. dann nicht doch Trafficdaten mit? Und wenn ja, haben wir dann nicht das gleiche Problem wie mit dem Einsatz von G.Analytics – nämlich dass G. die volle Einsicht in den tatsächlichen Traffic einer Site bekommt? Was ja aus SuMa-Optimierungssicht nicht immer die allerbeste Variante ist 😉
    Hast Du dazu nähere Infos?
    Gruß,
    Mario

  2. Dr. Wolfgang Sander-Beuermann Avatar

    Moment mal: wir sollen Google den Zugriff auf alle Logfiles geben??

    Die größte Firma des Internet, für manche “das Internet”, kennt die Logfiles aller Webserver??? Ich dachte, das sei erst für das Jahr 2084 geplant … ;-(

  3. Klaus Avatar
    Klaus

    @ Mario

    Nach der Aussage von Google, wird, obwohl die Trafficdaten ausgewertet werden, eine Sitemap erstellt, die sich nicht von anderen Sitemaps unterscheidet die nach den Richtlinien von http://sitemaps.org/
    erstellt werden.

    Der Open Sorce Code des Sitemap Generators sollte dafür sorgen, dass hier nicht unbeabsichtigt Traffic-Daten übermittelt werden.
    Alle Infos kannst Du auf dieser Seite nachlesen:
    http://googlesitemapgenerator.googlecode.com/svn/trunk/doc/gsg-intro.html

    Zum jetzigen Zeitpunkt glaube ich, dass keine Traffic-Daten übermittelt werden. Google meint:

    “We already already know that you don’t want Google Sitemap Generator to send any private data to Google, and the only information that you’ll be sharing with Google is the Sitemap file!”

    Ich kann mir jedoch gut vostellen, dass in einigen Köpfen der Weg bereits vorgedacht ist, wie man die realen Traffic-Daten übermitteln kann. Die technischen Voraussetzungen sind geschaffen. Bleibt nur die Frage wie man die Übermittlung von Traffic-Daten den Webmastern bzw. Hosting-Providern schmackhaft macht.

  4. Klaus Avatar
    Klaus

    @WSB

    Die URL in der Sitemap werden auf Basis des Traffic bewertet. Zitat aus der zugehörigen Google Group:
    “Yes. this tool has a traffic based rating algorithm. ”
    http://groups.google.com/group/google-sitemap-generator

    Die Inhalte der Logfiles selbst werden derzeit jedoch nicht übermittelt. Aber wie oben schon erwähnt, es ist sicher nur eine Frage der Zeit bis Google ganz offiziell (mit welchem Versprechen auch immer…) die wichtigsten Traffic-Daten an die Google Datenfabriken übermitteln möchte. Die Webmaster werden zu gegebenem Zeitpunkt vermutlich genauso treu und brav der Übermittlung der Daten zustimmen, wie sie es für Google Analytics tun.