Komprimierte Datenübertragung soll den Traffic verringern, welcher durch die MSN-Bots ausgelöst wird. Seiten werden zudem nur dann abgerufen wenn sich seit dem letzten Besuch des Crawlers etwas geändert hat.
Datenkomprimierung
Die Komprimierung der Daten erfolgt über HTTP-Kompression und erlaubt eine schnellere Übertragung der Daten. Ausserdem wird Bandbreite gespart. Voraussetzung ist, der Webserver unterstützt dieses Verfahren. Viele Webmaster mieten einen virtuellen Webserver. Hier ist der Provider in der Pflicht, die Konfiguration des Servers so zu setzen, dass die Komprimierungsverfahren ermöglicht werden. Administratoren kompletter Webserver hingegen können aktiv zur Unterstützung der Komprimierung beitragen. Das Live Search Webmaster Center Blog verweist auf folgende Beiträge, in den die Konfiguration beschrieben wird:
Enabling HTTP Compression (IIS 6.0)
Apache
Compress Web Output Using mod_gzip and Apache
Compress Web Output Using mod_deflate and Apache 2.0.x
Dateiversion
Eine Datei an der keine Änderungen passiert sind, muss nicht heruntergeladen werden, da sie mit der bereits gecrawlten Kopie identisch ist.
Ohne die Datei selbst zu untersuchen funktioniert die Variante “If-modified-since”. Eine Information die vom Webserver gesandt wird. Der Webserver muss entsprechend konfiguriert werden um diese Möglichkeit zu unterstützen. Der MSN-Bot sendet das Datum des letzten Besuches der Seite. Meldet der Server “Keine Änderung”, wird die Datei nicht erneut gecrawlt. Im HTTP-Jargon bedeuetet dies, es wird eine 304 HTTP-Meldung zurückgegeben.
Nutzer des Webbrowser Firefox können mit dem Plug-In Live Headers nachverfolgen welche Header-Signale ein Server sendet. Mit einem normalen Webbrowser alleine sind diese Informationen nicht sichtbar. Microsoft bietet in seinem Live Search Webmaster Center das HTTP Compression and HTTP Conditional Get test tool (Beta)
Empfohlen wird auch das HTTP-Debugging Tool Fiddler.
Nach aussen dokumentiert MSN die Änderungen am MSN-Live Bot mit der Bezeichnung “msnbot/1.1”.
http://blogs.msdn.com/webmaster/archive/2008/02/12/announcing-crawling-improvements-for-live-search.aspx