Dynamische Webseiten für Suchmaschinen lesbar machen
Warum erfassen Suchmaschinen keine dynamischen Webseiten ?
Was kann man dagegen tun ?
Vorzugsweise sind dynamische Webseiten aus Datenbanken gemeint, aber auch alle
anderen zur Laufzeit erzeugten, aus ursprünglich verschiedenen Dateien generierte
Webseiten.
Zunächst soll geklärt werden warum Suchmaschinen keine dynamischen
Webseiten erfassen wollen.
1. Der Inhalt von dynamischen Seiten kann sich sehr schnell ändern.
Bereits bis zur Aufnahme in den Suchmaschinenindex kann sich der Inhalt der Seite
geändert haben oder der Link ist nicht mehr gültig.
Jeder der oftmals Suchmaschinen zur Recherche benutzt kennt das Problem, dass
Webseiten einer Ergebnisliste praktisch nicht mehr erreichbar ist. Dynamische
Seiten heissen nicht nur so, sondern sind es auch. Beruhen Sie auf Datenbanken
kann sich Ihr Inhalt innerhalb von Stunden ändern oder sie verschwinden
ganz, weil es diesen Artikel nicht mehr gibt.
Es gibt allerdings auch sehr viel dynamisch erzeugte Webseiten die Ihren Inhalt
genausolange behalten wie statische Seiten. Diese Webseiten sind von den Suchmaschinenbetreibern
sehr benachteiligt.
2. Mit dem Datenumfang von Datenbanken sind Suchmaschinen schlichtweg überfordert.
Selbst die Globalplayer der Suchmaschinen sind nicht in der Lage, die Gesamtheit
aller statischen Webseiten zu erfassen. Nach einer Schätzung der Firma Bright
Planet, ist das Deep Web mind. 500 mal grösser als das Surface Web.
Da die Studie im wesentlichen die
US-amerikanischen Websites beobachtete, ist einleuchtend, dass weltweit ein sehr
viel grösseres Potential vorhanden sein muss, welches rasant wächst.
Suchdienste sind technisch und personell überfordert, derart grosse
Datenmengen im eigenen Index zu erfassen, geschweige denn, ständig aktuell
zu halten.
3. Spider können sich "verlaufen"
Die Spider der Suchmaschinen sind darauf ausgerichtet Inhalte von Webseiten zu
erfassen und über Hyperlinks die folgenden Webseiten zu erfassen.
Da die Spider kein Navigationssystem besitzen, kann es bei Webseiten mit tiefen
Verzeichnisstrukturen Probleme geben. Es kann sein, dass der Spider sich "verläuft",
nicht alle Seiten erfasst und nicht mehr zurück zur Startseite findet.
Deshalb werden Webseiten nur bis max. 5 oder 6 Verzeichnisebenen intensiv gespidert,
einige Spider gehen sogar nur bis zur 2. Verzeichnisebene.
4. Spider können nicht die Gebrauchsanweisung lesen
Datenbanken sind in der Regel für den Gebrauch durch Menschen geschaffen,
diese erhalten eine kurze Einweisung zum Umgang.
Nachfolgend eine interessante Information, welche die
Problematik veranschaulicht.
Ein unerfahrener Spider begab sich in eine Shop-Datenbank, um sie zu indizieren.
Sicher kein Spider von einem grossen Suchdienst.
Der Spider "wanderte" über die Hyperlinks durch die Datenbank.
Dabei erfasste er auf jeder Warenseite den Link zum Warenkorb und füllte
den Warenkorb kontinuierlich mit sämtlichen Artikeln.
Dieser Belastung war der hostende Server nicht gewachsen, er "schmierte ab".
5. Die Relevanz ist in Gefahr
Einige Suchmaschinenbetreiber glauben, dass zahlreiche dynamische Seiten im Suchmaschinenindex
die Relevanz der Ergebnisse erheblich verschlechtern würden.
Wie erkennen Spider dass es sich um dynamische Inhalte handelt ?
- Die URL einer dynamischen Seiten enthält Sonderzeichen: ?, &, %, =
- Dynamische Webseiten haben beispielsweise folgende Endungen: .asp, .php, .jsp
Solange dynamische Seiten keine Parameter übergeben kommen Suchmaschinen
ziemlich gut mit dynamischen Webseiten zurecht. Siehe auch Beitrag: Welche
Dateiendungen akzeptieren Suchmaschinen?
Es werden zwar von Google und Inktomi (Yahoo!,
Lycos, Altavista...) dynamische Webseiten erfasst, deren Anzahl
ist aber begrenzt und Websitebetreiber haben auf die Indexierung in
der Regel keinen Einfluss. Über einen experimentalen Status werden diese
Bemühungen nicht hinausgehen, denn Suchmaschinen sind technisch und
finanziell nicht in der Lage, alle dynamischen Webseiten zu erfassen.
Zunehmend bieten Suchmaschinen über Paid-Inclusion Programme Websitebetreibern
an, dynamische Inhalte zu erfassen, wenn dafür bezahlt wird.
Wie können dynamische Inhalte bekannt gemacht werden?
1. Statische Webseiten erstellen,
die in kompakter Form wesentliche Inhalte des dynamischen Angebots wiederspiegeln.
Diese Seiten sind sozusagen das Schaufenster Ihres Angebotes, egal ob es sich
nun um einen Shop oder andere Angebote handelt. Einige Links von diesen Seiten
führen zum eigentlichen Inhalt. Die statischen Webseiten werden ganz normal
in Suchmaschinen angemeldet.
Alternativ könnte eine Weiterleitung auf das dynamische Angebot mit einem
Refresh-Tag erzeugt werden.
2. URL Rewriting
Dieser Tipp ist ziemlich tricky und nur für technisch Interessierte mit Webserver-Erfahrung.
2.1 Sind die Webseiten auf einem Apache Webserver gehostet, kann die URL in Laufzeit
neu geschrieben werden. Die neue URL enthält keine Sonderzeichen und ist
damit für den Spider erfassbar.
Das Modul mod_rewrite
(Anleitung in deutsch: Schwarze
Magie) ermöglicht auf dem Webserver
Apache die vollständige
Manipulation der URL und viele weitere Operationen, wie beispielsweise, bestimmten
Spidern den Zugang zu verbieten.
2.2 ASP, JSP, JHTML-Websites (IIS-Server)
Bei XDE gibt es einen Filter XQASP der die Umsetzung der URL in eine für
Suchmaschinen lesbare Form erledigt. XQASP
Dieser Beitrag von Carsten Wawer beschreibt deutschsprachig eine Lösung für den
IIS: URL Rewriting am IIS
2.3 Das kostenlose Content-Managment-System phpCMS verfügt über
den Baustein Cache-Modul, der den sogenannten Stealth-Mode enthält. Dieser
sorgt dafür, dass die php-Seiten in der Adresszeile des Browser ganz normal
auf .htm oder .html enden. phpCMS
2.4 Nach einem Bericht der Zeitschrift Computerwoche ist das Content-Managment-System
Vignette Storyserver ebenfalls
für die URL-Manipulation geeignet.
Das Rewriting sollte nicht unbedingt für ständig wechselnde Datenbankinhalte
verwendet werden. Sinnvoll ist es für dynamische Webseiten, deren Inhalte
sich nicht öfter ändern,
als die von statischen Webseiten.
2.5 IP-Umleitung
Wer nur einen virtuellen Webserver besitzt, kann auf seinem Windows-PC einen Apache-Webserver
aufsetzen. Mit der Umleitung einer statischen IP-Adresse kann die Datenbank auf
dem eigenen PC benutzt werden.
Als Hilfsmittel dient ein kostenloses Tool von Jens Börner, verfügbar
in der @-web Toolbox: SetRedirect
2.6 PHP Script benutzen
In der folgenden Quelle wird von Till Quack beschrieben, wie Nutzer von dynamischen
PHP-Webseiten, statische URL erzeugen können. How to succeed
with URLS