Dynamische Webseiten für Suchmaschinen lesbar machen

Warum erfassen Suchmaschinen keine dynamischen Webseiten ? Was kann man dagegen tun ?

Vorzugsweise sind dynamische Webseiten aus Datenbanken gemeint, aber auch alle anderen zur Laufzeit erzeugten, aus ursprünglich verschiedenen Dateien generierte Webseiten.
Zunächst soll geklärt werden warum Suchmaschinen keine dynamischen Webseiten erfassen wollen.

1. Der Inhalt von dynamischen Seiten kann sich sehr schnell ändern.
Bereits bis zur Aufnahme in den Suchmaschinenindex kann sich der Inhalt der Seite geändert haben oder der Link ist nicht mehr gültig.

Jeder der oftmals Suchmaschinen zur Recherche benutzt kennt das Problem, dass Webseiten einer Ergebnisliste praktisch nicht mehr erreichbar ist. Dynamische Seiten heissen nicht nur so, sondern sind es auch. Beruhen Sie auf Datenbanken kann sich Ihr Inhalt innerhalb von Stunden ändern oder sie verschwinden ganz, weil es diesen Artikel nicht mehr gibt.
Es gibt allerdings auch sehr viel dynamisch erzeugte Webseiten die Ihren Inhalt genausolange behalten wie statische Seiten. Diese Webseiten sind von den Suchmaschinenbetreibern sehr benachteiligt.

2. Mit dem Datenumfang von Datenbanken sind Suchmaschinen schlichtweg überfordert.
Selbst die Globalplayer der Suchmaschinen sind nicht in der Lage, die Gesamtheit aller statischen Webseiten zu erfassen. Nach einer Schätzung der Firma Bright Planet, ist das Deep Web mind. 500 mal grösser als das Surface Web.
Da die Studie im wesentlichen die US-amerikanischen Websites beobachtete, ist einleuchtend, dass weltweit ein sehr viel grösseres Potential vorhanden sein muss, welches rasant wächst.
Suchdienste sind technisch und personell überfordert, derart grosse Datenmengen im eigenen Index zu erfassen, geschweige denn, ständig aktuell zu halten.

3. Spider können sich “verlaufen”
Die Spider der Suchmaschinen sind darauf ausgerichtet Inhalte von Webseiten zu erfassen und über Hyperlinks die folgenden Webseiten zu erfassen.
Da die Spider kein Navigationssystem besitzen, kann es bei Webseiten mit tiefen Verzeichnisstrukturen Probleme geben. Es kann sein, dass der Spider sich “verläuft”, nicht alle Seiten erfasst und nicht mehr zurück zur Startseite findet. Deshalb werden Webseiten nur bis max. 5 oder 6 Verzeichnisebenen intensiv gespidert, einige Spider gehen sogar nur bis zur 2. Verzeichnisebene.

4. Spider können nicht die Gebrauchsanweisung lesen
Datenbanken sind in der Regel für den Gebrauch durch Menschen geschaffen, diese erhalten eine kurze Einweisung zum Umgang.

Nachfolgend eine interessante Information, welche die Problematik veranschaulicht.
Ein unerfahrener Spider begab sich in eine Shop-Datenbank, um sie zu indizieren. Sicher kein Spider von einem grossen Suchdienst.
Der Spider “wanderte” über die Hyperlinks durch die Datenbank. Dabei erfasste er auf jeder Warenseite den Link zum Warenkorb und füllte den Warenkorb kontinuierlich mit sämtlichen Artikeln.
Dieser Belastung war der hostende Server nicht gewachsen, er “schmierte ab”.

5. Die Relevanz ist in Gefahr
Einige Suchmaschinenbetreiber glauben, dass zahlreiche dynamische Seiten im Suchmaschinenindex die Relevanz der Ergebnisse erheblich verschlechtern würden.

Wie erkennen Spider dass es sich um dynamische Inhalte handelt ?
– Die URL einer dynamischen Seiten enthält Sonderzeichen: ?, &, %, =
– Dynamische Webseiten haben beispielsweise folgende Endungen: .asp, .php, .jsp

Solange dynamische Seiten keine Parameter übergeben kommen Suchmaschinen ziemlich gut mit dynamischen Webseiten zurecht. Siehe auch Beitrag: Welche Dateiendungen akzeptieren Suchmaschinen?

Es werden zwar von Google und Inktomi (Yahoo!, Lycos, Altavista…) dynamische Webseiten erfasst, deren Anzahl ist aber begrenzt und Websitebetreiber haben auf die Indexierung in der Regel keinen Einfluss. Über einen experimentalen Status werden diese Bemühungen nicht hinausgehen, denn Suchmaschinen sind technisch und finanziell nicht in der Lage, alle dynamischen Webseiten zu erfassen.

Zunehmend bieten Suchmaschinen über Paid-Inclusion Programme Websitebetreibern an, dynamische Inhalte zu erfassen, wenn dafür bezahlt wird.

Wie können dynamische Inhalte bekannt gemacht werden?

1. Statische Webseiten erstellen,
die in kompakter Form wesentliche Inhalte des dynamischen Angebots wiederspiegeln. Diese Seiten sind sozusagen das Schaufenster Ihres Angebotes, egal ob es sich nun um einen Shop oder andere Angebote handelt. Einige Links von diesen Seiten führen zum eigentlichen Inhalt. Die statischen Webseiten werden ganz normal in Suchmaschinen angemeldet.

Alternativ könnte eine Weiterleitung auf das dynamische Angebot mit einem Refresh-Tag erzeugt werden.

2. URL Rewriting
Dieser Tipp ist ziemlich tricky und nur für technisch Interessierte mit Webserver-Erfahrung.

2.1 Sind die Webseiten auf einem Apache Webserver gehostet, kann die URL in Laufzeit neu geschrieben werden. Die neue URL enthält keine Sonderzeichen und ist damit für den Spider erfassbar.
Das Modul mod_rewrite (Anleitung in deutsch: Schwarze Magie) ermöglicht auf dem Webserver Apache die vollständige Manipulation der URL und viele weitere Operationen, wie beispielsweise, bestimmten Spidern den Zugang zu verbieten.

2.2 ASP, JSP, JHTML-Websites (IIS-Server)

  • Bei XDE gibt es einen Filter XQASP der die Umsetzung der URL in eine für Suchmaschinen lesbare Form erledigt.
    XQASP
  • Dieser Beitrag von Carsten Wawer beschreibt deutschsprachig eine Lösung für den IIS:
    URL Rewriting am IIS
  • Eine Lösung beschreibt die Movie-Gazette:
    Making Dynamic URLs Static

2.3 Das kostenlose Content-Managment-System phpCMS verfügt über den Baustein Cache-Modul, der den sogenannten Stealth-Mode enthält. Dieser sorgt dafür, dass die php-Seiten in der Adresszeile des Browser ganz normal auf .htm oder .html enden.
phpCMS

2.4 Nach einem Bericht der Zeitschrift Computerwoche ist das Content-Managment-System Vignette Storyserver ebenfalls für die URL-Manipulation geeignet.

Das Rewriting sollte nicht unbedingt für ständig wechselnde Datenbankinhalte verwendet werden. Sinnvoll ist es für dynamische Webseiten, deren Inhalte sich nicht öfter ändern, als die von statischen Webseiten.

2.5 IP-Umleitung
Wer nur einen virtuellen Webserver besitzt, kann auf seinem Windows-PC einen Apache-Webserver aufsetzen. Mit der Umleitung einer statischen IP-Adresse kann die Datenbank auf dem eigenen PC benutzt werden.
Als Hilfsmittel dient ein kostenloses Tool von Jens Börner, verfügbar in der @-web Toolbox:
SetRedirect

2.6 PHP Script benutzen
In der folgenden Quelle wird von Till Quack beschrieben, wie Nutzer von dynamischen PHP-Webseiten, statische URL erzeugen können.
How to succeed with URLS

Hilfreich ist auch der Beitrag von Avi Rappoport (englisch), einschliesslich der Verweise zu weiteren Anleitungen: Generating Simple URLs for Search Engines

Comments

Leave a Reply