Welche Dateiendungen werden von Suchmaschinen indexiert

Suchmaschinen im Internet sollen Webseiten indexieren, darüber herrscht allgemeine Einigkeit. Welche der zahlreichen Dateiformate, die HTML-Text präsentieren, werden wirklich von Suchmaschinen erfasst ?

Im herkömmlichen Sinne sind im Browser aufgerufene Webseiten Hypertext-Dokumente, basierend auf der Hypertext Markup Language, kurz HTML. Darauf basierend wurden ursprünglich HTML-Dokumente vorwiegend mit den Dateiendungen .html und .htm produziert und publiziert. Diese Dokumente dominieren auch heute die Indizies der Suchmaschinen, sind jedoch für viele Belange des Webpublishing unflexibel.

Es gibt Webseiten die erst zum Zeitpunkt ihres Abrufes erzeugt werden, dynamisch. Beispielsweise ist es sinnvoll eine separate Datei für die Navigation einer Webseite zu erstellen um sie jederzeit schnell ändern zu können. Dafür eignen sich unter anderem Server Side Includes, kurz SSI. Webseiten in denen SSI verwendet werden auf .shtm oder .shtml. Ähnliches lässt sich mit der Kombination von Webseiten mit Programmiersprachen wie PHP, Java, u.s.w realisieren. Dateieindungen lauten dann auf .php, .jsp, .asp und so weiter.

Wie die nachfolgende Aufstellung zeigt, sind diese Endungen kein Problem für die grossen Suchmaschinen. Sie verweigern regelmässig (aber nicht immer) dann die Indexierung, wenn der Datei Parameter übergeben werden. Erkennbar an Sonderzeichen wie ?, $, &, %,=.

Sollen URL mit Parameter indexiert werden, sollten Sie den Kontakt mit den Suchmaschinenbetreibern suchen. Über die Paid-Inclusion Programme, also das bezahlte Spidern, sind Suchmaschinenbetreiber zunehmend bereit, dynamische URL mit Sonderzeichen zu akzeptieren.

Für Webverzeichnisse ist es uninteressant, auf welcher technischen Grundlage die Seiten erstellt wurden. Deshalb ist eine Übersicht nur für Suchmaschinen notwendig, die den Index automatisch erstellen.

Nachfolgend werden wichtigen Suchmaschinenindizies akzeptierte Dateiendungen zugeordnet. Dabei werden nur Dateiendungen berücksichtigt, die einen HTML-Text für den Betrachter ausgeben. Es gibt zahlreiche andere Dokumentformen wie Postscript, PDF, diverse Office-Formate und Textdateien die von einigen Suchdiensten auch indexiert werden, aber keine HTML-Strukturen aufweisen. Ebenso unberücksichtigt bleiben in dieser Aufstellung sämtliche Multimedia-Formate wie Bilder, Grafiken, Musikdateien,…

Suchmaschinen akzeptierte Dateiendungen
Altavista (.com und .de) .html, .htm, .shtml, .shtm, .php, ph3, .php3, .php4, .asp, .dsp, jsp, jsp10, .cfm, .ssi, .fcg, .fcgi, .pl, .htx
AllTheWeb (Lycos, T-Online, Tiscali) .html, .htm, .shtml, .shtm, .phtml, .phtm, .php, php3, .php4, .asp, .aspx, jhtml, .jhtm, .jsp, .jsp10, .fcg, .fcgi, .cgi, .pl, .htx, .xml
Fireball(eigene Angaben) html, .htm, .shtml, .shtm, .asp, .jsp, .jsp10, .dsp, .ssi, .fcg, .fcgi, .cgi, .pl, .php, .php3 und .ph3
Google
(Yahoo!, WEB.DE)
.html, .htm, .shtml, .shtm, .php, .php3, .php4, .asp, .dsp, .jsp, .jsp10, .hdml, .xhdml, , .xml, .cfml, .cfm, .ssi, .fcg, .fcgi, .cgi, .pl, .htx
Inktomi
(HotBot, AOL, MSN,…)
.html, .htm, .shtml, .shtm, .php, .php3, .php4, .phtml, .pl, .asp,
Teoma
(Ask Jeeves)
.html, htm, shtml, shtm, .php, .php3, .php4, .phtml, .phtm, .asp, .dsp, .jsp, .ssi, .xml, .cfm, .cfml, .htx
WiseNut ,html, .htm, .shtml, .shtm, .php, .php3, .php4, .phtml, .phtm, .asp, .jsp, .jhtml, .ssi, .xml, .cfm, .cfml, .htx, .pl, .fcg, .fcgi

Ist in der Tabelle eine Dateiendung nicht angegeben, muss das nicht zwangsläufig heissen, dass sie nicht indexiert wird.

Comments

Leave a Reply