Die englischsprachige Domain von AltaVista hält eine sehr
nützliche Beschreibung zur Arbeitsweise von AltaVista bereit.
Eine Webseite des Tutorials beschäftigt sich mit den Voraussetzungen
um gut indexiert zu werden:
AltaVista indexiert nicht alles. Features die Webdesigner mit einem
hohen Kostenaufwand für die Seiten produzieren, können
Crawler stoppen. Das heisst diese Seiten werden niemals in den Index
aufgenommen und niemals von den Suchmaschinen gefunden. Für
diese Seiten wird viel Geld ausgegeben und wenig Nutzen erzielt.
Wenn Sie Ihre Aufmerksamkeit darauf lenken, wie Crawler und Suchmaschinen
arbeiten, können sie mehr Traffic mit weniger Kosten erreichen.
Seiten die nur mit Passwort oder irgendeiner Art der Registrierung
aufgerufen werden können, sperren Suchmaschinen aus. Webcrawler
können keine Formulare ausfüllen und werden hier gestoppt.
Die Registration sollte optional gestaltet werden.
Mein Hinweis: Für Webcrawler sollte ein nicht-sichtbarer
Link mit einem unsichtbaren 1-Pixel GIF existieren, der das Formular
zur Registratur oder die Passworteingabe umgeht.
Datenbanken
werden nicht indexiert.
Enthält die Datenbank viel Text sollten Sie erwägen,
diesen umzuwandeln und auf statischen HTML-Seiten zusätzlich
darzustellen. als Hilfsmittel bietet sich das AltaVista
software development kit an.
Dynamische
Seiten
blockieren den Webcrawler. Diese Seiten haben typischerweise ein
Fragezeichen in der URL. Wenn ein Crawler auf solch eine Seite
stösst, wird er den Inhalt erfassen, aber sofort innehalten
und den Links nicht folgen. Der Crawler sieht eine unendliche
Anzahl von Seiten, ein schwarzes Loch das ihn zum Crash bringen
kann.
Active
Server Pages (.asp)
mit einem Fragezeichen, das dem Crawler ausweist, dass es sich
um eine dynamische Site handelt, werden nicht erfasst.
Das
ist übrigens ein Grund warum niemand genau sagen kann wieviel
Seiten das Web hat. Jede dynamische Site hat das Potential für
eine unendliche Zahl von Seiten. Wieviel Millliarden dynamischer
Sites mag es geben ?
Tip für Betreiber von Webserver. Der Webserver Apache macht
es möglich das Fragezeichen oder andere Sonderzeichen aus der
URL zu eleminieren.
Frames
sind ein Hindernis für die Crawler. AltaVista indexiert die
Einzelseiten eines Frameset separat. Trifft ein Suchender über
die Ergebnisseite von AltaVista auf die einzelne Inhaltseite, so
sieht er nur diese Einzelseite, nicht die Gestaltung des ganzen
Frameset. Für die Anmeldung der Seite bei den Suchmaschinen
sollten Sie eine Version ohne Frame erstellen und diese bei AltaVista
anmelden.
Meine Hinweise:
1. Wenn die Inhaltsseiten zusätzlich eine Navigationsleiste
bekommen, die das Navigieren ohne Frame zulassen wird der Besucher
in der Regel auch zurechtkommen.
2. Auf jeder Content-Seite des FrameSet genau einen Link zur Startseite
des Frameset legen, der Besucher muss zur weiteren Navigation auf
die Startseite des Frameset wechseln und kann nun wie vorgesehen
das Frameset navigieren.
3. Ein kleines Java-Script zwingt die Seite in das Frameset.
AltaVista
kann nicht Text indizieren, der in Grafiken enthalten ist. Waren
Sie schon mal auf einer Webseite mit einer riesengrossen Grafik,
die Minuten benötigt um sich aufzubauen mit all den enthaltenen
Worten? Die Suchmaschinen können den Text einfach nicht sehen
ausser der Webmaster benutzt den ALT-Tag um die wichtigsten Worte
aufzunehmen.
Die Bilder selber können für die Image-Suche von AltaVista
indexiert werden.
Text
in Multimedia-Dateien (Audio und Video) kann nicht indexiert werden.
Die Dateien indexiert AltaVista für die MP3/Audio und Video-Suche.
Acrobat-Dateien
(.pdf) werden nicht indexiert. Die Technologie um die Dateien
in ein indizierbares Format zu konvertieren ist schon vorhanden. AltaVista's
Search Intranet Software enthält bereits diese Technologie,
die bald auf der öffentlichen Suchseite verfügbar sein
wird.
Wenn die Inhalte der pdf-Dateien gefunden werden sollen, sollten
sie auch als normale HTML-Dateien zur Verfügung stehen und
diese bei den Suchmaschinen angemeldet werden.
Kommentare werden nicht erfasst, weil sie nicht dazu bestimmt
sind, der Öffentlichkeit gezeigt zu werden.
Technische
Faktoren sind auch zu berücksichtigen:
Gibt es zur Site eine sehr langsame Verbindung oder ist die Seite
sehr komplex, kann der Crawler ein "time out" erhalten,
bevor er die ganze Seite indexiert hat.
Wenn Sie eine Website-Hirarchie besitzen, sollten Sie die wichtigen
Informationen auf die obere Ebene legen. Die Suchmaschine nimmt
an, dass die Informationen in den oberen Ebenen wichtiger sind.
Ein Crawler geht nicht das Wagnis ein, tiefer als 3,4 oder 5 Verzeichnisebenen
einzudringen.
Es
ist hilfreich, eine Seite anzulegen, die eine gute Navigation
zu den anderen Seiten der Page besitzt. Machen Sie es dem Crawler
leicht und nicht schwer, alle internen Links zu finden.
Mein Hinweis: Eine Sitemap ist sehr gut geeignet viele
interne Links aufzunehmen, sowohl zum Nutzen der Crawler als auch
der Website-Besucher.
Schliesslich
sollten Sie einen vollständigen Satz Seiten in einer Form
zur Verfügung stellen, die Blinde lesen können. Die
Blinden sind einige der besten Internet-Nutzer. Sie nutzen reine
Text-Browser und Text-zu-Sprache Konverter und sie sind in der
Lage zu navigieren, wenn ihnen keine Barrieren aufgebaut werden.
Hindernisse für Blinde sind auch Hindernisse für Crawler.
Bilder sollten natürlich mit ALT-Tags versehen werden um
zu erklären was die Bilder darstellen. Ob die Seite behindertengerecht
gestaltet ist, lässt sich mit Bobby
überprüfen.
(ehemaliger)
Link zum Original-Tutorial, Being well indexed:
http://doc.altavista.com/adv_search/ast_haw_wellindexed.shtml
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden
neuer Webseiten.
Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
Erstellt
im Jahr 2000
Letzte Änderung:22.12.2002
Seitenbeginn