Inktomi hat nach eigenen angaben mehr als 1,6 Milliarden Websites im Suchmaschinen-Index.
Doch nicht alles was im Web angeboten wird, läst sich sinnvoll anbieten.
Suchmaschinen möchten relevante Ergebnisse liefern.
Es gilt, ein ausgewogenes Verhältnis zu bilden, zwischen einem möglichst
grossen Index und sehr schnellen Antwortzeiten auf Anfragen.
Kontinuierliche Crawl-Vorgänge durch das gesamte Web, ergeben eine Webmap,
die alle vorhandenen, über Links erfassbaren Webseiten darstellt. Darin sind
eine grosse Zahl Seiten enthalten, die für Suchende nicht interessant sind.
Nach Angaben von Inktomi bestehen rund 30% des Web aus, für die Nutzer, belanglosen
Dateien. Dazu zählen Statistiken und Reports, die nicht für die Allgemeinheit
bestimmt sind.
Weitere 25-30 Prozent sind als irrelevantes Material anzusehen. Das sind Seiten
die nur für eine ganz kleine Nutzerzahl, wie Familienmitglieder und Freunde
bestimmt sind.
Dazu gehören viele private Seiten wie:
"Meine Ferientage bei Tante Adele", "Meine Hobbys" und ähnliche
Webseiten welche die Welt bewegen.
Diese Seiten werden aussortiert. Ebenfalls aussortiert werden doppelte Seiten,
anstössige Inhalte und Seiten die versuchen mit unlauteren Mitteln gute Positionen
im Ranking zu erzielen (Spam).
Inktomi versorgt seine Nutzer aus mehreren Indizies:
Best of Web (BOW) ist der am häufigsten nachgefragte Index und enthält
110 Millionen Webseiten.
Anfragen die nicht mit BOW zu beantworten sind, werden aus dem GEN 3 Index, mit rund 600 Mill. Webseiten, gespeist. GEN 3 steht für
die 3. Generation von Suchsoftware.
Zusätzlich gibt es regionale Indizies, die Anfragen besser bedienen können.
Ein Index versorgt Europa mit 110 Mill. Webseiten, weitere Indizies stehen
jeweils für Japan und Korea zur Verfügung.
Der Index für Europa wird in London bereitgestellt. Dort befindet sich auch
das europäische Hauptquartier.
Viele Anfragen müssen nicht mehr über den Atlantik gesandt werden, der
Hauptindex wird spürbar entlastet. Anfragen die sich nicht aus dem europäischen
Index beantworten lassen, greifen auf den GEN 3 Index zurück. Ein Vorgang
der für die Anwender nicht zu spüren ist.
Auch die Suchmaschine HotBot Deutschland
bedient sich des europäischen Index.
Der Index mit Media-Inhalten weist ca. 4-5 Mill. Einträge auf und wächst
ständig.
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer
Webseiten. Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
______________________________________
21.04.2001
Letzte Änderung:27.01.2003