Nutch – Open Source Suchmaschine

Nutch – Open Source Suchmaschine
Alle wichtigen Suchmaschinen im Internet werden kommerziell betrieben und sind von kommerziellen Interessen beeinflusst. Dem soll eine freie, transparente Suchmaschine entgegenstehen – Nutch.

Die Zahl ernsthaft nutzbarer Suchmaschinen im Internet sinkt, einzelne Suchmaschinen erhalten durch ihre hohe Reichweite ein immer grössere Macht. Was hinter den Kulissen der Suchmaschinen passiert, bleibt den Nutzern weitgehend verborgen.

Nutch geht davon aus, dass nur einer Open Source (Offener Programmcode) Suchmaschine vertraut werden kann, da sie unbeeinflusste Ergebnisse liefert. Aufnahme von Webseiten gegen Bezahlung, wie sie bei vielen wichtigen Suchmaschinen üblich ist, soll es bei Nutch nicht geben.

Zielstellung der Suchmaschine Nutch

Nutch möchte weltweit in der obersten Liga der Suchmaschinen mitspielen. Dementsprechend lauten die von Nutch selbst formulierten Anforderungen:

  • Erfassung von mehreren Milliarden Webseiten pro Monat
  • Aufrechterhaltung eines Index für diese Seiten
  • Diesen Index bis zu 1000 mal pro Sekunde durchsuchen
  • Sehr hohe Qualität der Suchergebnisse
  • Betreiben mit minimalen Kosten

Selbst eine Open Source Suchmaschine kommt nicht ohne finanzielle Unterstützung aus. Overture Research hat Hardware bereitgestellt und unterstützt die Entwicklung. Das Internet Archiv ist Hosting Provider.

Entwicklungsstand der Suchmaschine Nutch

Im Juni 2003 wurden rund 100 Millionen Webseiten auf einem Demo-System erfasst. Es steht jedoch nicht genügend Hardware zur Verfügung um das System für die Öffentlichkeit zugänglich zu machen.
Derzeit wurde der Quellcode vollständig in Java programmiert.

Fazit

Ob Nutch sich zu einer ernsthaften Alternative für derzeit dominierende Suchmaschinen entwicklen kann, muss sich zeigen. Gerade der kommerzielle Aspekt, der anderen Suchmaschinen angelastet wird, ist für Nutch eine wichtiger Prüfstein. Ein derartig gross angelegtes Projekt benötigt solide Einnahmequellen.

Die Abhängigkeit von Sponsoren erhöht die Gefahr von äusseren Einflüssen für das Projekt. Die Offenlegung des Quellcodes birgt ebenfalls Risiken mit sich, da auch die Rankingkriterien offengelegt werden. Damit besteht eine erhöhte Gefahr, dass die Position der Treffer in den Ergebnislisten der Suchmaschine manipuliert werden können.

Website: Nutch

Comments

Leave a Reply