Suchmaschinen für Entwickler.
Sprachbasis: englisch
kostenfreie Suche (GNU GPL) für unlimitierte Seitenanzahl.
Harvest ist eine umfangreiche, komplexe Suchsoftware die auf verteilten Systemen
arbeiten kann. Das heisst, mehrere Crawler und mehrere Datenbanken können
gleichzeitig eingebunden werden. Entwickler können mit dieser Software eine
komplexe Suchmaschine mit eigenen Spidern aufsetzen. Harvest steht unter der GNU
GENERAL PUBLIC LICENSE
Der modulare Aufbau erlaubt die flexible Anwendung von Harvest. Jeder einzelne
Schritt für das Sammeln von Daten und beantworten von Suchanfragen ist als
Einzelprogramm implementiert. Das erleichtert die Anpassung an die Bedürfnisse
der Entwickler.
Harvest kann Daten in Internet und Intranets via HTTP, FTP, NNT, lokalem Dateisysteme,
CD-Dateisysteme und File-Server erfassen.
Die Software läuft auf allen Unix-Systemen.
Technische Voraussetzungen um Harvest anwenden zu können:
Unix-Betriebssystem, die Module Bison und Flex erhältlich über ftp.gnu.org
, ein C-Compiler, Perl 5 sowie ein Webserver.
An vielen Universitäten wurde Harvest als Suchmaschine für die eigenen
Web-Bereiche eingesetzt.
Neben HTML- Dateien lassen sich weitere Formate erfassen: Text-Dateien, auch MS-Word
und -Exel, RTF, Word Perfect, PDF- und Postscript-Dateien, C-Quelldateien. Basierend
auf dem modularen Format von Harvest lassen sich weitere Dateiformate leicht integrieren.
Glimpse als Standard-Indexer
für Harvest wird zukünftig von Zebra
abgelöst. Swish wird ebenfalls
unterstützt.
Demosite für Harvest
Die Uni-Hamburg, Fachbereich Informatik wurde von Harvest als Demo-Site benannt.
Dort ist gut zu sehen, wie Harvest auch über mehrere Webserver hinweg genutzt
werden kann: Search
the VSIS WWW-Server and Document Archive
Weiterentwicklung der Software
(September 2002)
Harvest ist unter dem Dach der freien Entwicklergemeinschaft Sourceforge erreichbar.
Kang-Jin Lee, Projektleiter und Entwickler, nennt folgende Punkte für die
weitere Entwicklung von Harvest:
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer
Webseiten.
Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
29.09.2000
Letzte Änderung: 18.09.2002
Seitenbeginn