(10.03.2002) Suchmaschinen waren bisher nicht in der Lage sichere Webseiten
zu spidern, die nur über ein spezielles Protokoll, https:// erreichbar sind.
Die Technik vieler Suchmaschinen erlaubte es nicht, Websiten über https://
anzusprechen. Dieses Protokoll wird für eine sichere Webverbindung verwendet,
wenn etwa finanzielle Transaktionen durchgeführt werden. Bezahlen von Waren
und Internetbanking sind nur zwei Beispiele. Erkennbar sind diese Webverbindungen
an dem Symbol eines kleinen, geschlossenen Vorhängeschloss, das in der unteren
Browserzeile sichtbar wird.
Wie bei so vielen technischen Belangen spielt die Suchmaschine Google auch hier
eine Vorreiterrolle. In einem Probelauf wurden bereits rund 3,8 Millionen Webseiten
indexiert die nur via https:// zu erreichen sind. Das mag innovativ und spannend
klingen, schliesslich wird damit ein weiterer Teil des Internet für Suchende
erschlossen. Doch längst nicht alle Seiten dieses sensiblen Bereiches sollen
der Öffentlichkeit zugänglich werden.
Damit Spider darauf verzichten bestimmte Webseiten zu indizieren, wird eine Datei
robots.txt verwendet, die den Suchmaschinen
mitteilt, welche Bereiche einer Website nicht in die Suchmaschine gelangen sollen.
Obwohl es lediglich eine Empfehlung ist, halten sich die Spider aller grossen
Suchmaschinen an die in der robots.txt enthaltenen Anweisungen.
Zahlreiche Websitebetreiber stellten jedoch fest, dass die Google-Crawler (Spider)
nicht die robots.txt im https:// Bereich beachteten und Bereiche erfassten, die
nicht für die Öffentlichkeit bestimmt sind.
Henk van Ess von der niederländischen Suchmaschinen-Website Voelspriet,
erklärte gegenüber @-web: "Es wurden Seiten indexiert, die Nutzernamen
und Passwort enthalten. So wurden Inhalte offengelegt, die normalerweise nur gegen
Bezahlung zugänglich sind."
Gegenüber Voelspriet erklärte Google-Sprecher Nathan Tyler dass es sich
hier um einen Fehler, einen Bug handelt.
Google testet derzeit eine neue Crawler-Technologie, welche den Nutzern ermöglicht,
Webseiten die via https:// erreichbar sind, in den Suchergebnissen zu finden.
Nathan Tyler erklärte: "In einem kürzlichen Test entdeckten wir
einen Fehler in dieser Technologie, der verhinderte, dass unsere Crawler robots.txt
Dateien auf HTTPS Servern erkennen. Als Reaktion beseitigte Google den Fehler
und entfernte alle Seiten aus dem Google-Index und unserem Cache."
"Die verbesserte Version der Google-Webcrawler wird alle robots.txt Dateien,
die mit HTTPS verbunden sind, erkennen, und innerhalb der nächsten 30 Tage
eingesetzt."
Anwendungen mit der Google Suchfunktion
programmieren
Weitere Google-Beiträge:
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer
Webseiten.
Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
10.03.2002
Seitenbeginn