GoogleBot bedient HTML-Formulare – @-web Suchmaschinen Magazin und Blog

Formulare waren bisher ein Tabu für Suchmaschinen. Google ist dabei dieses Tabu zu brechen. Durch die Nutzung von Formularen sollen neue Webseiten erschlossen werden. Vorrangiges Ziel sind Websites mit hoher Qualität.

Im Google Weblog wird berichtet, dass bereits Verweise aus JavaScript und Flash ausgelesen werden um neue Seiten zu entdecken. In einem früheren Beitrag wurde jedoch darauf hingewiesen, dass diese Technologie nicht ausreichend zuverlässig funktioniert. Deshalb sollten Webseiten, die im Stil von WEB 2.0 mit vielen JavaScript-Verweisen arbeiten, zunächst konventionelle Textlinks einsetzen. Erst wenn die Site mit den Textlinks zuverlässig funktioniert, sollte WEB 2.0 darum herum gebaut werden.

Ähnliche Tipps gelten sicherlich für Seiten, die nur über Formulare erreichbar sind. Dennoch experimentiert Google mit der Erfassung von Webseiten über Formulare.

In den vergangenen Monaten wurden auf Websites mit “hoher Qualität”, HTML-Formulare (Form-Tag) von Google-Bots erkundet. An textbasierte Formulare wurden Anfragen mit Worten probiert, die auf der Website vorhanden sind. Für andere Formularelemente wie Auswahlmenüs, Checkboxen und Radio Buttons wurden die Optionen durchgespielt. Wenn aus Sicht von Google sichergestellt ist, dass die Ausgabeseite hochwertige, für Nutzer interessante Inhalte liefert, die noch nicht im Google-Index vorhanden sind, werden die Inhalte mit der selben Wahrscheinlichkeit aufgenommen, wie andere Webseiten auch.

Nur ausgesuchte, besonders nützliche Seiten erhalten diese Behandlung. Dabei werden Anweisungen für noindex und nofollow ebenso berücksichtigt wie Anweisungen in der Datei robots.txt. Formulare die ein Passwort oder andere persönliche Informationen wie Nutzer-ID, Log-Ins, Kontaktinformationen verlangen, werden nicht berücksichtigt.

Die neu entdeckten Seiten gehen nicht zu Lasten von Seiten die bereits gecrawlt wurden. Der PageRank der anderen Seiten wird dadurch nicht reduziert. Google geht davon aus, dass die Sichtbarkeit einer Webpräsenz dadurch erhöht wird.

Google will mit diesem Test in Teile des Internets eindringen, die als Deep Web oder unsichtbares Web bezeichnet werden.
Auf diesen Weg begaben sich führende Suchmaschinen, allen voran Google, bereits in der Vergangenheit. Vor einigen Jahren galten Inhalte, die in Datenbanken abgelegt wurden, als nicht auffindbar für Suchmaschinen. Das hat sich grundlegend geändert, obwohl es immer noch technische Schwierigkeiten gibt, die Seiten sauber zu erfassen. Eher finden sich jetzt diese, ursprünglich für Suchmaschinen “unsichtbaren” Inhalte in mehrfacher Anzahl im Google-Index wieder. Google wünscht sich deshalb von Betreibern sogenannter dynamischer Inhalte wie Shops, Content Management Systemen (CMS) usw. eher mit Cookies zu arbeiten, als mit Session-ID.

Crawling von HTML-Formularen