Eine Million mal eine Million (1.000.000.000.000), das ist eine ziemlich grosse Zahl. Die ist nicht gleichbedeutend mit Webseiten im Google-Index. Es gibt sehr viele URL die in einen Suchmaschinenindex gar nicht reingehören.
Seiten sind aus den unterschiedlichsten Gründen mehrfach im World Wide Web vorhanden. Sehr häufig sogar ungewollt. Z.B. weil die CMS- oder Blogsoftware mehrere Versionen einer Datei erzeugt, weil in Webshops URL mit Nutzer-ID’s kombiniert werden und damit fast unendlich viele URL zu einer Datei produziert werden, weil Dateien weltweit besser verfügbar sein sollen und deshalb mit der gleichen Version auf mehreren Servern abgelegt werden usw. Es gilt also eher die nützlichen, einmaligen Inhalte in den Suchmaschinenindex zu bringen, statt stur jede URL aufzunehmen. Selbst nach Entfernung diverser doppelter URL bleibt Google bei der Zahl von einer Billion URL. Wieviel tatsächlich davon im Index der Suchmaschine vorhanden sind, verrät Google nicht. Vielleicht einfach, weil man nicht wieder in den Zahlenkrieg verfallen möchte, wie zu früheren Zeiten.
Google pflegte über Jahre hinweg, die Anzahl der erfassten URL auf der Startseite der Suchmaschine zu veröffentlichen. Durch Beobachtung liess sich leicht feststellen, aktualisiert wurde diese Zahl immer wenn es gut in die PR-Welt passte. Andere Suchmaschinenbetreiber wie Yahoo! und Microsoft sahen sich genötigt ebenfalls Zahlen zu präsentieren.
Im August 2005 berichtete das Yahoo! Weblog von 19,5 Millionen Websites. Rein zahlenmässig war Yahoo! damit gegenüber den rund 8 Milliarden Websites von Google um Längen voraus. Uneins war man sich, was eigentlich zählbar ist und was nicht. Deshalb wurde im Jahr 2005 zum 7.Geburtstag von Google die Zählung eingestellt, die Zahl verschwand von der Google Startseite. Auch heute vertritt Google den Standpunkt es gibt keine richtige Antwort auf die Frage, was eigentlich eine nützliche Webseite ist.
In den Anfängen der Google Suchmaschine, deren Crawler damals noch unter Namen Backrub unterwegs war, wurde der PageRank für 26 Millionen URL in einigen Stunden auf einem einzigen Rechner (Workstation) berechnet. Es pegelte sich ein Zeitraum von durchschnittlich 30 Tagen ein, bis der PageRank erneut berechnet wurde. Das ist aber schon längst Geschichte. Heute wird der PageRank fliessend berechnet, auf vielen Rechner. Mehrfach pro Tag fliessen aktuelle Informationen zur Berechnung des Weblink Graphs ein.
Der Meilenstein einer Billion URL ist für Google Anlass, den eigenen Suchmaschinenindex als den umfassendsten Index aller Suchmaschinen darzustellen. Das Ziel von Google war und bleibt es, alle Daten dieser Welt zu erfassen.
Siehe auch Beitrag: Wie gross ist der Google Suchmaschinenindex?
Google Blog: We knew the web was big