Uralte Nachricht in Google News lässt Börsenkurs purzeln

Die Nachricht – Die US Fluggesellschaft United Airlines sei Pleite – wurde am vergangenen Wochenende über die Google News verbreitet. Das war keine Ente, keine Lüge, die pure Wahrheit. Die Nachricht hatte nur einen “Schönheitsfehler”. Sie stammte aus dem Jahr 2002. Kann ja mal passieren, Maschinen sind ja nicht perfekt? Mag sein. Die Nachricht liess jedoch den Börsenwert der Fluggesellschaft am 9. September laut Wall Street Journal um 75% purzeln, erklärt CNet.

Wie konnte das passieren? Die Nachricht wurde im Jahr 2002 in der Online-Ausgabe der Chicago Tribune gepostet und wurde später in die Online Nachrichten Datenbank der Tribune Company übernommen. Zur Tribune Comapnay gehört u.a. die Sun Sentinel (Lokalzeitung Süd-Florida, USA). Die Nachricht wurde jedoch nie inhaltlich geändert. Auf der Seite wurde lediglich ein Verweis hinzugefügt, erklärt die Tribune Company.

Google rechtfertigt sich im Google News Blog, die Nachricht war nicht datiert und zeigt einen Screenshot der Story. Demnach war lediglich im Kopfbereich der Seite das aktuelle Datum vom 7. September 2008 notiert, welches scheinbar täglich automatisch aktualisiert wird.

Die Sun Sentinel hat also nicht nur die Nachricht ohne Datum veröffentlicht sondern versucht mit dem Datum im Kopf-Bereich auch dort aktuell für die Leser zu wirken, wo keine Aktualität besteht.

Der Vorgang zeigt jedoch auch deutlich, wie ungenügend Suchmaschinen in der Lage sind, das tatsächliche Datum von im Internet veröffentlichten Beiträgen und Informationen zu erfassen.

Welche Möglichkeiten zur Datumserfassung gibt es? Nachfolgend wird das Datum einschliesslich Uhrzeit als Datum bezeichnet.

  1. Das zur Seite zugeordnete Datum welches der Webserver zurückliefert, während die Seite zum ersten Mal von einer Suchmaschine erfasst wird.
    Das Datum liegt mit Sicherheit vor dem ersten Crawl. Damit ist nicht sichergestellt, dass dies die Originalfassung ist. Zwischen der Veröffentlichung und dem ersten Besuch des Crawler können wenige Minuten aber auch Tage und Wochen liegen. Selbst wenn für Nachrichtenseiten von eher kurzen Intervallen ausgegangen werden kann, sind mehrere Änderungen zwischen Veröffentlichung und Erscheinen in der Suchmaschine möglich und damit Änderung des Datums der Datei.
  2. Das Datum der ersten Erfassung einer Webseite durch die Suchmaschine.
    Ist ungenau weil die Seite bereits vorher publiziert wurde
  3. Die letzte Aktualisierung feststellen und mit dem Datum der Ersterfassung durch den Crawler vergleichen.
    Google möchte vom Server, auf dem die Webseite abgelegt wurde, bevorzugt eine Angabe übergeben bekommen, welche die letzte Änderung der Datei übermittelt. (last-modified). Verglichen mit dem Datum des letzten Crawlerbesuches lässt sich feststellen ob an der Datei etwas geändert wurde. Falls nicht, wird die Datei nicht heruntergeladen, die alte Version bleibt in Cache und Index der Suchmaschine.
  4. Datum in der URL.
    Weblogs und andere Publikationssoftware bietet häufig die Möglichkeit, das aktuelle Datum der URL hinzuzufügen. So z.B. auch URL in diesem Weblog. Zur Auswertung taugt dieses Datum jedoch nur, wenn der Betreiber der Software die richtigen Regeln zur Erstellung des Datum einhält.
  5. Datum, welches der Autor des Beitrages hinzugefügt hat.
    In der Regel kann das ein verlässliches Signal sein. Zumindest dann, wenn auf der Website, auf der ein Beitrag veröffentlicht wird, dies konsequent tut. Diese Website von der Suchmaschine als als vertrauenswürdig bezüglich der Datumsaktualisierung eingestuft wird.
  6. Das Datum von Verweisen kann einen Hinweis für das Alter von Beiträgen sein.
    Auch dieses Indiz ist nur bedingt für die Datumsbestimmung brauchbar.

Webserver sind nicht verpflichtet Datumsangaben zu liefern. Es kann durchaus zu Fehlern in der Übermittlung des Dateidatums kommen. Studien zur Aktualität von Seiten in Suchmaschinen belegen die Schwierigkeit, das genaue Datum eines Beitrages zu ermitteln.

Google könnte das erste vom Server übermittelte Datum bzw. das Datum der Ersterfassung durch den Crawler für Seiten speichern, deren Infos in die Google News gelangen. Durch einen Vergleich mit der Ersterfassung dieser URL hätte algorithmisch festgestellt werden können, dass diese URL bereits vor vielen Jahren bereits erfasst wurde. Die Wahrscheinlichkeit, dass auf dieser URL eine völlig neue Nachricht präsentiert wird ist demnach sehr gering. Allerdings nicht ausgeschlossen. Rein technisch können auf einer einizgen URL ständig wechselnde Inhalte präsentiert werden. Dennoch wird normalerweise jeder Nachrichten-Webseite eine permanente Internetadresse (URL) zugeordnet. Mit dieser URL kann die Seite archiviert werden, ist aber selbst nach Jahren noch als Referenz vorhanden.

Ein wahrscheinlich noch zuverlässigere Lösung würde z.B. darin bestehen, zusätzlich den Umfang der Änderung der Nachricht zu vergleichen. Stimmt der Inhalt der scheinbar aktuellen Nachricht mit einer Nachricht überein, die bereits lange Zeit früher veröffentlicht wurde, kann diese Nachricht nicht als aktuell gelten.

Die U.S. Securities and Exchange Commission (SEC) will klären ob sich Fehlverhalten hinter dem Vorfall verbirgt. Speziell Informationen, welche die Börsenkurse berühren sind ein heisses Thema. Durch eine einzige Information kann sehr viel Schaden angerichtet werden, wenn dieser Nachricht vertraut wurde.

Die Tribune Company erklärt in einer Pressemitteilung, es gab bereits vor Monaten Probleme mit GoogleBot und man bat Google das Crawling einzustellen. Von Seiten Google wird jedoch wiedersprochen, dass es ein solches Ansinnen gegeben hat. Laut Tribune Company hat GoogleBot den Beitrag bereits am 2. und 3. September gecrawlt und zu diesem Zeitpunkt scheinbar als alt einstufte.

Siehe auch:
Dreijährige Studie zur Aktualität von Daten in Suchmaschinen

Google News Blog: Update on United Airlines Story
Tribune Company Pressemitteilung:
Tribune Says Confusion Over 2002 Article Started with Google Search Agent

CNet News:
Report: SEC looks into posting of old United story


Posted

in

by

Tags:

Comments

One response to “Uralte Nachricht in Google News lässt Börsenkurs purzeln”

  1. Paul Avatar

    Heftig, da kann man mal sehen was so eine Maschine ausmachen kann.

    Pech für die Firma, oder doch Google?