schema.org – Semantic für Trefferlisten

Semantische Auszeichnungen für umfassendere Trefferlisten der Suchmaschinen.

Google und Yahoo! haben in der Vergangenheit mehrere Möglichkeiten zur semantischen Auszeichnung von Text, insbesondere mit Rich Snippets uns Microformaten veröffentlicht. Nicht immer wurden exakt die gleichen Auszeichnungen verwendet. Im Sinne der Nutzer konnten sich die drei führenden Suchmaschinen zu einer gemeinsamen Initiative entschliessen, Unter schema.org gibt es ein Vokabular zur Auszeichnung strukturierter Daten.

Wie kann man Objekte, Personen usw. aus der realen Welt in der virtuellen Welt möglichst exakt beschreiben? Strukturiert lautet die Kurzantwort. Man kann Strukturen erstellen, die beispielsweise eine Adresse genau beschreiben.

Straße, Hausnummer, Ort, Postleitzahl, Bundesland, Land. Zusätzlich wäre die genauen geografischen Daten per Geokodierung hinterlegbar. Wenn diese Daten zusammengenommen mit Adresse bezeichnet werden, dann können Suchmaschinen und andere computerbasierte Dienste die Daten gezielt auslesen und weiter verwenden.

Für eine Reihe strukturierter Daten wurde dies in kleinen Schritten bereits von Yahoo! und Google unterstützt. Suchtreffer wurden und werden durch zusätzliche Informationen bereichert. Bewertungen, Personen, Firmen usw. konnten mit den Formaten RDFa und Microformats gekennzeichnet werden.

Yahoo! startete im Jahr 2008 mit strukturierten Daten im Rahmen des SearchMonkey-Programmes.

Google begann 2009 mit der Ergänzung der Suchtreffer per Rich Snippets. Speziell gekennzeichnete Informationen über Bewertungen und Personen konnten im Treffer der Ergebnisliste erscheinen.

Die separaten Wege der Suchmaschinenbetreiber münden nun in eine gemeinsame Initiative, der sich Bing anschliesst, schema.org.

schema.org

Website-Betreiber und Entwickler können auf schema.org lernen, welche Möglichkeiten sich mit der strukturierten semantischen Auszeichnung von Daten ergeben.

HTML 5 bietet die Möglichkeit zur Auszeichnung mit Microdaten. Genau dieses Konzept von HTML 5 wird unter schema.org aufgegriffen. Ein Set von Tags ermöglicht eine genauere Beschreibung der Dinge, die im Text vorkommen. Hilfreich ist das vor allem bei mehrdeutigen Worten.

Ein Blatt kann aus Papier bestehen oder an einem Baum hängen. Zeitschriften werden synonym gerne als Blatt bezeichnet. Die Klinge des Messers ist in der Fachsprache ein Blatt und Kartenspieler haben ein gutes oder schlechtes Blatt. Diese Aufzählung ist nicht vollständig, gibt jedoch einen Eindruck, wie vielfältig die Bedeutung eines Wortes sein kann. Eine präzise Zuordnung erleichtert Suchmaschinen wesentlich, Worte und Begriffe in den richtigen thematischen Zusammenhang zu stellen.

Mehr als 100 neue Kategorien sind auf schema.org verfügbar. Für mich sind beispielsweise Kategorien neu wie: Dinge (Things) -> Kreative Werke (CreativeWork) -> Blog. Die Grafik zeigt einen Ausschnitt der Spezifikation für Blogs:

Schema.org Things Creative Work Blog
Schematische Beschreibungsmöglichkeiten für Blogs – schema.org

Auf den ersten Blick scheint das ein umfassendes Datenset zu sein. Aufwendig diese Daten manuell zu ergänzen. Diverse Charakteristiken wie Autor, URL und Sprache könnten jedoch automatisch eingefügt werden. Auch Beschreibung, Genre und Überschrift liessen sich leicht automatisieren. Entwickler von Publikationswerkzeugen, in diesem Fall von Blog-Software, sind also gefragt, entsprechende Hilfsmittel für Autoren zu entwickeln und bereit zu stellen.

Open Graph Protokoll

Bing, Google und Yahoo! versichern in ihren Blogbeiträgen zu schema.org, das Open Graph Protokoll zu unterstützen. Das Open Graph Protookoll wurde von Facebook initiert. Website-Betreiber werden angehalten, durch Kennzeichnung ausgewählter Inhalte, diese für Facebook verständlich zu machen. Website-Betreiber bekommen die Möglichkeit ihre Webseite in Facebook präsent zu machen. Facebook verspricht, mit Open Graph ausgezeichnete Seiten, wie die eigenen Facebook-Seiten zu behandeln. Markierte Seiten werden beispielsweise in de Facebook-Suche einbezogen.

Zumindest was Personendaten angeht, dürfte Facebook schon jetzt über den umfangreichsten, öffentlich bekannten, semantischen Datenbestand weltweit verfügen. Über das Open Graph Protokoll können sehr viel mehr Daten mit den persönlichen Daten verbunden werden.

Open Graph basiert auf Meta-Tags welche in den Head-Bereich von HTML-Seiten integriert werden. Unterstützt werden auf jeden Fall Ortsangaben, Kontaktinformationen, Firmen, Organisationen, Personen, Orte, Produkte und Unterhaltung, Websites.

Aktueller Nutzen der Anwendung strukturierter Daten aus der Sicht der Webmaster

Webmaster werden den deutlich höhere Aufwand für struktuturierte Daten nur dann auf sich nehmen, wenn es dafür eine “Belohnung” gibt. Momentan erfolgt die Belohnung in Form erweiterter Suchtreffer. Treffer die durch ihre zusätzlichen Daten die Aufmerksamkeit auf sich ziehen. Allerdings sollte man nicht zu viel von diesen zusätzlichen Aufmerksamkeitszusätzen verlangen. Wenn ein angereicherter Treffer auf der zweiten oder dritten Seite platziert ist, hilft kein noch so interessanter Zusatz, falls auf der ersten Ergebnisseite bereits ein passender Treffer gefunden werden.

Auf das Ranking haben die strukturierten Daten keine Auswirkung. Damit gibt es nur bedingt einen Anreiz vorhandene Daten sematisch zu strukturieren. Normale Website-Betreiber dürften häufig mit der Markierung überfordert sein. Es müssen Werkzeuge geschaffen werden, die es dem Verfasser ermöglichen gleich im Editor des CMS (Content Management System) an geeigneten Stellen die Markierungen einzufügen. Oder noch besser, erfolgt eine automatische Auszeichnung.

Wahrscheinlich wird es eine Kombination manueller und automatisierter Markierung geben. Erst dann dürfte der Durchbruch für die semantische Auszeichnung strukturierter Daten gelegt sein. Momentan sind sich die beteiligten Suchmaschinenbetreiber darüber klar, es ist ein weiter Weg bis die semantische Auszeichnung von HTML massentauglich sein wird.

Schema.org ist der richtige Ansatz dafür, einheitliche Regeln für die semantische Auszeichnung anzubieten. Suchmaschinebetreiber sind auf Grund ihrer hohen Reichweite hervorragend dafür geeinget, die Semantik im Internet voran zu treiben.

Webseiten die bisher RDFa oder Microformat zur Auszeichnung von Textbestandteilen verwendet haben, müssen keine Änderungen vornehmen. Diese Formate werden von Google, Bing und Yahoo! unterstützt.

Website:
Schema.org

Official Google Blog:
Introducing schema.org: Search engines come together for a richer web
Yahoo! Search Blog:
Introducing schema.org: A Collaboration on Structured Data
Bing Search Blog
Introducing Schema.org: Bing, Google and Yahoo Unite to Build the Web of Objects