PDf Dateien in Suchmaschinen

PDF für Suchmaschinen optimieren

PDF-Dateien für Suchmaschinen optimieren.  Als Webmaster gibt man sich größte Mühe, PDF-Dateien für Suchmaschinen zu optimieren, bekommt das Dokument aber nicht auf auf vordere Plätze.  Werden PDF-Dateien anders gehandhabt als gängige Dateien im HTML-Format?

 

Google kennt einge hundert Millionen PDF im Suchmaschinen-Index. Das heisst, Google versteht PDF Dokumente. Bereits seit 10 Jahren sind PDF-Dateien Bestandteil des Google Indexes. Wo also liegen die Schwierigkeiten?

Im Google Webmaster Centrale Blog finden wir einige Antworten darauf wie Google PDF-Dateien behandelt. Zusätzlich gibt dieser Beitrag Hinweise, welche Details für SEO von PDF’s wichtig sind.  Im August 2002 habe ich beschrieben, wie PDF-Dateien für Suchmaschinen zu optimieren sind. Der kürzliche Beitrag im Google Blog zur Optimierung von PDF war Anlass, aktuelle Informationen zum Thema zusammen zu stellen.

PDFs in Google Suchergebnissen

PDF-Dateien sollen nicht verschlüsselt sein und kein Paßwort zum lesen benötigen. Unter diesen Voraussetzungen wird sämtlicher sichtbarer Text in PDF-Dokumenten erfasst.

In Bilder oder Grafiken eingebetteter Text findet nur schwer den Weg in den Google-Index. Google versucht hin und wieder mit OCR-Technik, den Text aus den Bildern bzw. Grafiken auszulesen, kann aber keine Garantie auf Erfolg geben. Seit 2008 versucht Google für PDF-Dokumente Texte aus Bilder zu extrahieren

PDF für Suchmaschinen optimieren

Generell gilt, PDF-Dateien unterliegen den gleichen SEO-Regeln wie HTML-Dateien. Nachfolgend einige grundlegende Regeln zur Optimierung von PDF-Dateien für Suchmaschinen.

Seitentitel für PDF-Dateien

Der Seitentitel muss zwingend den Suchbegriff enthalten um keine Punkte für das Ranking zu verschenken. Der Seitentitel soll kurz und prägnant mit ganz wenigen Worten das Dokument beschreiben. Der Seitentitel wird als Überschrift des Treffers verwendet. Nutzer erhalten hier einen ersten wichtigen Hinweis, ob es sich lohnt, das Dokument zu öffnen.

Google erläutert im Blog-Beitrag, die Überschrift des Treffers wird von zwei Faktoren beeinflusst.

  • Die Titel-Angabe in den Meta-Daten des PDF-Dokumentes
  • Linktext in Dokumenten, welche auf die PDF-Datei verweisen.

Praktisch bedeutet das, der Seitentitel kann durch den Linktext externer Links ersetzt werden. Optimal ist, wenn Seitentitel und externe Links den Suchbegriff enthalten. Verweistexte auf anderen Domains sind häufig nicht beeinflussbar. Verweise auf der eigenen Webpräsenz sollten jedoch exakt den Suchbegriff enthalten, für den die PDF-Datei gefunden werden soll.

Die Änderung des Seitentitels trifft nicht nur für PDF-Dateien zu. HTML-Dateien können ebenfalls eine Änderung des Seitentitels erfahren, wie ich im Februar 2011 berichtete: Google schnitzt eigene Seitentitel.

Autor

Seit Juni 2011 gilt der Autor als Rankingsignal. Zusätzlich wird das Foto eines Autors neben dem Treffer eingeblendet. Damit wird der Treffer prominent hervorgehoben. Diese Maßnahmen dienen dazu, das Vertrauen in Dokumente zu erhöhen. Verifizierte Autoren können einen Vertrauensbonus erhalten. Also bitte nicht vergessen, den Autor zu benennen.

Thema

Die Dokumenteigenschaft Thema im PDF-dokument entspricht dem Meta-Tag Description eines HTML-Dokumentes. Hierhin gehört eine kurze Beschreibung des Dokumentes. Die Beschreibung ist idealerweise eine Ergänzung des Seitentitels, keine Wiederholung.

Der Inhalt von Thema wird, wie der Inhalt von Meta-Description, als Beschreibungstext des Treffers angezeigt. Der inhaltliche Schwerpunkt sollte darin liegen, Nutzer der Suchmaschine anzusprechen. Die Beschreibung soll, gemeinsam mit dem Seitentitel dazu animieren, das PDF-Dokument zu öffnen.

Überschriften

In PDF-Dokumenten hat die Überschrift eine besondere Bedeutung. Überschriften dienen der hierarchischen Gliederung des Textes. Zusätzlich zeigt der Inhalt der Überschrift, was im folgenden Abschnitt thematisch behandelt wird.

Keyworddichte und Keywordposition

Der Suchbegriff muss (immer noch) im Dokument vorkommen, damit die Suchmaschinen erkennen, worum es im Dokument geht. Nach den grundlegenden Regeln für OnPage SEO ist der Suchbegriff in alle relevanten Teile des Dokumentes, wie Seitentitel, Überschrift, sichtbarer Text usw., einzufügen.  Für jedes Words wird die Position ermittelt. Aus Position und Häufigkeit der Wortnennung erfolgt eine Bewertung, wie relevant das Wort für das Dokument ist.

Bilder und Grafiken in PDF-Dateien

Bilder in PDF-Dateien werden derzeit nicht indexiert, erklärt Google. Sollen die in der PDF-Datei verwendeten Bilder im Google-Index erscheinen, so  ist es ratsam die Bilder separat auf gängigen HTML-Seiten anzubieten, empfiehlt Google.

Das bedeutet, Bilder in PDF-Dateien bleiben für Google unsichtbar.

Verweistexte

Wird auf andere Dokumente im Internet verwiesen, sollte ein aussagefähiger Text Verwendung finden. Jeder Websitebtreiber möchte gerne Verweise erhalten, die relevant zum Dokument sind. Gewährt man diesen Service anderen Webseiten, so steigt die Wahrscheinlichkeit, dass diese Webmaster ebenfalls aussagekräftige Linktexte verwenden, wenn sie beispielsweise einen Link zurück setzen.

Laut Google-Blog passiert der PageRank die Links in PDF-Dokumenten analog zu HTML-Dokumenten.  Derzeit ist es nicht möglich, Verweise in PDF-Dokumenten mit dem Linkattribut rel=”nofollow” für das Ranking unwirksam zu machen.

Länge der PDF-Datei

PDF-Dateien kennen selten eine Grenze. Da sie nicht selten als Broschüre, als Zeitschrift, Magazin oder Buch angesehen werden, umfassen PDF-Dokumente leicht 30, 80 oder 300 Seiten A4. Sehr lange Texte machen es schwer, auf ein einziges Thema und gezielt auf ausgewählte Begriffe zu fokussieren.  Für umfangreiche PDF-Dateien liegt der Schwerpunkt der OnPage-Optimierung auf den Seitenbestandteilen Titel, Autor, Description und Datei-Namen. Die restliche SEO-Arbeit muss dann extern, also OffPage, erfolgen.

Gute Verlinkung innerhalb der Webpräsenz und von externen Seiten kann die Bedeutung eines langen PDF-Dokumentes für Suchmaschinen deutlich steigern.

Duplicate Content

Sind PDF-Dateien eine Kopie einer HTML-Seite (oder umgekehrt) so sollte klargestellt werden, unter welcher URL, die Datei zu finden ist, die Google als Original ansehen soll. Das kann mit rel=”canonical” oder über die Header-Information geschehen. Das gilt auch, wenn die PDF-Datei an andere Webmaster weitergegeben wird.

Grafische Gestaltung (Design) der Inhalte

Werden PDF-Dateien zunächst wie HTML-Dokumente gestaltet und anschliessend in das PDF-Format umgewandelt, gibt es keine bedeutenden Unterschiede. Sind jedoch Grafiker mit der Gestaltung des PDF beauftragt, dann kommt häufig die Gestaltung in Form einer Broschüre oder eines anderen Druckerzeugnisses daher. Der Text wird mehrspaltig gestaltet, Grafiken unterbrechen den Textfluß.

Für mehrspaltige Dokumente sollte man im Blick haben, dass der Text von  Suchmaschinen nacheinander verarbeitet wird. Spalten werden zwar nebeneinander angeordnet, jedoch nacheinander gelesen. Das ist wichtig für die Bewertung der Position der Begriffe innerhalb des Dokumentes. Die logische Verwendung von Überschriften wird von der Mehrspaltigkeit ebenfalls beeinflusst.

 

 

Schaltung von Werbung

Diese zusätzliche Überlegung steht nicht in unmittelbarem Zusammenhang mit SEO.
Websites, die Inhalte zu vermitteln haben, schalten gerne Werbung zur Refinanzierung.  Google AdSense oder Anzeigen von anderen Werbeplattformen lassen sich im HTML-Seiten ziemlich problemlos einbinden. Wer PDF-Dateien produziert, nimmt sich die Chance, per Online-Werbung etwas Einkommen zu generieren. Sicherlich gibt es andere Möglichkeiten, Werbung in die PDF-Datei zu bringen. Man kann versuchen, Werbetreibende zu gewinnen, die etwa statische Banner einbinden lassen. Ähnlich der Werbung in Druckerzeugnissen. Banner bietent sich eher für Anbieter an, die bereits Beziehungen zu thematisch passenden Werbetreibenden aufgebaut haben.

Siehe auch:

Google Webmaster Central Blog
PDFs in Google search results


Posted

in

,

by