WDF*IDF: Was kann die SEO-Wunderformel wirklich?

Seit vielen Jahren tobt der Kampf um die besten Plätze in den Suchergebnissen von Google und Co. War es lange Zeit eine Art SEO-Volkssport, möglichst viele Keywords in die verschiedenen Texte eines Webprojekts einzubauen, besteht die hohe Kunst der Suchmaschinenoptimierung heute vor allem darin, einzigartige Texte zu kreieren. Egal, ob Start- oder Unterseite, Produkt- oder Kategorieseite: Exklusiver und relevanter Content, der sich in Bezug auf Inhalt und Keyword-Verwendung von vergleichbaren Vertretern unterscheidet, legt den Grundstein, um die Konkurrenz auszustechen und Platzierungen auf der ersten Ergebnisseite zu erreichen. Ein Begriff, der in diesem Zusammenhang immer häufiger fällt, ist die sogenannte WDF*IDF-Analyse bzw. -Formel.

Was ist WDF*IDF?

WDF*IDF ist ein Analyseverfahren, das im Rahmen der Suchmaschinenoptimierung eingesetzt werden kann, um Schlagwörter und Begriffe zu bestimmen, die die Relevanz veröffentlichter Texte und somit des gesamten Webprojekts nachhaltig erhöhen. Es handelt sich um eine Formel, bei der die zwei Werte WDF (Within Document Frequency) und IDF (Inverse Document Frequency) miteinander multipliziert werden. Das Ergebnis ist die relative Termfrequenz (auch „Termgewichtung“) eines Dokuments im Verhältnis zu allen anderen Webdokumenten, die ebenfalls das bei der Analyse berücksichtigte Keyword enthalten. Bevor die WDF*IDF-Analyse durchgeführt werden kann, gilt es zunächst die beiden genannten Faktoren zu ermitteln.

So wird der Within-Document-Frequency-Wert (WDF) bestimmt

Die Within Document Frequency beschreibt, wie häufig ein bestimmter Term in einem Dokument im Vergleich zu allen anderen enthaltenen Termen vorkommt. Um die Aussagekraft des ermittelten Werts zu erhöhen, fußt die Formel auf einem Logarithmus, der verhindert, dass der zentrale Term eine zu starke Gewichtung erhält. Der Begriff fand erstmals 1992 in den Arbeiten von Donna Harman Erwähnung, die WDF in ihrem Artikel „Ranking Algorithms“ u. a. als Möglichkeit sieht, Worten eines bestimmten Dokuments einen für die Informationswissenschaft nutzbaren Gewichtungswert zu geben. In der Website-Optimierung wird der WDF-Wert seit geraumer Zeit als Alternative zum wenig flexiblen Wert der Keyword-Dichte (Keyword Density) genutzt, der lediglich die relative Häufigkeit eines Schlüsselbegriffs wiedergibt.

Die Formel zur Bestimmung der Within Document Frequency lautet:

Die einzelnen Komponenten der Gleichung lassen sich dabei folgendermaßen erklären:

i Begriff, für den die Within Document Frequency bestimmt werden soll  
j Dokument, das analysiert wird  
Lj Gesamtzahl der Wörter im Dokument „j“  
Freq(i,j) Häufigkeit eines Wortes „i“ im Dokument „j“  
log2 Logarithmus der Zahl x zur Basis 2  

Der WDF-Wert für einen Begriff „i“ im Dokument „j“ wird also ermittelt, indem die Häufigkeit des Begriffs mit „1“ addiert und durch die Gesamtzahl aller Wörter in diesem Dokument geteilt wird. Auf beide Werte wird der Logarithmus „log2 angewendet, was dafür sorgt, dass man aussagekräftigere Ergebnisse für die Relevanz des Begriffs erhält, als es bei der Ermittlung der reinen Keyword-Dichte bzw. relativen Häufigkeit der Fall ist. Deutlich wird dies an einem Beispiel.

Beispiel: Berechnung von WDF

Ein untersuchter Begriff, der in einem Dokument mit 1.000 Wörtern 50 Mal auftaucht, hat eine Within Document Frequency von gerundet 0,57. Die relative Häufigkeit liegt in diesem Fall bei 5 Prozent. Schraubt man die Häufigkeit des Begriffs nun aus Optimierungsgründen hoch, beispielsweise auf 500, erhält man einen WDF-Wert von 0,9 (gerundet) – also einen Wert, der rund 1,5 Mal höher ist als im ursprünglichen Text. Wählt man hingegen den relativen Wert, der auf 50 Prozent angestiegen ist, als Grundlage, zeigt sich ein Anstieg auf das 10-Fache vom Ursprungswert.

So wird der Inverse-Document-Frequency-Wert (IDF) bestimmt

Bei der Inverse Document Frequency (IDF) – im Deutschen auch „inverse Dokumenthäufigkeit“ – handelt es sich um einen Wert, der die Bedeutung eines Terms nicht anhand seiner Häufigkeit in einem bestimmten Dokument, sondern anhand seiner Verbreitung und Nutzung im gesamten Dokumentenkorpus misst: Je mehr Potenzial ein Begriff hat, desto höher ist die Inverse Document Frequency. Der Optimalfall ist, dass ein Term in wenigen Dokumenten sehr häufig vorkommt. Von geringer Bedeutung sind hingegen Wörter, die in fast jedem Dokument oder nur sehr selten auftreten. So erzielt das Wort „Impressum“ beispielsweise einen sehr niedrigen IDF-Wert, da es in nahezu jedem Webprojekt verwendet wird.

Um den Inverse-Document-Frequency-Wert zu errechnen, wird folgende Formel benötigt, die zur Regulierung der Ergebnisse ebenfalls einen Logarithmus nutzt:

Die verschiedenen Komponenten der IDF-Gleichung lassen sich folgendermaßen erklären:

i Begriff, für den die Inverse Document Frequency bestimmt werden soll  
log Logarithmus der Zahl x zur Basis 10 bzw. zu jeder beliebigen Basis b  
ND Anzahl aller Dokumente im Dokumentenkorpus (die relevante Begriffe enthalten)  
fi Anzahl aller Dokumente, in denen der Begriff i vorkommt  

Um also den IDF-Wert eines Begriffs „i“ zu ermitteln, teilt man die Gesamtzahl aller im Korpus enthaltenen (und relevanten) Dokumente durch die Anzahl an Dokumenten, die den Begriff enthalten, und addiert im Anschluss die Zahl 1. Vom Ergebnis dieser Rechnung nimmt man schließlich den Logarithmus „log“.

Wie wird die Anzahl aller relevanten Dokumente im Korpus errechnet?

Mit ND enthält die IDF-Formel eine Komponente, die nicht einheitlich bestimmt werden kann. Sie ist vielmehr das Resultat der Häufigkeit aller sinntragenden Wörter im untersuchten Dokument sowie der zugrundeliegenden absoluten Dokumentenanzahl. Im Rahmen einer Analyse von Webdokumenten zu SEO-Zwecken ist die potenzielle Gesamtanzahl allerdings riesig, da alle von Google (bzw. anderen Suchmaschinen) indexierten Seiten infrage kommen. Um dennoch einen konkreten Wert zu erhalten, wird die Zahl der Suchergebnisse aller relevanten Terme im Dokument ermittelt und addiert. In einem stark vereinfachten Dokument, das lediglich die beiden Wörter „Suchmaschinenoptimierung“ (17.300.000 Suchergebnisse; Dezember 2017) und „Webanalyse“ (2.200.000 Suchergebnisse; Dezember 2017) enthält, hat ND beispielsweise den Wert 19.500.000.

WDF*IDF: Die Zusammenführung beider Formeln

Da die Within Document Frequency die Relevanz eines Terms innerhalb eines bestimmten Dokuments repräsentiert und die Inverse Document Frequency die Rolle eines Terms im Verhältnis zu allen Dokumenten eines Korpus wiederspiegeln kann, gewährt die Zusammenführung beider Werte tiefe Einblicke in die tatsächliche Termfrequenz und das Potenzial des jeweiligen Begriffs für die Optimierung der vorhandenen Textinhalte. Zu diesem Zweck ist es lediglich notwendig, beide Werte miteinander zu multiplizieren, wodurch sich folgende Gesamtformel für die WDF*IDF-Analyse und die Ermittlung einer möglichst exakten und verwertbaren Termfrequenz ergibt:

Im Prinzip hat man damit alle wichtigen Komponenten zusammen, um die Wertigkeit verwendeter Begriffe in Webtexten zu bestimmen. Natürlich gilt dabei: Je größer die Datenbasis ist, desto aussagekräftiger sind die Ergebnisse. Damit die WDF*IDF-Analyse aber auch tatsächlich von Nutzen für die Suchmaschinenoptimierung ist, muss sie für alle sinntragenden Wörter innerhalb eines Dokuments durchgeführt werden. Manuell wäre dies schlichtweg mit einem viel zu großen Aufwand verbunden, weshalb das passende WDF*IDF-Tool bei der Errechnung der Termgewichtung zum Pflichtrepertoire gehört. Diese Programme (siehe weiter unten) helfen einerseits dabei, das vorhandene Textgut zu analysieren. Andererseits liefern sie auch Hinweise darauf, welche Begriffe einem Dokument fehlen, um möglichst einzigartig und relevant zu sein.

Fazit

Die Frequenz eines Terms „i“ im Dokument „j“ lässt sich bestimmen, indem die Within Document Frequency des Terms „i“ im Dokument „j“ mit der Inverse Document Frequency des Terms „i“ im gesamten Dokumentenkorpus multipliziert wird.

Die Vorteile von WDF*IDF für die Suchmaschinenoptimierung

Die Vorteile einer umfangreichen WDF*IDF-Analyse liegen auf der Hand: Die erzielten Werte für die Gewichtung zentraler Terme dienen als perfekte Orientierungspunkte, um Texte so zu verfassen, dass sie

  • eine hohe Relevanz für Suchmaschinen besitzen,
  • Themenfelder mit geringem Wettbewerb abdecken,
  • keinerlei Keyword-Spam aufweisen
  • und dabei möglichst einzigartig sind.

Wer also mit dem Ranking der eigenen Webseiten unzufrieden ist und sich um eine Optimierung bemüht, hat mit fundierten WDF*IDF-Werten mächtige Verbündete. Auf Basis der Analysedaten können Textern ganz konkrete Vorgaben für die Überarbeitung der Inhalte gemacht werden, die nicht einfach nur darauf abzielen, die Keyword-Dichte zu erhöhen oder andere Schlüsselwörter in den Text einzubauen.

Hinweis

Bei aller Aussagekraft, die eine gründliche WDF*IDF-Analyse birgt, sollte man niemals außer Acht lassen, dass die Inhalte in erster Linie für Leser und nicht für Suchmaschinen geschrieben werden. Da letztere außerdem immer besser darin werden, Texte semantisch zu erfassen, führt langfristig kein Weg an starken Inhalten vorbei, in denen Keywords und Co. nur eine Teilrolle spielen.

Welche Schwachpunkte hat die WDF*IDF-Analyse?

Auch wenn der WDF*IDF-Wert grundsätzlich sehr wertvollen Input für die Website-Optimierung liefert, gibt es dennoch ein paar Punkte, die vor der Analyse und bei der späteren Auswertung der Resultate berücksichtigt werden sollten. So besteht ein Grundproblem darin, dass bei einer WDF*IDF-Analyse immer sämtliche Textelemente eines Dokuments einbezogen werden – egal, ob dies Überschriften, Kategorie- oder Produktbeschreibungen oder Bildunterschriften sind. Eine Differenzierung der einzelnen Bestandteile findet nicht statt. Auch für den Fall, dass lediglich ein bestimmter Absatz zu keywordlastig ist oder zu wenige elementare Begriffe enthält, liefert das Analyseverfahren keine befriedigende Antwort, da die Frequenzgewichtung immer für das gesamte Dokument gewertet wird.

Tipp

Bevor man eine WDF*IDF-Analyse für das eigene Webprojekt in Betracht zieht, sollte man genau prüfen, ob der eingebundene Content sich für das Termfrequenz-Analyseverfahren eignet. Zudem sollte man die erhaltenen Ergebnisse kritisch hinterfragen, um potenzielle Fehlschlüsse – z. B. aufgrund einer zu kleinen Datenbasis – zu vermeiden.

Eine weitere Schwäche der WDF*IDF-Formel ist, dass sie erst bei einer hohen Wortzahl interessant wird. Bei kürzeren Textpassagen wie Produktbeschreibungen, kleineren Blogeinträgen oder Newsartikeln liefert die Analyse keine aussagekräftigen und verwertbaren Ergebnisse, weshalb sie für bestimmte Webprojekte wie Onlineshops oder Nachrichtenportale häufig nicht geeignet ist. Bei Websites, die wie die letzteren zum Großteil auf redaktioneller Arbeit beruhen, kommt der Nachteil hinzu, dass sich die WDF*IDF-Analyse nur schwer in den üblichen Arbeitsprozess einbauen lässt. Da hier insbesondere schnelle Reaktionszeiten und Aktualität gefragt sind, wäre lediglich eine nachträgliche Optimierung veröffentlichter Texte eine praktikable, gleichzeitig aber auch sehr aufwendige Lösung.

Vor- und Nachteile der WDF*IDF-Analyse im tabellarischen Überblick

Vorteile der WDF*IDF-Analyse Nachteile der WDF*IDF-Analyse  
gewährt eine große Chance, existierenden Keyword-Spam aufzudecken untersucht immer den kompletten Textinhalt eines Dokuments  
stellt Relevanz und Einzigartigkeit als entscheidende Kriterien für die Frequenzgewichtung in den Vordergrund liefert keine Erkenntnisse über spezielle Absätze oder Passagen, die optimierungswürdig sind  
bewertet Terme mit geringerem Wettbewerb besser als stark umkämpfte nicht für kurze Texte mit wenigen Wörtern geeignet  
vereint die Disziplinen der dokumentenspezifischen und der -übergreifenden Analyse schwer in Arbeitsprozesse einzuordnen, in denen Aktualität und Reaktionsschnelligkeit gefragt sind  
flacht Resultate durch Logarithmen ab, um aussagekräftigere Ergebnisse zu erzielen präzise Zahl aller relevanten Dokumente ist schwer zu ermitteln  

Welche WDF*IDF-Tools gibt es?

Es gibt verschiedene Tools, mit deren Hilfe sich eine WDF*IDF-Analyse durchführen lässt. Dabei ist grundsätzlich zu unterscheiden zwischen solchen Anwendungen, die ausschließlich Teil einer SEO-Suite sind, und solchen, die auch als eigenständige Lösungen zur Verfügung stehen. Abhängig vom Funktionsumfang und den Nutzungsmöglichkeiten unterscheiden sich die einzelnen Tools hinsichtlich ihres Kostenfaktors. Um einen kleinen Überblick über die Vielfalt der Anwendungen zu geben, haben wir einige der besten WDF*IDF-Tools in der folgenden Aufzählung zusammengetragen:

  • OnpageDoc: Wer den SEO-Status seines Webprojekts analysieren und optimieren möchte, hat mit OnpageDoc, dem Komplettpaket der SAC Solutions GmbH aus Köln, alle notwendigen Werkzeuge parat. Nach Abschluss eines monatlichen Abonnements stehen diverse Funktionen zur Überprüfung und anschließenden Verbesserung von Keywords, Meta-Tags, Backlinks und Co. zur Verfügung. Auch ein WDF*IDF-Tool für die Termgewichtungs-Analyse und den gezielten Wettbewerbsvergleich zählt zum Portfolio. Wer nicht zur gesamten Suite greifen möchte, kann das Tool auch kostenfrei auf wdfidf-tool.com nutzen. Die Anzahl möglicher Abfragen ist allerdings auf 100 Abfragen pro Stunde (für alle Nutzer gemeinsam) begrenzt.
  • SEOlyze: Semantische Analysen und Recherchen, die auf dem WDF*IDF-Prinzip basieren, lassen sich auch mit dem kostenpflichtigen Content-Analyse-Modul von SEOlyze unkompliziert durchführen. Das Produkt der in Österreich beheimateten Helminger GmbH stellt die Möglichkeiten zur Perfektionierung von Website-Inhalten in den Vordergrund und bietet zu diesem Zweck verschiedene Werkzeuge wie ein W-Fragen-Tool zur Recherche, einen Duplicate-Content-Checker oder Lesbarkeits-Analysen (Flesch/Wiener-Sachtextformel). Das Herzstück ist jedoch die umfassende WDF*IDF-Analyse-Funktion, deren Resultate sich dank integriertem Editor direkt im SEOlyze-Interface umsetzen lassen. Zusätzlich zum WDF*IDF-Tool enthält die SEO-Suite verschiedene Rank-Tracking-Features sowie diverse weitere Werkzeuge für die generelle Onpage-Optimierung (Keyword-Analyse, Checker für Metadaten, Bilder, Links etc.).
  • XOVI: Die Kölner XOVI GmbH, die seit 2017 zu dem globalen Software-Unternehmen Plesk gehört, stellt seinen Kunden eine SEO-Suite zur Verfügung, die kaum einen Wunsch offen lässt. Die kostenpflichtige XOVI-Toolbox, die es in drei verschiedenen Nutzungsmodellen (Pro, Business und Enterprise) gibt, beinhaltet u. a. Werkzeuge, um Werbeanzeigen, Traffic, Keywords, Backlinks und Social Signals im Auge zu behalten. Mit dem XOVI TextOptimizer ist außerdem auch ein WDF*IDF-Text-Tool enthalten, das nicht nur die Relevanz verwendeter Begriffe errechnet und Vorschläge für weitere Terme auf Basis der ersten zehn Google-Suchergebnisseiten unterbreitet, sondern auch das direkte Editieren ermöglicht.
  • Seobility: Die Seobility GmbH aus Nürnberg bietet auf ihrer Homepage verschiedene SEO-Tools zur kostenfreien Nutzung an – u. a. ein einfaches WDF*IDF-Tool. Die Webanwendung erlaubt es Nutzern, die Gewichtung eines Terms auf Basis der WDF*IDF-Formel zu analysieren. Darüber hinaus spielt das Tool weitere Begriffe (inklusive Frequenzwert) aus, die zu dem gesuchten Wort passen. Der Zugriff auf das Seobility-Programm ist auf fünf Nutzungen pro Tag und Nutzer beschränkt. User, die sich einen Account erstellen, können erweiterte Sucheinstellungen vornehmen und z. B. die Basis des Logarithmus anpassen, die Anzahl berücksichtigter Suchergebnisse erhöhen oder die Plattform (Desktop/Mobile) auswählen, für die optimiert werden soll.
Zur Anzeige dieses Videos sind Cookies von Drittanbietern erforderlich. Ihre Cookie-Einstellungen können Sie hier aufrufen und ändern.