TF-IDF

Was bedeutet TF-IDF?

TF-IDF steht für «Frequency-Inverse Document Frequency» und ist eine Methode zur Bestimmung der Qualität eines Inhalts auf der Grundlage einer festgelegten Erwartung dessen, was ein tiefergehender Inhalt enthält.

In einem früheren Artikel über TF-IDF erklärt A.J. Ghergich: «Das allgemeine Ziel von TF-IDF ist es, statistisch zu messen, wie wichtig ein Wort in einer Sammlung von Dokumenten ist».

Wenn Sie zum Beispiel ein Kleinunternehmer:in sind, welche lernen möchte, wie man Suchmaschinenoptimierung einsetzt, um mehr Besuchende auf die Webseite zu bringen, gibt es mehrere Themen, die ein kompletter SEO-Leitfaden abdecken würde, darunter:

Keyword Research
Meta Data
Site Audit
Crawl-Ability
Google Bots

Andere Themen, die ebenfalls von Bedeutung sind, aber wahrscheinlich weniger häufig vorkommen als die in der obigen Liste genannten, sind

SEO Tools
SEMrush
Core Update
Panda Update
H1 Tag

Bei der Bewertung eines Inhalts würde der Google-Algorithmus berechnen, wie oft jeder der oben genannten Begriffe im Vergleich zu allen anderen Begriffen in allen derzeit mit «SEO-Leitfaden» assoziierten Inhalten vorkommt. Diese Daten werden dann als Basis-Punktzahl verwendet, anhand derer jeder einzelne Inhalt bewertet werden kann. TF-IDF kann Ihnen dabei helfen, herauszufinden, welche Keywords Sie vermissen.

The TF-IDF: Ein leistungsfähiges Werkzeug für die Textanalyse

SEOs und Content-Writer des Online-Marketings können TF-IDF nutzen, um Inhaltslücken in ihren aktuellen Inhalten zu identifizieren, basierend auf den Inhalten, die derzeit in den Top 10 der Suchergebnisse ranken. Sie kann auch bei der Erstellung neuer Inhalte verwendet werden, damit diese schneller in den oberen Rängen erscheinen. Vermarkter:innen haben jedoch auch nur begrenzte Zeit. Auf welche Inhalte sollten Sie sich also zuerst konzentrieren, um den grössten Nutzen zu erzielen?

1. Inhalte mit hohem Potenzial, die auf der 2. Seite feststecken

Beginnen Sie mit der Identifizierung von Inhalten, die bereits seit einiger Zeit auf Ihrer Webseite vorhanden sind, sich aber nur schwer auf der ersten Seite platzieren lassen. Wenn dieser Inhalt bereits nach technischen SEO-Gesichtspunkten optimiert wurde und eine gewisse Autorität geniesst, würde er wahrscheinlich von einer weiteren Inhaltsoptimierung profitieren.

2. Inhalte, die im letzten Jahr langsam an Traffic verloren haben

Wenn ich eine Website sehe, die langsam von der Spitze der ersten Seite auf das untere Ende der ersten Seite gefallen ist, liegt das in der Regel an der zunehmenden Konkurrenz oder daran, dass der Google-Algorithmus die für diese SERP relevantesten Inhalte verändert.

Eine schnelle Möglichkeit, dies zu überprüfen, besteht darin, mit einem Tool wie SpyFu einen Screenshot der SERP von vor einem Jahr zu erstellen und mit der aktuellen SERP zu vergleichen.

Ausserdem ist es wichtig, Aspekte wie die Suchmaschinenoptimierung (Search Engine Optimization, SEO) zu berücksichtigen, um sicherzustellen, dass Ihre Webseite von den wichtigsten Suchmaschinen (Search Engines) gefunden wird. In jedem Fall hilft es Ihnen, Ihre Inhalte zu überprüfen, um sicherzustellen, dass sie immer noch relevant sind und die höchste Relevanz haben, um diese Platzierungen zu erhalten.

3. Produktseiten, die sich schwertun zu ranken

Zwar profitieren in der Regel eher die Top-of-Funnel-Inhalte von TF-IDF, doch wenn Ihre Produktseiten Schwierigkeiten haben, für Ihre geldwerten Begriffe zu ranken, fehlen auf dieser Seite wahrscheinlich wichtige Inhalte.

Term Frequency-Inverse Document: Beispiel

Letztes Jahr erstellte Lucidpress diese Seite für Markenmanagement-Software, um seine neuen Unternehmensfunktionen zu bewerben. Obwohl die Seite optimiert, crawlbar und relevant war, kämpfte sie noch Monate später mit dem Ranking. Wir benutzten Ryte, um eine TF-IDF-Analyse durchzuführen:

Je höher der orangefarbene Balken im Diagramm ist, desto relevanter ist das Keyword. Wie Sie sehen können, werden digitale Assets in dieser SERP als fast genauso relevant angesehen wie Marken-Assets. Von hier aus mussten wir herausfinden, welches Thema andere Seiten enthielten, was unsere nicht tat. Rufen Sie dazu die SERP für Ihr ursprüngliches Keyword auf und prüfen Sie, wie Ihre Konkurrenz diesen Begriff verwenden.

Ein Blick auf die Titel-Tags lieferte den ersten Anhaltspunkt:

Digital Asset Management und Brand Asset Management sind technisch gesehen zwei verschiedene Produktkategorien, aber sie werden oft austauschbar verwendet, und dieselben Websites ranken für beide Begriffe. Lucidpress verfügt derzeit nicht über alle Funktionen einer Digital-Asset-Management-Lösung, aber es gibt viele Überschneidungen, sodass wir das Thema hinzugefügt haben, indem wir diese Überschneidungen angesprochen haben:

Das nachstehende Diagramm zeigt den daraus resultierenden Anstieg des Keyword-Rankings. Vor den Inhaltsaktualisierungen rangierte die Seite entweder gar nicht (wo die Linie plötzlich abfällt) oder lag im Durchschnitt auf Platz 50. Nach den Inhaltsaktualisierungen rangiert die Seite konstant um Position 25.

Unsere Long-Tail Keywords rangierten am unteren Ende der zweiten Seite. Seit den Aktualisierungen haben sich diese Platzierungen auf die erste Seite verschoben.

Denken Sie daran, dass das Ziel von TF-IDF darin besteht, Ihnen dabei zu helfen, sich der Qualität von Inhalten auf die gleiche Weise zu nähern, wie es eine Maschine (Google) tut, aber das ultimative Ziel sowohl von Google als auch von Ihnen ist es, den besten Inhalt für den Nutzer zu erstellen.

TF-IDF: Wie wird es berechnet?

TF-IDF wird durch eine Multiplikation von zwei verschiedenen Metriken berechnet:

Die Term-Frequenz eines Wortes in einem Dokument. Es gibt verschiedene Möglichkeiten, diese Häufigkeit zu berechnen, wobei die einfachste eine reine Zählung der Vorkommen eines Wortes in einem Dokument ist. Dann gibt es Möglichkeiten, die Häufigkeit nach der Länge eines Dokuments oder nach der rohen Häufigkeit des häufigsten Worts in einem Dokument anzupassen.

Die Inverse Document Frequency des Wortes in einer Reihe von Dokumenten. Dies bedeutet, wie häufig oder selten ein Wort in der gesamten Dokumentenmenge ist. Je näher sie bei 0 liegt, desto häufiger ist ein Wort. Diese Metrik lässt sich berechnen, indem man die Gesamtzahl der Dokumente durch die Anzahl der Dokumente, in denen ein Wort vorkommt, teilt und den Logarithmus berechnet.Wenn das Wort also sehr häufig ist und in vielen Dokumenten vorkommt, nähert sich diese Zahl der 0 an, andernfalls nähert sie sich der 1.

Die Multiplikation dieser beiden Zahlen ergibt den TF-IDF-Score eines Wortes in einem Dokument. Je höher die Punktzahl ist, desto relevanter ist das Wort in diesem bestimmten Dokument.

Um es formaler auszudrücken, wird der TF-IDF-Score für das Wort t im Dokument d aus der Dokumentenmenge D wie folgt berechnet:

TF-IDF und der Einfluss auf maschinelles Lernen

Maschinelles Lernen mit natürlicher Sprache steht vor einer grossen Hürde – die Algorithmen arbeiten normalerweise mit Zahlen, und natürliche Sprache ist, nun ja, Text. Also müssen wir diesen Text in Zahlen umwandeln, auch bekannt als Textvektorisierung.

Dies ist ein grundlegender Schritt im Prozess des maschinellen Lernens für Suchmaschinen, die Informationen aus dem Internet extrahieren, und die Suchmaschinenoptimierung verbessern. Verschiedene Vektorisierungsalgorithmen wirken sich drastisch auf die Endergebnisse aus, sodass Sie einen auswählen müssen, der die gewünschten Ergebnisse liefert.

Sobald Sie Wörter in Zahlen umgewandelt haben, und zwar so, dass die Algorithmen des maschinellen Lernens sie verstehen, kann der TF-IDF-Score in Algorithmen wie Naive Bayes und Support Vector Machines eingespeist werden, was die Ergebnisse grundlegenderer Methoden wie der Wortzählung erheblich verbessert.

Warum funktioniert das?

Einfach ausgedrückt, stellt ein Wortvektor ein Dokument als eine Liste von Zahlen dar, mit einer Zahl für jedes mögliche Wort des Korpus. Die Vektorisierung eines Dokuments bedeutet, dass man den Text nimmt und einen dieser Vektoren erstellt, wobei die Zahlen der Vektoren den Inhalt des Textes darstellen.

TF-IDF ermöglicht es uns, jedes Wort in einem Dokument mit einer Zahl zu verknüpfen, die die Relevanz des Wortes in diesem Dokument darstellt. Dokumente mit ähnlichen, relevanten Wörtern haben dann ähnliche Vektoren, und das ist es, wonach wir in einem Algorithmus für maschinelles Lernen in der Information Retrieval und Suchmaschinenoptimierung suchen.

Maxi Maxhuni

CEO, MIK Group

Maxi Maxhuni ist CEO der MIK Group und Experte für Suchmaschinenoptimierung und digitale Wachstumsstrategien. Mit über 10 Jahren Erfahrung im Online-Marketing hilft er Schweizer KMU, ihre digitale Sichtbarkeit nachhaltig zu steigern.