Wat is TF-IDF en hoe gebruik je het als ondersteuning en aanvulling op andere SEO-methodes en tools?
We wisten al dat de SEO-industrie booming was, maar wie had een jaar of tien geleden verwacht dat nieuwe trends en ontwikkelingen elkaar nu zo snel zouden opvolgen? Het SEO-landschap is compleet veranderd in de afgelopen jaren en de verwachting is dan ook niet dat dit in de komende jaren gelijk zal blijven. Je hebt er bijna een fulltime job aan om altijd op de hoogte te blijven van de laatste ontwikkelingen en updates. Sommige trends blijven hangen en er wordt op voortgeborduurd, terwijl andere ontwikkelingen en updates met veel bombarie gepresenteerd worden, maar relatief kort hierna weer de prullenbak in verdwijnen. Dat komt omdat ze toch niet zo geweldig of baanbrekend bleken als verwacht. Eén van de technieken waarvan de verwachting is dat deze ondanks het veranderde landschap niet snel zal verdwijnen, is TF-IDF. TF-IDF is de afkorting van Term Frequency with Inverse Document Frequency. De techniek is niet een methodiek waar je 100% je SEO-strategie op kunt baseren, maar is een benadering die zeer bruikbaar kan zijn als ondersteuning en aanvulling op andere SEO-methodes en tools.
TF richt zich op de frequentie van een woord in de tekst
TF-IDF is een techniek die zich richt op de belangrijkheid van een specifiek woord in de inhoud (content). Dit klinkt relatief eenvoudig en in theorie is dat ook het geval, maar er zitten wel een aantal complexe wiskundige formules aan vast die bepalen hoe relevant een specifiek woord is in jouw content. De manier waarop de techniek werkt, is dat er gekeken wordt naar de frequentie van een woord in andere teksten van gerelateerde content of content over hetzelfde onderwerp. Deze frequentie is een zeer belangrijk onderdeel van de formule maar nog niet alles, want deze kijkt louter naar de frequentie van een woord in een stuk tekst en niet per definitie naar de inhoud of context.
IDF analyseert het woord en de frequentie over de corpus
Het tweede gedeelte van de methode (IDF) behandelt de zogeheten inverse documentfrequentie. Dit onderdeel richt zich niet alleen op een tekst, maar op meerdere teksten en de terugkeer van specifieke woorden in deze teksten bij elkaar. Deze groep teksten wordt ook wel naar gerefereerd als corpus. Uiteraard worden voegwoorden en voorzetsels uit de formule gefilterd, omdat deze anders de hoogste frequentie zouden hebben. Een voorbeeld is wanneer je bijvoorbeeld een stuk content over Amerika schrijft, dat je door de techniek van TF-IDF te gebruiken, er een uitkomst zou kunnen zijn dat meerdere nieuwsartikelen aantonen dat het woord “Trump” een belangrijk woord is in content over dit onderwerp.
Toepassing van TF-IDF door zoekmachines
Hoewel je misschien niet van TF-IDF gehoord had voor je dit artikel las, is deze methode al een behoorlijke periode aanwezig en misschien wel onderbelicht geweest. De toepassing is ontstaan in de jaren 70 en 80 en wordt tegenwoordig veel gebruikt door zoekmachines zoals Bing en Google. De TF-IDF-techniek helpt zoekmachines om te analyseren waar een tekst over gaat. Er zijn bijvoorbeeld woorden die meerdere betekenissen hebben en die in verschillende contexten gebruikt worden. Het Engels woord “order” is hier een goed voorbeeld van. Het woord “order” wordt veel gebruikt in sales en marketing in de context van het plaatsen van een bestelling, tegelijkertijd betekent exact hetzelfde woord ook rangschikking, wat weer een totaal andere betekenis is. Door middel van TF-IDF kan een zoekmachine achterhalen waar een tekst over gaat door te kijken naar woorden die gebruikt worden in combinatie met het specifieke woord en zo de context verhelderen.
TF-IDF heeft veel potentieel voor individuele gebruikers en webmasters
TF-IDF is dus zeker geen nieuwe techniek wanneer het aankomt op de door zoekmachines gebruikte methodes. Op het gebied van individueel gebruik door webmasters lijkt deze techniek echter ondergewaardeerd en aanzienlijk minder gebruikt. Dat is erg jammer, want het potentieel is groot: zeker wanneer je bedenkt dat je TF-IDF kunt gebruiken ter inspiratie en er makkelijk vergelijkbare woorden mee kan vinden om in je content te verwerken. Door deze techniek te gebruiken, wordt het veel gemakkelijker om je content meer uniek te maken en daarmee ook beter te ranken.
TF-IDF heeft meer ondersteunende tools nodig voor een definitieve doorbraak
Wanneer je alle voordelen van TF-IDF op een rijtje zet, is het bijna onbegrijpelijk dat deze methode niet bekender is en niet vaker voorkomt in artikelen over tips en trends in SEO-land. De reden hiervoor is de toepassing van de methode. TF-IDF kan voor de leek nogal snel te complex overkomen en het zelf berekenen van de formules is voor de onervaren gebruiker vrijwel onbegonnen werk. Er zijn gelukkig wel een aantal online tools beschikbaar die je hierbij kunnen helpen, zoals bijvoorbeeld het Duitse OnPage.org. Deze relatief gebruiksvriendelijke website-analysetool helpt bij de toepassing van TF-IDF. Het feit dat deze tool van Duitse makelij is, mag geen toeval heten: TF-IDF wordt veel meer gewaardeerd en gebruikt door onze oosterburen. Voor een definitieve doorbraak van deze techniek op Europese en globale schaal, zijn er echter meer aanbieders van hulptools nodig en zal uiteindelijk de mond-tot-mond reclame en het delen van resultaten voor deze methode kunnen maken of breken.
Dit gastblog is geschreven door Romano Groenewoud, werkzaam als Google-specialist onder de alias ‘SEOgeek’.