Le content spinning a pour vocation de créer des variantes d’un texte source suffisamment unique et lisible pour être à la fois compris par les moteurs de recherche et par les être humains. Pour passer à travers des restriction de google panda en matière de duplicate content il faut passer en dessous du seuil « toléré » par l’algorithme. Pour calculer le seuil de similarité, il existe différentes méthodes de calculs. les trois principales sont la méthode Leveinsthein, Jaccard et Simhash. Nous allons voir chacune d’entre elle pour bien comprendre comment définir un seuil de similarité correct pour vos textes. Dans l’idéal si vos textes, et en dessous des 40% pour chacun des trois textes vous êtes normalement tranquille.

Temps estimé pour lire l’article : [est_time]

content spinning Leveinsthein

Voici les définition wikipedia de ces différents test (bien mieux expliqué que ce que je pourrais décemment faire)

Le test Leveinsthein ou distance de leveinsthein : 

La distance de Levenshtein est une distance mathématique donnant une mesure de la similarité entre deux chaînes de caractères. Elle est égale au nombre minimal de caractères qu’il faut supprimer, insérer ou remplacer pour passer d’une chaîne à l’autre.

Le test Jaccard : 

L’indice de Jaccard (ou coefficient de Jaccard) est le rapport entre le cardinal (la taille) de l’intersection des ensembles considérés et le cardinal de l’union des ensembles. Il permet d’évaluer la similarité entre les ensembles.

Le test Simhash : 

In computer science, SimHash is a technique for quickly estimating how similar two sets are. The algorithm is used by the Google Crawler to find near duplicate pages. It was created by Moses Charikar. A large scale evaluation has been conducted by Google in 2006 to compare the performance of Minhash and Simhash algorithms. In 2007 Google reported using Simhash for duplicate detection for web crawling and using Minhash and LSH for Google News personalization.

Pensez à partager pour me motiver à écrire plus d’article sur le SEO ou le growth hacking !