Victime d’un Black Hat SEO ?

Partant de ce constat, j’ai donc développé un agrégateur de blogs sexy intégré à mon site abordant régulièrement ce sujet. Certes, le contenu de cet agrégateur se voulait dynamique, puisqu’il se mettait à jour automatiquement selon les mises à jours des blogs référencés. Cependant, l’agrégateur se voulait aussi peu interactif, puisque les utilisateurs ne pouvaient même pas ajouter de nouveaux blogs, contrairement à la tendance, sinon en me les proposant par email dans l’espoir que je les ajoute à la liste de sites référencés.

Grâce au contenu déjà existant, d’une part, aux efforts de référencement, d’autre part, et de cet agrégateur de blogs clés en main, pour finir, le site attire plusieurs centaines de milliers d’utilisateurs uniques, dont une part non négligeable rien que sur la requête « blog sexe » en provenance des moteurs de recherche où mon agrégateur était placé en toute première position et ce depuis déjà plusieurs années.

Depuis un an, cependant, j’ai vu débarquer des concurrents en tous genres : certains reprenaient le principe d’un agrégateur sexy automatique, mais non éditable, en tout point similaire au mien, alors que d’autres pillaient bêtement ma base de données des sites référencés, sans oublier ceux qui se sont mis à acheter frénétiquement tous les noms de domaines possibles reprenant toutes les déclinaisons du titre de ma page d’origine. Bref, sans surprise, ces efforts n’ont été d’aucun secours pour détrôner ma page de sa première position sur les moteurs de recherche. En effet, l’antériorité et la popularité de ma page auprès de blogueurs influents et un référencement de longue halaine étaient garants d’un référencement supérieur.

Evolution des visites en provenance de la requête « blog sexe »

Evolution des visites de la page « Blogs Sexe »

Cependant, depuis quelques semaines, j’ai noté une très nette détérioration de la fréquentation de mon site depuis les moteurs de recherche sur la requête « blog sexe » pourtant bien établie jusqu’ici, ainsi que sur des requêtes connexes.

En étudiant de plus près les statistiques de fréquentation de mon site, je me suis rendu compte que de très nombreuses requêtes de pages visaient non pas seulement l’adresse précise de la page de l’agrégateur, mais aussi des adresses voisines menant à l’agrégateur. En somme, en lieu et place de l’URL officielle, du type :

http://blog.lesperlesduchat.com/sexe.php

j’ai vu apparaître des URL parasites affichant un contenu identique, comme :

http://blog.lesperlesduchat.com/sexe.php/img/img/img/img/img/img/

J’en suis donc à suspecter des méthodes de Black Hat SEO appliquées par un concurrent visant à faire apparaître sur mon site des pages de contenu dupliqué en soumettant aux moteurs de recherche des pages web tierses pointant vers ces pages fantômes. Cette technique de déréférencement des concurrents est abordée sur le blog Best Viewed With Googlebot. Par ailleurs, mes concurrents pillant ma base de données des blogs référencés et recopiant le principe de mon agrégateur, je devine que la proximité de contenus sur divers sites doit tous les pénaliser dans une certaine mesure ; c’est d’ailleurs une méthode de concurrence déloyale que j’ai évoquée récemment.

Suis-je pour autant certain qu’un concurrent cherche à dévaloriser mon site sur les moteurs de recherche ? Je ne peux l’affirmer avec certitude, l’attaque supposée ayant cessé, je ne trouve pas trace d’éventuelles pages de liens fantômes. De plus, plusieurs autres raisons peuvent expliquer la baisse de la fréquentation de ces pages et la perte de quelques places sur les moteurs de recherche sur la requête convoitée. Parmi les raisons possibles, le changement de la maquette du site, modifiant la structure des liens inter-pages, est une raison probable, tout comme la modification de certains plug-ins développés spécifiquement pour améliorer le référencement du site. De plus, une baisse de la fréquence des publications sur ledit site réduit l’apparition automatique de nouveaux liens vers la page à promouvoir. Enfin, un ralentissement des efforts de référencement du site peut lui aussi expliquer cette baisse de la fréquentation.

Toujours est-il que j’ai modifié la configuration du site pour empêcher, ou du moins limiter les attaques au contenu dupliqué sur le site par une redirection des adresses dupliquées. En cas de nouvelle attaque, au lieu de pénaliser mes pages, l’attaquant pourrait au contraire participer activement à leur référencement.

Ceci dit, à moins d’une surveillance assidue dans ce sens, il n’est pas évident d’identifier des attaques au contenu dupliqué. En effet, ces attaques ne touchent pas au site attaqué et se contentent de publier des liens fantômes présentant un contenu dupliqué aux robots d’indexation des moteurs de recherche sans nécessairement envoyer de visiteurs humains. Il devient alors difficile d’identifier la source de l’attaque et en limiter les dégâts. Cependant, compte tenu de l’impact sur les visites de la perte de ne serait-ce que d’une position sur les résultats des moteurs de recherche, en particulier sur les mots-clés populaires, il est important de garder un oeil sur l’évolution de son audience et de rechercher la cause d’une baisse a priori inexpliquée. En effet, lorsque l’on n’arrive pas à améliorer le positionnement d’un site web sur les moteurs de recherche, il devient tentant de faire en sorte de réduire celui de ses concurrents…

Comments

  1. Tu donne des cours ? non ? Tu devrais !! 

  2. comment le robot a t il pu référencer http://blog.lesperlesduchat.com/sexe.php/img/img/img/img/img/img/ si la page n'existe pas ? c'est du backlink, du redirect ? merci d'av pour ta réponse

  3. sheepyr, la formation en matière de référencement web et la SEO ne fait pas partie des services que je souhaite proposer en 2007 à mes clients. En effet, en 2007, je souhaite me concentrer sur le référencement de sites et d'améliorer l'efficacité de ce référencement pour promouvoir plus efficacement les sites de mes clients, ainsi que d'améliorer ma productivité pour réduire les coûts de ce référencement.

    Mais, qui sait, un jour, lorsque je maîtriserai un peu mieux le référencement web, je me pencherai peut-être sur la formation, ou du moins proposerai-je des séminaires de sensibilisation aux webmasters ? Note que ce type de prestations existent déjà et sont proposées par diverses sociétés.

    web2merd, de nombreuses applications web, dont les blogs, apprécient de tourner sur un serveur web Apache avec le module mod_negociation activé, en vue d'exploiter les fonctionnalités de l'option Multiviews. Celle-ci permet notamment un accès plus aisé aux ressources du site, puisqu'un utilisateur peut taper une URL relativement approximative et même si celle-ci n'existe pas en tant que telle, le contenu le plus proche lui sera délivré. L'avantage de cette option est donc d'améliorer l'accessibilité du site (ici au sens "améliorer l'accès aux ressources hébergées sur le site" et non au sens "facilité d'accès aux personnes handicapées").

    Ainsi, une même page web hébergée sur un serveur web peut par conséquent avoir plusieurs adresses. Cette fonctionnalité est très prisée par certains CMS pour offrir des URL faites de mots au lieu de listes de paramètres incompréhensibles pour le commun des mortels. De plus, ces mots-clés intégrés aux URL participent activement au référencement des pages, puisqu'ils aident les êtres humains et les robots d'indexation des moteurs de recherche à qualifier le contenu des pages.

    Bien entendu, l'option Multiviews n'est pas le seul moyen de rendre les URL des pages d'un site web aisément lisibles, mais les problèmes relatifs à la duplication de contenu n'en restent pas les mêmes quelle que soit la méthode utilisée.

    Dans mon cas, les URL suivantes :

    http://blog.lesperlesduchat.com/sexe.php
    http://blog.lesperlesduchat.com/sexe.php/
    http://blog.lesperlesduchat.com/sexe.php/img
    http://blog.lesperlesduchat.com/sexe.php/img/img
    etc.

    pointaient toutes sur le même contenu, à savoir celui proposé par la page :

    http://blog.lesperlesduchat.com/sexe.php

    Désormais, une redirection par code statut HTTP 301 (redirection permanente) redirige les visiteurs humains et les robots d'indexation sur la même page, dans le but d'empêcher toute apparition de contenu dupliqué à partir de cette adresse.

    Note par ailleurs que les sites web dynamiques, quelle que soit la configuration du serveur, ne sont pas les seuls à pouvoir être attaqués. En effet, un site tout ce qu'il y a de plus statique peut lui aussi subir de telles attaques, par exemple via des liens comme suit :

    http://www.example.com/ma_page_statique.html
    http://www.example.com/ma_page_statique.html?param_bidon=1
    http://www.example.com/ma_page_statique.html?param_bidon=2
    http://www.example.com/ma_page_statique.html?param_bidon=3

    Les moteurs de recherche sont sensés identifier les pages au contenu dupliqué pour ne garder dans leurs bases de données que la page originale, sans pénalité appliquée à la page d'origine. Il n'en reste pas moins que divers bugs et autres faux positifs peuvent pénaliser les pages originales d'un site, voire un site dans son ensemble, si les équipes anti-spam web ou les algorithmes de protection anti-spam mis en place par les moteurs de recherche devaient être bernés par ce type de procédé agressif.

  4. Splendide article ! Qui aurait cru en plus que tu étais l'éditeur de blogs bd le site où je vais de plus en plus (toujours pas en favoris donc requête blogs bd sur google à chaque visite … lol) Créer un aggrégateur de blogs bds juste avant l'explosion (la vraie) de ce type de blogs, c'est bien ingénieux ! 

  5. Ravi de voir que cet article t'ait plu, wouaren. Sur ce blog, j'essaye d'aborder ma propre expérience du web, sans aucune prétention, et de la partager avec les quelques visiteurs qui passent par ici.

    Pour ce qui est de Blogs BD, dont je parle ici notamment, attention cependant aux mots. En effet, je pense qu'éditeur du site n'est pas approprié ici. Je pense qu'hébergeur du site semble plus correct.

    En effet, Matt est l'initiateur du projet, son développeur, en assure la maintenance, le référencement, la promotion et la communication en général. Pour ma part, je me contente de lui faire quelques suggestions techniques et de lui apporter les moyens logistiques (l'hébergement) permettant la diffusion du site.

  6. Martin lys tendresse says:

    Très bon article, bravo.
    Effectivement ces attaques se multiplient et on espere que google a bien vérouillé son algorythme!

    Comme expliqué, un bon fichier robots.txt ou htaccess, bien configué permet d’inverser l’effet de l’attaque. cela est long, mais evite de grosses pertes de referencement.

  7. Excellent article qui reste toujours autant d’actualité face à des techniques SEO peu réprimées par google au bout du compte car totalement invisibles pour la plupart.

  8. Très bon article.
    Parce’que vous etes de pros, je profit pour poser une petite question, car j’ai mon site tombé dans la Sandbox:
    Dans combien des annuiares par jour il faut soumettre son site pour progresser dans les serps?
    Merci de vos réponses.

  9. Tiens on se pose la meme question. Retour d’informations à ce sujet depuis le temps?

  10. @David : Je n’ai pas réussi à avoir le fin mot de l’histoire, mais les problèmes rencontrés en matière de référencement venaient probablement d’une perte d’intérêt pour ma page de la part de Google. Cela a été définitivement confirmé bien plus tard, lors d’un nouveau changement d’algorithme de Google qui a largement déprécié les liens isolés dans le calcul de la popularité des pages, type de liens qui propulsaient très largement ma page dans les résultats du moteur précédemment.

Speak Your Mind

*

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.