Filtrage automatique
C’est en étudiant la Google SOAP Search API dans le but de réaliser divers forages de données (ou data mining) sur la fréquentation des sites sous ma responsabilité que je suis tombé sur la note suivante présente dans la référence de ce service désormais fermé aux nouveaux utilisateurs :
filter : Active ou désactive le filtrage automatique des résultats qui cache les résultats très similaires ou les résultats qui proviennent d’un même hôte web. Le filtrage tend à améliorer l’expérience utilisateur de Google, mais votre application peut vouloir la désactiver. Voir la section Filtrage automatique pour plus de détails.)
Plus loin, on peut lire :
Lorsqu’activé, le filtrage prend les actions suivantes :
- Filtrage du contenu très similaire : si plusieurs résultats similaires contiennent des titres et extraits identiques, alors seul l’un des documents est retourné.
- Encombrement de l’hôte : si plusieurs résultats proviennent d’un même hôte web, seuls les deux premiers sont retournés.
Le détail sur le choix des pages retournées n’est cependant pas indiqué. S’agit-il des pages les mieux référencées ? Des plus anciennes ? Des plus anciennes référencées sur ces mots-clés là ? Des plus anciennes comportant les mêmes extraits ? Par ailleurs, quelle est la définition de l’hôte web ? S’agit-il d’un même nom de domaine principal, ou bien bien du même serveur, ou bien encore du même nom de domaine hébergé sur la même IP (chaque sous-domaine peut se trouver sur une adresse IP distincte) ?
Stratégie d’élimination des sites web concurrents
Toujours est-il que si l’on souhaite éliminer la concurrence des résultats de recherche de Google, une stratégie qui apparaît viable tendrait à :
- rédiger des pages au contenu très similaire au contenu créé par la concurrence et repris en tant qu’extrait dans les résultats de recherche des pages à faire disparaître (cet extrait dépend des mots-clés recherchés, de sorte qu’il n’est pas nécessaire de copier à l’identique toute la page) ;
- si la concurrence utilise un hébergement mutualisé, choisir la même solution d’hébergement pour héberger son nouveau site web, afin de l’associer à la même adresse IP ;
- référencer son nouveau site en privilégiant les mots-clés desquels on souhaite éliminer la concurrence.
Certes, cette stratégie implique que son propre référencement soit meilleur que celui des concurrents, mais aurait pour résultat (du moins visé, à défaut d’être atteint) non pas de se placer avant la concurrence dans les résultats de recherche, mais d’éliminer la concurrence. Bien entendu, tant que le référencement ainsi réalisé n’est pas préféré par Google au site d’origine, le risque est de ne jamais voir son nouveau site apparaître dans les résultats, celui-ci proposant un contenu trop similaire au site original, il serait éliminé automatiquement des résultats de recherche.
Contre-mesures
A l’opposé, si l’on a un site web bien positionné (ou non), il est prudent de vérifier régulièrement où se positionne la concurrence en termes non plus seulement de positionnement dans les résultats, mais aussi de son contenu.
De très nombreux sites exploitent en effet les mécanismes tels que les flux RSS des blogs pour remplir leurs pages de contenu contrefait généré automatiquement sans apporter de valeur ajoutée additionnelle aux visiteurs. Si ces sites de contrefacteurs (en effet, ceux-ci violent les lois relatives au droit d’auteur) devenaient mieux référencés que les originaux, les sites d’origine pourraient voir leur trafic issu des moteurs de recherche chuter rapidement. Il convient alors de faire fermer rapidement tous les sites web de contrefaçon et de plagiat, veiller à l’originalité de votre contenu et à sa protection étant de bons moyens de garder son référencement.
Le même problème se pose sur les sites publiant des catalogues de produits issus de programmes d’affiliation : seul le site le mieux positionné attire du public sur les mots-clés directement issus du catalogue, les autres sites n’apparaissant pas dans les résultats de recherche. Aussi, il convient de compléter le contenu d’origine avec des informations originales substantielles, de sorte que les extraits figurant dans les résultats de recherche soient distincts du catalogue d’origine.
Une situation plus absurde serait de voir ses propres efforts de référencement compromettre les pages promues. La popularité des sites web communautaires de type Digg-like favorisant les copier-coller (d’extraits) des pages promues consiste justement à créer des pages au contenu (partiellement) dupliqué. Si l’une de ces pages venait à être mieux référencée que la page d’origine, cette dernière, au lieu de générer du trafic direct des moteurs de recherche, favoriserait elle-même un site tiers ! Il est alors utile, lorsqu’on référence soi-même ses pages via ce type de sites web, d’utiliser un contenu original, représentatif du contenu de la page à promouvoir, mais distinct.
Conclusion
Dans ses Conseils aux webmasters, Google recommande de créer des sites au contenu original, pertinent et utile aux visiteurs, sous peine de voir ses pages disparaître du moteur de recherche. Mais si l’on ne respecte pas cette consigne et que l’on contrefait des sites existants, ou du moins que l’on réalise un site au contenu très similaire, que se passe-t-il ? Lequel des sites est-il retenu, lequel est-il éliminé ? J’avoue que je l’ignore. Néanmoins, la crainte, lorsque l’on réalise un site au contenu se voulant original, est de voir son site disparaître au profit d’un concurrent peu scrupuleux, pas du tout original dans sa démarche, mais disposant de davantage de moyens pour assurer le référencement de ses pages…
La solution ? Outre référencer son propre contenu, surveiller le référencement et le contenu des concurrents, leur demander éventuellement de retirer le contenu litigieux et, le cas échéant, utiliser des moyens légaux pour vous protéger. Enfin, dans tous les cas de contrefaçon manifeste, formuler une plainte auprès de Google.
En effet, commencer un site web après un concurrent, c'est risquer de se faire pénaliser par les moteurs de recherche au profit de la concurrence, justement. Néanmoins, si les efforts de référencement sont plus importants, il n'est pas impossible de se placer avant le concurrent. Ceci dit, ce type d'effort ne vaut sans doute pas la peine d'être réalisé, le temps et l'énergie consacrée à un tel déréférencement seraient probablement mieux utilisés à créer un site web tout à fait original ayant une véritable valeur ajoutée.
Pour ce qui est d'éventuelles poursuites judiciaires, ou encore un blacklist-age auprès des moteurs de recherche, encore faudrait-il qu'il y ait matière à cela. En effet, si le contenu du nouveau site est bel et bien différent, cela paraît difficilement justifiable.
Quoi qu'il en soit, vous avez raison de le souligner : ce type de procédé est (au moins moralement) condamnable et à éviter. En effet, outre le temps perdu, souvent en vain, la réalité des résultats étant pour le moins discutable, on risque en effet des ennuis sur le plan légal (ne serait-ce que pour "concurrence déloyale", par exemple).
Bonjour ;
Presque 2 ans après cette discussion, voyez-vous une évolution des possibilités dans ce domaine ? Je m’intéresse notamment aux blogs, aux réseaux sociaux et aux problématiques de gestion de réputation.
Merci.
@Emmanuel de Saint-Bon : Je ne sais pas s’il s’agit d’une évolution, mais de nombreuses autres techniques existent pour limiter la présence des concurrents dans les résultats de recherche de Google.
Les techniques abordées ci-dessus, et notamment la republication de flux RSS sont très largement exploitées par certains SEO sans scrupules pour détourner le trafic de sites tiers peu connus sur leurs propres sites d’agrégation de contenus leur permet de publier des milliers, voire des millions de pages sans effort, ce qui améliore, bien trop souvent, leur positionnement sur les moteurs de recherche. Cela coûte très largement plus de lutter contre ce type de parasitisme que de créer de tels sites parasites, d’où un réel problème.
D’autres techniques consistent à faire plusieurs sites portant sur un même sujet en menant une politique d’échange de liens agressive pour monter dans les résultats de recherche au détriment des concurrents. Ainsi, avec cinq sites bien référencés et deux liens par site dans les réponses à une requête, on peut remplir toute la première page de résultats de Google.
Pour ce qui est de la réputation, il existe une bonne douzaine d’agences de communication en France permettant d’acheter aux annonceurs des articles, qu’ils soient favorables ou non, sur leurs produits ou leurs services, y compris par des blogueurs qui n’ont aucune compétence ni autorité en la matière. Il s’agit là encore de polluer les résultats de recherche avec une présence bien souvent artificielle, maintenant qu’il est acquis que les clients font des recherches sur les blogs avant l’acte d’achat.
Par ailleurs, certaines entreprises n’hésitent pas à publier des faux avis positifs sur leurs produits et services. Certains référenceurs très bas de gamme ont recours à ce type de stratégie. Mais cette stratégie peut très rapidement se retourner contre l’entreprise qui en est à l’origine, ce qui en fait une arme très déconseillée en matière de gestion de réputation.
Enfin, ces dernières années, il semblerait que l’intelligence économique se développe de plus en plus sur Internet. En faisant de la veille systématique sur ce qui se dit en ligne, les entreprises n’hésitent pas à menacer les responsables de sites de poursuites dès qu’un avis négatif est publié, voire de mettre à exécution ces menaces. Bien peu de blogueurs tiennent tête à des enseignes en faisant face aux frais d’une procédure judiciaire.
en parlant d’intelligence économique .j’ai vu sur le dernier salon e-commerce un outil qui permet de lister et surveiller la liste des sites parlant positivement ou négativement de ton site.développé en Java le module coute autour de 5000€.avis au amateur