Google et le web spam

Avec la récente mise à jour du PageRank, Google tente manifestement de combattre le web spam. En effet, le moteur de recherches numéro un d’Internet a passé l’été à dévaloriser l’importance des liens isolés apparaissant sur le web. Ces liens sont très populaires auprès de certains spécialistes en référencement et certaines régies publicitaires s’étaient même spécialisées dans ce domaine. Pourtant, l’achat et la vente de liens sur lesquels se basent les moteurs de recherche pour estimer la popularité d’une page web dans le but de tromper les moteurs de recherche est considéré par Google comme du web spam que l’on peut dénoncer à la société. Mais dans cette bataille contre le web spam, Google est-il capable de faire la part des choses ? Car dans la bataille contre le web spam, il faut savoir s’assurer que l’on sait bien identifier son ennemi, dans le but d’éviter les faux positifs (à savoir des pages et des liens légitimes identifiés à tort comme spam) et les faux négatifs (à savoir des pages et des liens de spam identifiés à tort comme légitimes)…

Or, je vous en ai parlé récemment, je gère notamment un site et plus particulièrement une page web promue notamment à base de liens isolés. Attention cependant : aucun de mes sites ne participe à aucun échange ou achat de liens, conformément avec les conseils en référencement de Google, Yahoo!, Live Search et plus généralement de manière respectueuse des visiteurs humains. Le fait est que les personnes qui apprécient les pages ainsi promues ne savent pas, pour la plupart, insérer un lien hypertexte au sein d’un article, alors qu’elles savent insérer un lien dans leur blogroll.

Ainsi, depuis la mise en place du nouvel algorithme de lutte contre le web spam, l’un des principaux mots-clés utilisés par les webmasters amateur désireux de promouvoir spontanément ladite page se voit déclassé, passant durant l’été de la première à la quatorzième place dans les résultats de recherche avec pour conséquence une baisse de trafic des plus significatives sur ce mot-clé que voici :

Vous l’aurez bien compris, cette pénalisation me paraît fort illégitime, puisque je me considère de fait comme faisant partie des faux positifs du nouvel algorithme. D’ailleurs, Une araignée au plafond a aussi perdu un point de PageRank, passant de 5 à 4, alors que le site avait toujours été promu dans les mêmes conditions de respect des règles de référencement proposées (imposées ?) par les moteurs de recherche. Certains des liens assurant la promotion du site apparaissent au bas des sites hébergés sur mon serveur et à la seule discrétion des webmasters amis que j’héberge gracieusement qui choisissent alors spontannément de promouvoir ce présent site auprès de leurs lecteurs. Certes, les enjeux de référencement du présent site sont moindres, celui-ci n’ayant jamais été optimisé dans ce but. Néanmoins, n’est-ce pas un faux positif de plus ?

Existe-t-il pour autant des faux négatifs ? On reproche souvent à Blogger, racheté voici plusieurs années par Google, d’accueil de nombreux splogs du fait de la facilité proposée par la plateforme de blogging de créer des blogs de manière entièrement ou partiellement automatisée. Les spammeurs se donneraient à coeur joie d’y ouvrir des milliers de blogs destinés exclusivement à la promotion de liens les plus divers dans le but d’augmenter la quantité de liens vers des sites tiers, et ainsi améliorer leur positionnement sur les moteurs de recherche.

Depuis son rachat, Google a fait de Blogger sa plateforme de choix pour l’hébergement de blogs de la société. On peut notamment y trouver le blog Google Webmaster Central, dont un article en particulier consacré à la construction de la popularité à base de liens. Un membre de l’équipe Search Quality Team y rappelle les fameux conseils prodigués par Google aux webmasters, et on recommande quelques réseaux sociaux pour y promouvoir ses pages. Le link-baiting est même abordé comme un moyen légitime de construire un réseau de liens légitimes.

En réponse à l’article, publié en décembre 2006, on peut voir plusieurs commentaires, dont celui-ci, manifestement traduit en français par un automate. On le voit, outre du fait du choix d’un vocabulaire peu commun, par l’apparition de mots entre parenthèses apparaissant accolés à d’autres mots lorsque le traducteur hésite entre deux possibilités et les suggère à l’humain responsable en principe de corriger les défauts de la traduction automatique. Faisons-nous plaisir :

Certes, en se mêlant des affaires d’autrui par là j’ai trouvé quelques utilités assez effrontées pour surveiller le positionnement de la compétence et pour voir s’ils(si elles) ont des blocs(trucages), etc.. Si vous avez une curiosité je vous conseille qu’il eheis un coup d’oeil. Ils(elles) sont apparemment gratuits: [lien que je censure ici volontairement, ce lien pointant vers une page maladroitement traduite en français par un automate consacrée à la SEO apparaissant sur un site faisant la promotion d’un service hispanique de récupération de disques durs endommagés]

Le profil de l’utilisateur responsable de ce commentaire nous donne des informations des plus édifiantes : 25 blogs, dont plusieurs blogs affichant un PageRank 4, écrits en espagnol et consacrés tous à la récupération de données endammogées et présentant des pages identiques ou équivalentes (avec une présence incontestable de contenu dupliqué), utilisant des techniques de cloaking (textes apparaissant de la couleur du fond de la page à destination exlusive des moteurs de recherche et non des lecteurs humains) et visant à promouvoir auprès des moteurs de recherche un site web de récupération de disques durs endommagés.

Cet exemple flagrant de faux négatif en matière de web spam montre que même un blog officiel de Google consacré notamment aux bonnes pratiques de référencement, sur un article devant promouvoir les méthodes de gentils webmasters peut être victime de web spam sans que Google ne l’identifie comme tel. Pire, l’utilisateur responsable de ce spam est hébergé par Google lui-même et se voit récompensé, malgré les grosses ficelles de web spam réputées inefficaces qu’il emploie, par un PageRank supérieur à de nombreux sites légitimes. Notez par ailleurs que le spammeur n’a manifestement pas été retenu par l’apparente inefficacité de son travail du fait de l’emploi de l’attribut rel= »nofollow » apparaissant sur les liens de son commentaire. Au contraire, il a eu le culot de venir spammer en territoire ennemi, ennemi manifestement aveugle, le commentaire décorant le blog officiel de Google depuis trois mois passés…

Bref, nous venons de voir plusieurs cas concrets où le filtrage Google en matière de web spam apparaît inapproprié. Les filtres de Google destinés à lutter contre le web spam provoquent des faux positifs tout en laissant passer des faux négatifs. Manifestement, Google ne sait pas identifier le web spam, du moins… sans faute. Mais justement, sans doute faut-il considérer que dans cette guerre engagée par Google contre le web spam, il faut admettre des dommages colatéraux ? Quoi qu’il en soit, ces quelques cas illustrent bien, en matière de référencement web, qu’un bon référenceur doit suivre de près l’actualité pour se mettre à jour en cas de nouveaux algorithmes employés. D’ailleurs, je dois vous laisser, car j’ai pas mal de travail qui m’attend !

Une araignée au plafond

Emmêlé dans la toile

Google sait-il identifier le web spam ?

3 réflexions sur « Google sait-il identifier le web spam ? »

Laisser un commentaire

Vous aimerez peut-être lire également…

3 réflexions sur « Google sait-il identifier le web spam ? »

Laisser un commentaire