Comment rejeter automatiquement la quasi-totalité du spam de commentaires dans un blog sans un seul faux-positif

Spam de blogs : un problème récurrent

Le filtrage du spam est un problème rencontré par de nombreux blogueurs. En effet, chaque technologie de filtrage implique des faux-positifs et des faux-négatifs. Les faux-positifs sont des marquages comme spam de messages légitimes, alors que les faux-négatifs sont des marquages comme légitimes des messages de spam. Ce sont sans nul doute les faux-positifs qui sont les plus difficiles à remarquer, souvent noyés dans une importante masse de spam.

Le spam le plus bas de gamme est le plus commun

L’intérêt du spam de commentaires est de promouvoir une page web particulière auprès des moteurs de recherche, d’une part, et des visiteurs humains, d’autre part.

Or, si vous regardez un peu le spam de votre blog, vous constaterez rapidement que l’essentiel du spam est très bas de gamme et par conséquent aisément repérable. En effet, de nombreux messages ne ciblent ni votre blog, ni même un blog en général, mais l’ensemble des technologies de publication en ligne. Les spammeurs spamment donc à tout va, en réduisant les coûts au point que leur campagne de spam ne sert à rien, mais ils n’ont manifestement pas les compétences requises pour en prendre conscience.

Mots-clés spécifiques au spam bas de gamme des blogs

En somme, pour faire court, les messages de spam comportent souvent des liens sous les trois formats habituellement exploités sur le web : [url=http://www.example.com]mot-clé[/url] et [link=http://www.example.com]mot-clé[/link]. D’autres spammeurs essayent de se faire passer pour des utilisateurs légitimes en insérant l’attribut rel="nofollow" à leurs liens HTML, donc <a rel="nofollow" href="http://www.example.com/>mot-clé</a>, cet attribut indiquant aux moteurs de recherche de ne pas prendre en compte ces liens dans leur calcul de la popularité d’une page web.

Or, une technologie de blogging telle que WordPress n’accepte par défaut qu’un seul format de liens : du HTML, en l’occurrence de la format <a href="http://www.example.com/>mot-clé</a>, ou encore une adresse sans aucun formatage ni mot-clé associé. Par conséquent, dès qu’un commentaire comporte des liens aux formats non supportés ou non habituels, on peut en déduire qu’il s’agit de spam. En effet, sur près de 10.000 commentaires légitimes et manuellement validés publiés sur mon réseau de blogs depuis 2004, aucun être humain n’a jamais publié un lien dans l’un des formats susmentionnés. J’en déduis qu’en appliquant un filtre aussi simple le rend aussi particulièrement efficace, sans faux-positif constaté en situation de production réelle.

Rejeter le spam grâce à la liste noire de mots-clés

Par conséquent, pour rejeter l’essentiel du spam de votre blog sans effort important, ajoutez les trois balises et attribut susmentionnés dans la liste noire de votre blog :

Liste noire de mots-clés régulièrement contenus dans du spam de blogs

Liste noire de mots-clés régulièrement contenus dans du spam de blogs

Sous WordPress, vous pouvez le faire depuis le menu Réglages, puis le sous-menu Discussion.

Conclusion

Evidemment, maintenant que j’ai indiqué l’astuce, quelques individus seront choqués de ne pas pouvoir utiliser les balises ainsi filtrées dans les commentaires de ce blog. Néanmoins, mis à part un intérêt soudain et artificiel lié à cet article, ce filtre, déjà actif depuis plusieurs mois sur ce blog, n’a engendré aucune plainte de la part des lecteurs-commentateurs. Et depuis, grâce à lui, la quantité de spam potentiel à vérifier manuellement est enfin devenue humainement gérable.