Robots jouets

Story Teller : un générateur d’histoires semi-automatique

Je vous le confiais récemment, j’expérimente une nouvelle approche de référencement consistant à créer un réseau de blogs traitant du même sujet qu’un site à référencer. Ces blogs, ouverts sur des plateformes d’hébergement de blogs gratuites, traitent de la thématique du site à promouvoir et associent un lien vers ce site sur chacune des pages. Cependant, l’un des plus gros problèmes en matière de création de blogs est le coût de création et de maintenance de ces blogs, et plus particulièrement des articles qui les composent.

Procédure de mise à jour

Afin de réduire le coût moyen de création des articles publiés sur chacun de ces blogs, j’ai donc développé Story Teller, un outil interne permettant de générer une quantité quasi-infinie d’articles à partir d’un même article d’origine, légèrement modifié pour l’occasion. La maintenance de ce réseau de blogs implique donc les étapes suivantes (temps réels variables, ici approximativement indiqués sur un exemple d’article déjà publié où je me suis chronométré) :

  1. Choix du sujet du nouvel article à publier (15 minutes environ).
  2. Choix et préparation d’éventuelles images (15 minutes environ par image).
  3. Rédaction de l’article initial (45 minutes environ).
  4. Adaptation de l’article initial au format de l’outil Story Teller (15 minutes environ).
  5. Publication d’une déclinaison de l’article initial sur une plateforme de blogging (5 minutes environ par article).

Coût des mises à jour

La publication d’un nouvel article avec une image (la même partout) a donc un coût qui baisse sensiblement avec la quantité de blogs faisant partie du réseau de blogs promotionnels, comme l’indique le tableau suivant :

Nombre de blogsTemps totalTemps moyen par article
1 (sans Story Teller)1 h 15 min1 h 15 min
1 (avec Story Teller)1 h 35 min1 h 35 min
21 h 40 min50 min
31 h 45 min35 min
41 h 50 min27 min 30 s
51 h 55 min23 min
102 h 20 min14 min
203 h 10 min9 min 30 s
505 h 40 min6 min 48 s
1009 h 50 min5 min 54 s

Bien entendu, l’intérêt de l’outil Story Teller est de décliner l’article d’origine en une multitude d’articles similaires, mais tous distincts, de sorte à éviter d’éventuelles pénalités pour contenu dupliqué sur les moteurs de recherche.

Principe de fonctionnement

Le principe de fonctionnement de l’outil Story Teller repose sur la définition d’un langage simpliste et facile à appréhender. Concrètement, l’idée est de proposer plusieurs choix possibles à divers endroits d’un même article. L’algorithme générant des déclinaisons tirées de l’article d’origine choisit au hasard parmi les diverses possibilitées proposées. L’édition est donc semi-automatique, puisque la création de l’article d’origine reste manuelle, l’adaptation à l’outil Story Teller est elle aussi manuelle et seule la génération de nouvelles versions est automatique.

Le langage de Story Teller est on ne peut plus simple. Voyons-le sur un exemple simpliste :

{a|b|c}

permettra de créer trois versions distinctes du code ci-dessus :

  • a
  • b
  • c

En tant que tel, ce code d’exemple n’a aucun intérêt, puisqu’il est plus facile d’écrire ces trois versions distinctes manuellement. L’intérêt réside dans le fait qu’un article complet peut être rédigé de la sorte, avec à de nombreux endroits différents plusieurs choix proposés qui peuvent même être imbriqués. Ainsi, le code suivant :

a {b{c|d}e|f} {i|j|k|l} m

permet la génération des douze déclinaisons suivantes :

  • a bce i m
  • a bde i m
  • a f i m
  • a bce j m
  • a bde j m
  • a f j m
  • a bce k m
  • a bde k m
  • a f k m
  • a bce l m
  • a bde l m
  • a f l m

Exemple concret

Pour mieux comprendre le fonctionnement et l’intérêt de Story Teller, prenons un exemple concret d’histoire déclinée avec cet outil. Ecrivons l’histoire suivante :

Il y a très longtemps, un dragon a enlevé une princesse. Répondant à l’appel du roi, un valeureux chevalier a sauvé la princesse en danger. Ils vécurent heureux et eurent beaucoup d’enfants.

Adaptons cette histoire à l’outil Story Teller avec un joli brodage autour de ces quelques phrases. Par exemple :

{Il y a {{très |}longtemps|{beaucoup|pas mal} d’années}}, {de sorte que le plus {ancien|âgé} {d’entre nous|des grands-pères|anciens} {s’en souvient|se le remémore} {{qu’|}avec peine |{que |}{difficilement|vaguement}},} {dans {un {royaume|pays} {éloigné|lointain|enchanté}|une contrée {éloignée|lointaine|enchantée}},} un {vilain|méchant|} {dragon|monstre} a {enlevé|kidnappé} {une {jolie|jeune|belle} princesse|la fille {du roi|de la reine}}.

{Répondant à {l’appel|la détresse} du {roi|couple royal}|N’écoutant que son courage}, un {valeureux|vaillant|beau} {chevalier|prince} {{du royaume|d’un pays} voisin|d’une {contrée|vallée} voisine} a {{tué|combattu|affronté} le {vil|vilain|méchant} {dragon|monstre} et|} sauvé la {jolie|jeune|belle} {princesse|fille {du roi|de la reine|du roi et de la reine|du couple royal}} en {pleurs|danger}.

Ils {{tombèrent amoureux|ont eu le coup de foudre},|} vécurent heureux et eurent beaucoup d’enfants.

Ce qui nous donne les quelques déclinaisons suivantes de l’histoire d’origine :

  • Il y a longtemps, de sorte que le plus âgé d’entre nous se le remémore que difficilement, dans une contrée lointaine, un vilain dragon a enlevé une belle princesse. N’écoutant que son courage, un valeureux chevalier d’un pays voisin a combattu le vilain monstre et sauvé la jolie princesse en danger. Ils tombèrent amoureux, vécurent heureux et eurent beaucoup d’enfants.
  • Il y a pas mal d’années, de sorte que le plus ancien anciens se le remémore avec peine, dans une contrée lointaine, un vilain monstre a kidnappé une jolie princesse. Répondant à l’appel du roi, un valeureux chevalier du royaume voisin a sauvé la jolie princesse en danger. Ils tombèrent amoureux, vécurent heureux et eurent beaucoup d’enfants.
  • Il y a très longtemps, de sorte que le plus ancien des grands-pères s’en souvient avec peine, dans une contrée éloignée, un méchant monstre a kidnappé une jeune princesse. N’écoutant que son courage, un vaillant prince du royaume voisin a affronté le vilain monstre et sauvé la belle fille de la reine en danger. Ils tombèrent amoureux, vécurent heureux et eurent beaucoup d’enfants.
  • Il y a longtemps, de sorte que le plus âgé d’entre nous se le remémore qu’avec peine, dans une contrée éloignée, un vilain monstre a kidnappé la fille du roi. Répondant à la détresse du roi, un beau chevalier du royaume voisin a affronté le méchant dragon et sauvé la jolie fille du roi et de la reine en pleurs. Ils ont eu le coup de foudre, vécurent heureux et eurent beaucoup d’enfants.
  • Il y a très longtemps, de sorte que le plus âgé anciens s’en souvient que difficilement, dans un royaume éloigné, un vilain monstre a enlevé une jolie princesse. N’écoutant que son courage, un valeureux prince d’une vallée voisine a  sauvé la jolie princesse en pleurs. Ils  vécurent heureux et eurent beaucoup d’enfants.

Extensions

Afin de rendre la création de certains remplacements plus facile, notamment pour ce qui est de l’emploi de synonymes, par exemple, Story Teller intègre un préprocesseur à base d’expressions rationnelles. L’emploi de ce préprocesseur permet de remplacer certaines expressions de l’histoire d’origine par des équivalents à choix multiples ou non, par exemple pour remplacer toutes les occurrences de :

une princesse

par :

{une {jolie|jeune|belle} princesse|la fille {du roi|de la reine|du couple royal}}

et ce, partout dans le texte, le rendant plus facile à maintenir, et améliorant la réutilisation de certains remplacements systématiques.

A l’avenir, j’envisage d’implémenter la gestion de variables, de sorte, par exemple, qu’un prénom de la princesse choisi en début d’histoire soit conservé tout au long de l’histoire, plutôt qu’il ne soit choisi au hasard parmi une liste à chaque occurrence.

Par la suite, si le temps me le permet, j’aimerais continuer à enrichir Story Teller pour en faire un outil permettant la génération d’articles argumentés où l’on puisse aisément produire des articles portant sur un même sujet, mais présentant des opinions différentes. Cela impliquerait la prise en compte de liens logiques entre les parties retenues par l’algorithme de génération de nouvelles déclinaisons de chaque article, et non plus le simple hasard.

Conclusion

L’utilisation d’un outil d’aide à la génération d’articles distincts à partir d’un même gabarit tel que Story Teller rend la création et la maintenance d’un réseau de blogs thématiques visant à promouvoir un site web tout à fait réaliste, car les coûts de création d’un article sont sensiblement divisés par la quantité d’articles publiés.

Certes, il aurait été tout à fait possible de se passer d’un outil tel que Story Teller et de publier le même article sur l’ensemble des blogs ainsi maintenus. Cependant, cette approche aurait alors l’inconvénient de publier un contenu dupliqué, très peu apprécié des moteurs de recherche, réduisant alors sensiblement l’intérêt des blogs multiples dans le cadre d’un référencement (dit) naturel (SEO).

Cependant, à l’heure du web sémantique et de l’analyse de plus en plus poussée du contenu par les robots d’indexation des moteurs de recherche, l’utilisation de Story Teller pour un simple remplacement de synonymes risque très rapidement d’être repéré par les moteurs de recherche et considéré comme du contenu dupliqué. Une approche optimale consiste donc à proposer des déclinaisons réellement distinctes de chaque article. Certes, cela allonge d’autant la préparation de l’article avant publication, mais améliore la pérénité du réseau de blogs ainsi créé.

Bien que cela soit discutable, la déontologie et les valeurs éthiques de chacun étant variables, le but d’un outil tel que Story Teller n’est pas de pratiquer le spamdexing en créant des splogs. Cet outil cherche à toucher un public plus large en proposant un contenu de qualité visant les utilisateurs de chaque plateforme de blogs en particulier qui naviguent souvent sur les blogs de leur propre plateforme de blogging. De plus, les moteurs de recherche ont des moyens autres que le contenu d’une page pour identifier un référencement abusif, tels que l’évolution des liens entre les sites dans le temps, ou encore la ressemblance des liens figurant sur diverses pages. Il est donc illusoire de se reposer sur un outil tel que Story Teller pour pratiquer un référencement abusif.

Crédit image : byronv2, licence CC BY-NC 2.0

25 réflexions sur « Story Teller : un générateur d’histoires semi-automatique »

  1. MaxxMaxx

    Déontologiquement, c'est sans doute discutable pour certains, mais je trouve la méthode tout à fait honorable, et surtout du point de vue technique. D'ailleurs à ce sujet, as-tu une solution pratique et efficace pour poster de manière simultanée sur plusieurs plate-formes de blogging, sachant que celles-ci n'utilisent assurément pas les mêmes API ? (enfin je parle des plate-formes "grand public"…) Une autre question, et ce, toujours à propos de ces blogs "satellites" : comptes-tu fournir pour chaque blog un design travaillé – et différent des autres, j'imagine ? en supposant que la réponse est oui, combien de temps penses-tu y consacrer ? Enfin, j'ai un doute sur ta crainte de voir ce genre de technique détectée par les moteurs de recherche (et surtout… sanctionnée !) Il faudrait quand même de sacrés algorithmes sémantiques pour pouvoir déceler ça (et surtout… à l'échelle du Web!!!)

  2. MartinMartin Auteur de l’article

    Maxx, certains pourraient en effet considérer que ce réseau de blogs est un réseau de splogs destinés à faire du spamdexing. Nénmoins, à la différence de la plupart de ces détritus qui polluent effectivement le Net, ces blogs visent à ajouter une valeur ajoutée aux visiteurs humains.

    Actuellement, je poste manuellement, à savoir que je me connecte manuellement sur chacun de ces blogs et je copie-colle le nouvel article. C'est la raison pour laquelle le délai de création d'un nouvel article "coûte" 5 minutes par nouvelle plateforme. Un avantage de ne garder qu'un blog de ce type par plateforme est que la conservation des cookies permet de limiter les temps de connexion/déconnexion. De cette façon, cela évite d'avoir à rechercher les identifiants de connexion et de les retaper à la main à chaque fois.

    Si plusieurs blogs devaient être hébergés sur la même plateforme de blogging avec des identifiants de connexion différents, on peut tout à fait utiliser plusieurs comptes utilisateur sur son ordinateur local afin de distinguer les cookies, ou bien encore utiliser plusieurs navigateurs web, chacun gardant ses propres informations de connexion. Notons que Internet Explorer ou Safari (selon la plateforme), ainsi que Firefox ou encore Opera sont d'excellents navigateurs disponibles gratuitement et pouvant cohabiter en même temps sous Windows ou Max OS X.

    Pour ce qui est des API, certaines plateformes en proposent, en effet. Ceci passe généralement par :

    • une API spécifique (comme celle de Blogger, option gratuite, supportée aussi par Canalblog, ainsi que d'autres plateformes) ;
    • la publication par e-mail (comme sur Canalblog) ;
    • la publication par SMS/MMS (LiveJournal, option payante). 

    L'utilisation d'un logiciel tiers de publication sur les blogs comportant une interface de configuration permettrait de réduire encore les temps de publication sans avoir à effectuer un développement particulier. Là, un simple copier-coller suffirait à la publication de nouveaux articles au sein d'une même interface utilisateur.

    Bien entendu, le support de l'API de chacune de ces plateformes de blogs permettrait une publication quasi-entièrement automatisée, mais n'est alors justifiée que dans le cas d'une gestion de très nombreux blogs clients. Je pense qu'en dessous d'une centaine de blogs distincts maintenus sur le long terme, cela n'est pas du tout intéressant d'un point de vue économique.

    Pour ce qui est de la mise en page de chacun de ces blogs, elle est différente, mais, pour ce premier test en tous les cas, ces blogs utilisent chacun l'une des mises en pages par défaut proposées par chacune de ces plateformes. Ce choix différent de la mise en page permet de limiter le contenu dupliqué, les mots génériques apparaissant sur ces diverses mises en pages étant différents.

    La création d'une mise en page spécifique à chacun de ces blogs est difficile, car la plupart de ces plateformes utilisent des systèmes d'habillages différents et non compatibles. Aussi, à moins de viser des plateformes de blogging utilisant la même technologie, la création de chaque habillage serait particulièrement onéreuse, puisqu'elle impliquerait le temps de formation à chacune de ces plateformes (certes, quelques heures au plus par plateforme, mais c'est tout de même beaucoup compte tenu des retombées économiques liées à ce type de prestation).

    Par ailleurs, certaines plateformes proposent des extensions paytantes à l'abonnement gratuit permettant la modification des habillages par défaut, ou encore la création d'habillages distincts, spécifiques au blog. Ces tarifs sont cependant tout à fait raisonnables (de quelques dollars payables une seule fois à moins de vingt dollars par mois).

    D'ailleurs, on peut tout à fait envisager de ne pas cibler les plateformes de blogs gratuites, ou du moins de ne pas se limiter à celles-ci, mais utiliser aussi des plateformes de blogs payantes, surtout si plusieurs clients du service de référencement traitent d'un sujet connexe et que les mots-clés ciblés pour chacun ne sont pas (trop) concurrents. De cette façon, on réduit le coût de l'hébergement et de l'habillage en l'amortissant sur plusieurs clients.

  3. MiKEMiKE

    Techniquement, je ne peux qu'admirer, aussi bien l'idée que le travail fait pour la rendre opérationelle, mais en tant qu'internaute et plus encore, créateur de contenu pour des blogs corporates, je suis bien plus sceptique.  Ne serait-ce pas plus intéressant de générer un contenu ne divergeant pas juste en matière éditoriale mais plus dans les thèmas abordées ? Dans l'exemple de la princesse et en imaginant que ton client soit spécialisé dans la réparation de dragons de seconde main… L'un de tes blog pourrait s'intituler " Le marché du dragon d'occasion " et tu pourrais y placer des offres de services en évoquant cet exemple.. Un autre " Qu'est ce qui motive les chevaliers ? " et là encore, un petit édito + l'exemple, etc, etc.. Cela me semble plus intéressant pour l'internaute qui va facilement lire le même article mais vu de deux [ou plus] point de vue différents sans sourciller et tu es ainsi certain d'avoir une plus grande visibilité sur des requêtes d'un large spectre. Naturellement, cela prend un peu plus de temps que d'appuyer sur un bouton mais je pense que le résultat en vaut la peine.

  4. MartinMartin Auteur de l’article

    En effet, MiKE, présenter une même histoire selon plusieurs points de vue est plus intéressant pour l'Internaute. En effet, il s'agit alors bien d'un contenu éditorial totalement différent, puisque le point de vue change dans l'exemple que tu proposes, même si l'histoire d'origine reste la même.

    Cependant, et même si ta proposition permet de réduire les coûts de création d'une série d'articles par rapport à la création d'une quantité équivalente sur des sujets et des approches totalement originaux, puisque dans ton approche, on amortit le temps consacré à choisir le sujet, ainsi que le temps d'une éventuelle documentation. Cependant, la création d'une nouvelle déclinaison de chaque article reste plus longue que les 5 minutes actuellement nécessaires.

    Quelle approche est la plus gagnante ? Hum… les moteurs de recherche visent à "récompenser" l'approche que tu préconises, à savoir la création de contenu entèrement original et à forte valeur ajoutée. Cependant, ce contenu est cher à produire.

    Par ailleurs, le référencement de ce contenu reste encore à la charge de son créateur (qui peut éventuellement déléguer le référencement de ses pages ou de son site), car mine de rien, l'immense majorité des webmasters (comme les dizaines de millions de blogueurs) ne savent pas correctement lier les pages entre elles, et ne le font pas. Or, les moteurs de recherche utilisent les liens entre les pages pour déterminer la notoriété d'une page et indirectement son rang dans les résultats de recherche.

    La question est donc de savoir s'il vaut mieux, aujourd'hui, créer peu de pages, mais disposant d'une très forte valeur ajoutée, et de le faire savoir (bref, les référencer correctement), ou bien s'il est plus rentable de créer tout plein de pages proposant une valeur ajoutée moindre.

    Actuellement, référencer un site web dans plusieurs dizaines d'annuaires dont la valeur ajoutée est quasi-inexistante sur des mots-clés bien ciblés permet de faire monter son site web assez vite sur les requêtes de recherche moyennement concurrentielles, voire très concurrentielles, en inondant le web de liens. Il faut en effet savoir qu'aujourd'hui, les annuaires sont pour ainsi dire abandonnés par les utilisateurs humains, mais certains sont parfois très bien référencés ayant un poids disproportionné sur les moteurs de recherche en comparaison de leur utilisation réelle.

    Aussi, je pense que la création de "blogs satellites" correspond au référencement sur des annuaires, à ceci près que le référencement est plus ciblé et mieux maîtrisé. Même si ces blogs disposent d'un effort de référencement moindre, ils profitent tout de même des outils de référencement de chacune de ces plateformes de blogging qui les hébergent, chacune proposant en effet une forme ou une autre d'annuaire interne.

    Quoi qu'il en soit, je vais sans doute faire un point plus précis de cette démarche de référencement d'ici quelques mois pour voir si cette voie est rentable ou non par rapport à d'autres solutions.

  5. Capitain FlammeCapitain Flamme

    Bonjour Martin,  Que l'on me permette tout d'abord de dire que je suis époustouflé par les articles publiés dans ce blog. Je connaissais les perles du chat, l'un des (très rare) site qui ai droit de cité dans mes favoris favorisés, mais là, c'est du perle du chat puissance 10, puisqu'au lieu de parler de tout (et du reste), tu es concentré sur un sujet : le webmastering [beurk ! quel anglicisme ! Wikipédia me propose Conception de site web… Ouais, c'est plus long… Bref] Sache donc, cher Martin, que ton deuxième blog vient de rejoindre le premier ! Tu augmentes du coup de 33% la quantité de blog dans mes favoris favorisés (et de 5% la quantité de blogs que je consulte, mais moins régulièrement [Les esprits rotors constaterons que plus de la moitié de ces blogs sont consacrés au jeu BattleField, ses différentes versions, et ses Mods (acronyme EN de Modifications, nouvelles cartes et jeu créés par des aficionados) ] ).  Tout ceci pour en arriver à ton application. au delà de l'aspect 'Performance brute' [je l'entend dans ce sens : http://fr.wikipedia.org/wiki/Art_performance%5D, qui déjà en soit est un exploit, je me posais la question de l'usage que tu en as. [Tu as peu être déjà décrit dans les articles précédents ton organisation et/ou le fonctionnement de tes méthodes de référencement, mes excuses par avance si c'est le cas]. Je savais que l'on pouvait 'remonter' des sites dans les pages des moteurs de recherche, mais c'est pas première fois que je vois un article traitant de méthode pour réaliser ces 'upranking' [cette fois, le mot n'existe pas dans WikiPédia ]. Pour avoir eu besoin de créer cette appli, tu dois doic avoir un minimum de blog autour de tes blogs principaux (une blogoshpère ? ) qui te permettent donc de faire monter tes sites ? Diantre !!  On nous aurait menti ? Le Web ne serait pas cette terre d'amour et de paix, ou la guerre n'existe pas, et où les sites apparaissant en haut des pages des moteurs sont les meilleurs ?   En attendant, je viens d'ouvrir un nouveau champ de friche dans ma culture personnel concernant le webmastering moderne (j'ai abandonné cette discipline faute de temps il y a déjà quelques années)… Certes, je m'y intéresse en simple spectateur, mais quand on y a gouté, il y a toujours un petit goût d'intéret . (Les madeleines virtuelles sont tout de même moins savoureuses, je ne suis pas sûr que Proust les auraient autant appréciées).

  6. MartinMartin Auteur de l’article

    Capitain Flamme, actuellement, je teste l'intérêt de ce nouvel outil Story Teller pour promouvoir le site d'un client. J'y consacre 10 blogs, à l'heure actuelle, répartis sur 10 plateformes de blogging distinctes. S'il m'arrive parfois d'y placer des liens vers mes propres sites, je ne compte pas dessus pour améliorer leur référencement.

    Actuellement, les résultats les plus spectaculaires que j'ai pu constater sur le positionnement d'un site web dans les résultats de recherche vient surtout de l'optimisation du site lui-même plutôt que des liens inter-sites. En effet, en ajoutant des titres explicites, en supprimant du contenu dupliqué ou sans aucune valeur ajoutée, et en créant des liens additionnels entre les pages portant sur des sujets connexes, on arrive à améliorer très sensiblement le positionnement d'un site web (ou plutôt des pages qui le composent) dans les résultats de recherche des moteurs de recherche.

    Cependant, lorsque l'on vise les toutes premières places des résultats, il faut aller plus loin dans l'optimisation. Pour cela, la création de nombreux liens vers le site à promouvoir est indispensable. Ces liens doivent apparaître sur des pages au contenu similaire (mais pas identique), de forte notoriété, et sur des sites divers pour avoir un impact réel. Idéalement, bien entendu, il est bon de compter sur la qualité du contenu pour susciter un intérêt naturel des Internautes et des webmasters, ces derniers pouvant alors ajouter spontannément des liens vers le site que l'on souhaite promouvoir. Néanmoins, ce contenu de qualité a lui aussi besoin d'être promu, puisque pour que d'autres webmasters le remarquent, il a besoin d'avoir un minimum de visibilité. C'est donc là qu'intervient le SEO : il a la tâche d'améliorer la visibilité des sites de ses clients, de sorte à toucher le plus grand nombre de clients et utilisateurs potentiels.

    Actuellement, au bout d'un mois de fonctionnement environ, et d'une petite douzaine d'articles publiés sur le réseau des dix blogs (soit cent à deux cents pages de liens additionnels pointant vers le site du client), l'impact sur l'audience du site du client reste minime, mais réel. Cet accroissement d'audience est lié au réseau de blogs lui-même, à savoir que les visiteurs viennent depuis ces blogs directement. En revanche, je n'ai encore noté aucun impact indirect, à savoir que je n'ai pas constaté d'amélioration du positionnement du site du client dans les résultats de recherche des moteurs de recherche. Ce positionnement s'améliore, bien entendu, mais cette amélioration n'a connu aucune accélération depuis la création de ces blogs satellites.

    Cela étant, il est tout à fait normal que le positionnement n'ait pas changé. En effet, les nouveaux liens apparaissant sur ce réseau de blogs ont un poids très faible, ces blogs étant tout neufs et par conséquent eux-mêmes assez peu référencés. Néanmoins, à moyen (6 mois et plus) et à long terme (12 mois et plus), je pense que ces blogs gagneront de l'importance et joueront leur rôle de moteur dans le référencement des sites de mon client. En effet, le contenu de ces blogs étant d'une qualité très supérieure à un "bête" annuaire lambda, bourré de liens sans réel fil conducteur, chacun de ces blogs devrait attirer son lot d'intéressés, dont des webmasters susceptibles d'insérer spontannément des liens vers ces sites depuis leurs propres sites, portails, forums et autres blogs.

    Pour fini, tu me vois ravi de découvrir que tu aimes aussi ce blog-ci. Tu noteras néanmoins qu'en comparaison de mon blog Les perles du chat, Une araignée au plafond est sensiblement moins souvent mis à jour. Alors que Les perles du chat a une fréquence de publication quotidienne, Une araignée au plafond a une fréquence de publication beacoup plus faible. En revanche, j'essaye de compenser cela par des articles de fond plus poussés, et beaucoup plus instructifs, et de partager une expérience qui puisse apporter quelque chose d'utile aux lecteurs. En somme, des articles qui nécessitent un temps de préparation et d'écriture beaucoup plus conséquents.

  7. Capitain FlammeCapitain Flamme

    Martin said, on Sunday 22 April 2007 at 5:26 "En revanche, j'essaye de compenser cela par des articles de fond plus poussés, et beaucoup plus instructifs, et de partager une expérience qui puisse apporter quelque chose d'utile aux lecteurs." >> Je constate de fait que la qualité prime sur la quantité dans ce blog ci ! Autant Les perles du chat son là pour [te / se / nous] divertir, autant celui ci est là pour [s' / nous] instruire et causer techniques :).           Une question cependant me vient à l'esprit, je te soupçonnes fortement d'appliquer les recettes que tu cites içi (>> "les résultats […] sur le positionnement d'un site web dans les résultats de recherche vient surtout de l'optimisation du site lui-même […] en créant des liens additionnels entre les pages portant sur des sujets connexes, on arrive à améliorer très sensiblement le positionnement d'un site web […]") pour ton propre site Les perles du chat… Pas de mal à se faire du bien, encore moins si c'est virtuel, mais j'aurai voulu confirmation de l'explication des liens 'Pour aller plus loin' qui apparaissent maintenant dans tes articles. [ Pour ceux qui n'ont pas tout suivi, Martin, ou plutôt Ralphy, dans son autre blog Les perles du chat, ajoute maintenant dans chaque nouvel article 5 liens vers d'autres articles qui gravitent autour du même sujet, en incluant les dit liens un peu à la manière de Wikipédia, dans une rubrique Pour aller plus loin… C'est nouveau ça vient de sortir, d'où ma question :-) ]

  8. MartinMartin Auteur de l’article

    Capitain Flamme, je travaille en effet sur un plug-in de type Related Posts (ou articles connexes en français)pour la technologie de blogging b2evolution que j'utilise sur mon blog Les perles du chat. Pour que les liens soient aisément accessibles, et maintenant que le plug-in commence à devenir fonctionnel (bien que relativement peu pertinent encore), les liens connexes apparaissent depuis quelques jours sur l'ensemble des articles du site.

    Sur Une araignée au plafond fonctionnant sur la technologie WordPress, un tel plug-in est déjà installé et la liste d'articles connexes apparaît dans la marge de droite (certes, ce n'est pas le meilleur emplacement pour être remarqué.) Le plug-in Related Posts pour WordPress (dont je ne suis pas l'auteur) est relativement populaire dans les blogs de cette plateforme de blogging.

    Quel est l'intérêt essentiel de ce plug-in, ou plutôt quel est l'intérêt de publier des liens vers des articles connexes aux articles ? L'intérêt est d'inciter les lecteurs d'un article à visiter d'autres pages du même site en leur proposant des articles traitant d'un sujet similaire et par conséquent susceptibles de les intéresser. Le but est donc d'augmenter le nombre de pages vues (PV) par visite (V).

    La publication de liens entre les pages d'un même site favorise-t-elle le référencement de ces pages sur les moteurs de recherche ? En théorie, oui. Dans la pratique, c'est discutable. En effet, j'ai l'impression que les sites internes à un même site favorisent essentiellement certaines pages web d'un site au détriment d'autres pages portant sur un même sujet. En somme, sur un même site ayant deux pages traitant de la même chose, a priori, les moteurs de recherche privilégieront dans leurs résultats de recherche celle qui comptabilisera le plus de liens entrants. En revanche, j'ai des doutes concernant l'impact des liens internes au site avec les résultats de recherche impliquant d'autres sites web. Il y a très probablement une incidence, mais celle-ci me paraît réduite par rapport aux mêmes liens entre deux sites sans rapport l'un avec l'autre, sinon le contenu similaire de leurs pages. Néanmoins, il s'agit d'une impression et non pas d'un cas avéré et garanti.

    Bref, les liens de type Related Posts ou Pour aller plus loin et autres liens créés automatiquement et affichés au bas des articles sont essentiellement destinés aux lecteurs humains et non aux moteurs de recherche. J'aurai l'occasion de parler de leur impact d'ici quelques semaines, lorsque j'aurai des chiffres pertinents à ce sujet (en termes de pages vues par visite).

  9. MartinMartin Auteur de l’article

    Capitain Flam, note que le choix de publier les résultats de Story Teller sur des plateformes de blogging distinctes vise à améliorer l'aspect naturel des liens, puisque non seulement les noms de domaines sont distincts, mais en plus, leurs adresses IP sont très différentes les unes des autres, et les serveurs hébergés auprès de prestataires (datacenters) divers géographiquement éloignés.

    La stratégie de référencement à l'aide d'un outil tel que Story Teller qui s'adresse autant aux visiteurs humains qu'aux robots d'indexation et se destiné à améliorer le trafic d'un site web tiers, autant par accès référant que via les moteurs de recherche, et celle employée par un outil tel que Related Posts qui vise essentiellement les visiteurs humains et à augmenter le nombre de pages vues par visite sont donc deux stratégies de référencement très différentes.

  10. Capitain FlammeCapitain Flamme

    Argghh ! J'entrevois à peine le côté obscur de la force ;). Par contre, je n'imaginais pas que les liens étaient générés automatiquement ! (de fait, par un plug in)… Je me disais qu'une petite main recherchait les articles les plus pertinant, et les ré-intégraient… En fait, ce plug in n'est, ni plus ni moins, un moteur de recherche intrablog, qui a pour objectif (avec des résultats variables apparemment ;) ) de rechercher les liens les plus pertinents par rapport au sujet, et d'afficher les 5 résultats les plus pertinents… Un mini Google intra site en quelque sorte ;)    …Au détail près que le dit moteur de recherche doit trouver SEUL les mots clés qui seront les plus pertinents. Je devine que c'est là que sont nichées les plus grosses difficultés pour la programmation du plug in ? [Cela étant, rien n'empêche de développer ce sujet dans un nouvel article, cela permettra une plus grande visibilité que dans les commentaires, si tu souhaites ainsi promouvoir ton travail de plugineur ;) ]

  11. MartinMartin Auteur de l’article

    En effet, Capitain Flamme, je publierai un nouvel article à ce sujet, nous pourrons alors nous pencher sur ce thème particulier des plug-ins de suggestion d'articles. :-)

  12. gusgus

    Voilà un article et un site d’une excellente qualité. Hop dans les favoris RSS.

    Ta démarche est très raisonnée. J’ai développé pour m’amuser un script (bon moi c’est du VB c’est moins élégant mais ça marche aussi bien :-) qui fait exactemetn ce que tu as décrit (avec utilisation du post par email sur des plate-formes de blog) mais j’ai une grosse limite : j’utilise un dictionnaire de synonymes très complet qui permet d’éviter le duplicate content… sauf que 9 fois sur 10 ça donne un charabia pas croyable :-( (on s’en fiche du moment que les mots clefs sont répétés en bonne dose me direz-vous… oui mais et la beauté du geste !!!!!!!) . Comment as-tu surmonté cet écueil ? je n’ai aps bien suivi ton histoire de préprocesseur à base d’expressions rationnelles :-) kesaco (j’ai lu le kikipedia mais je suis toujours dans le flou 2.0)

  13. RemyRemy

    Ce generateur a l’air assez interressant
    j’aimerais le tester
    la generation de texte est un theme que j’etudie
    voir mon site
    c’est assez compliqué pour des non intformaticiens
    mon objectif est un assistant de redaction pour ecrivain ( romancier , journaliste , professeur , amateur ….
    annexement quand je serais a la retraite pallier a mon alzeimer pour ecrire !!!
    merci a+
    rcab

  14. MartinMartin Auteur de l’article

    @gus : Il faut à tout prix éviter des générateurs automatiques… bêtes pour améliorer le référencement d’un site, car contrairement à ce que tu crois, les moteurs de recherche ne se contentent pas juste de mots-clés, mais commencent désormais à saisir le sens de ce qui est écrit. Or, si ton article n’a aucun sens, il se fera très rapidement bannir des résultats de recherche, d’une part, et des algorithmes de popularité, d’autre part. Ce n’est clairement pas le but.

    Mon approche vise surtout à fournir du contenu unique généré automatiquement, certes, mais à partir de bouts rédigés exclusivement manuellement. Si des synonymes sont fournis pour remplacer un mot, ils sont tous et sans exception fournis manuellement, de manière logique et en rapport avec le reste du texte. Mais plus encore, ce n’est pas le remplacement de quelques mots qui est proposé, mais le remplacement de morceaux de texte arbitraires, sélectionnés sur mesure par le rédacteur.

    @Remy : Je ne fournis pas de version publique de mon script de génération d’histoires Story Teller. En effet, il est trop facile d’en abuser pour créer des millions de pages de contenu sans aucune valeur ajoutée et sans aucun sens. Et si quelqu’un devait commencer à en abuser, je préfère m’assurer que ce sera moi ! ;-)

  15. GuyGuy

    Je suggère aussi un « linkage » croisé, anglais-français, etc.

    Merci pour l’idée python devrait m’aider à m’en sortir.

  16. ElisaElisa

    J’arrive assez tard à ce débat mais je suis impréssionnée par les résultats livrés par ton outil, Martin. Justement, un logiciel performant pour générer du contenu unique, en français, on en veut!
    Où en est ton logiciel depuis ces derniers échanges?
    Je suis arrivée à ce blog en cherchant un logiciel complémentaire….permettant la soummission automatique d’un article à des centaines de sites de publications d’articles ou de blogs. Il en existe pas mal, je voulais avoir ton avis et surtout si tu préconisais un logiciel de ce type car plus adapté au français.

  17. MartinMartin Auteur de l’article

    @Elisa : Il existe d’innombrables outils de soumission automatique de contenu. Cet article a dû inspirer pas mal de monde, car il existe même des outils qui mettent en œuvre non seulement cette technique, mais qui plus est cette même syntaxe. Dommage qu’il s’agisse d’outils de spam web en masse…

    Le but de cette technique est de générer du contenu original à moindre frais. Le hic, c’est qu’il ne suffit pas de remplacer des mots par d’autres, ni même des phrases entière par d’autres, ou encore des paragraphes. En effet, il existe d’autres outils, eux aussi automatiques, qui permettent de reconnaître et de repérer des textes similaires. Or, pour rédiger textes méconnaissables grâce à la technique et l’outil décrits ici, il faut consacrer bien plus d’énergie encore que de rédiger des textes totalement originaux.

    Alors oui, ce procédé permet de créer des millions de textes tous d’apparence différents, de sorte que ça passera les validations dans les annuaires les plus bas de gamme. Mais à quoi bon passer du temps à spammer le web de textes finalement identiques, dont la valeur ajoutée ne sera que moindre, voire inexistante, juste pour tenter — en vain, je t’assure — de gruger les moteurs de recherche ?

    Pour autant, un tel outil n’est pas à mettre aux oubliettes, mais seul, il n’a qu’un intérêt des plus limités et je ne peux recommander l’usage d’un tel outil, qui plus est à une débutante en référencement qui cherche très certainement à promouvoir — à juste titre — sa boutique en ligne elle-même plutôt que… de confier ce travail à un professionnel (dont je suis, certes, je prêche pour ma paroisse).

  18. ElisaElisa

    Bien noté, rien de tel que de reprendre des idées et rédiger à nouveau un texte sans essayer de simplement recycler un texte existant. C’est plus la soumission d’articles de manière automatisée qui m’intéresse mais effectivement, ce n’est pas la première fois que j’entends que des novices en SEO ne devraient pas utiliser ces logiciels….pas trop sûre pourquoi par contre :-)

  19. MartinMartin Auteur de l’article

    @Elisa : Les moteurs de recherche imposent des règles que les webmasters, s’ils souhaitent apparaître dans les résultats de recherche, se doivent de suivre. Parmi ces règles, il est notamment interdit de recourir au spamdexing. Or, lorsque les débutants font du référencement, tout ce qu’ils retiennent est qu’il faut des liens en quantité et en qualité. Ne sachant pas comment obtenir des liens de qualité, ils se rabattent sur la quantité. Et pour que ces liens en quantité aient le moindre impact sur le référencement, il en faut des milliers, et donc utiliser des outils de soumission automatiques. En tant que débutants, ne sachant pas comment proposer du contenu original, ils soumettent un contenu systématiquement identique, ou, au mieux, à peine différent d’un annuaire à l’autre. Etc.

    Le souci est que les moteurs de recherche repèrent très bien le spamdexing. La plupart du temps, ils n’en tiennent pas compte. Mais, parfois, quand ils le décident, ils agissent. L’action la plus difficile à supporter est celle de voir son site totalement déréférencé. C’est déjà arrivé, y compris pour des sites de renom, comme http://www.bmw.de (le fabricant d’automobiles, si, si).

    Mais d’autres mesures sont prises de manière plus sournoise, comme le déréférencement d’un site sur un ensemble de mots-clés donnés, ou, encore plus subtil, une pénalité du site sur un ensemble de mots-clés.

    Lorsque le webmaster soupçonne son site être pénalisé d’une manière ou d’une autre par Google, notamment, il peut contacter le moteur de recherche via sa console d’administration Google Webmaster Tools. Cela se fait comme sous un régime communiste du XXe siècle, à savoir que le webmaster doit faire son mea culpa, le cas échéant dénoncer précisément le responsable direct des agissements prohibés, et indiquer les mesures prises pour que cette situation ne se reproduise plus à l’avenir. Encore plus pénible, au niveau du coût que cela engendre, Google demande à contacter l’ensemble des webmasters des sites douteux (dont les annuaires bas de gamme qui acceptent tout et n’importe quoi, dont des soumissions automatiques au contenu dupliqué ou presque) pour leur demander à chacun de retirer les pages référençant le site dont on veut démontrer la toute nouvelle virginité.

    Bref, je ne conseille pas aux non initiés de s’attaquer au référencement du site qui les fait vivre pour se faire les armes. Non seulement cela leur prendra beaucoup plus de temps, d’énergie, voire d’argent que s’ils faisaient faire ce travail par un professionnel dont le référencement est le métier, mais cela risque carrément de se retourner contre eux, à savoir que les moteurs de recherchent risquent au contraire de pénaliser le site. Et c’est d’autant plus vicieux que cette éventuelle pénalité ne vient pas tout de suite, leur laissant croire que les techniques de web spam employées sont efficaces. Nul doute cependant qu’elle arrivera un jour ou l’autre, notamment lorsque le site sera mieux classé que ses concurrents, qui s’empresseront alors de le dénoncer aux « autorités compétentes » via le formulaire dédié. Cela fait d’autant plus mal en France où Google représente plus de 90 % des parts de marché de la recherche (à peine 60 % aux États-Unis où le marché est un peu plus diffus).

    Ceci étant dit, j’ai visité ton site, et il manque bon nombre de choses dessus, à commencer par du HTML. En effet, malgré les efforts faits dans ce sens depuis quelque deux ans, les moteurs de recherche indexent encore très mal le contenu et les liens en Flash. Or, ton site en regorge. Plus embêtant encore, les fiches produits figurant sur le site sont vides. À part le nom du produit et son prix, une phrase uniquement décrit celui-ci, le reste étant consacré à son fabricant, alors que, j’imagine (je n’ai pas vérifié), ce contenu se répète à l’identique sur chaque page proposant des produits fabriqués par celui-ci. Une seule phrase de contenu original (au sens « non dupliqué »), qui plus est tout à fait générique, liée en interne du site via des liens mal vus et donc mal indexés par les moteurs de recherche, car en Flash, nécessitant pas moins de trois clics depuis la page d’accueil, c’est loin d’être optimal pour un référencement naturel optimal. C’est donc par là qu’il faudrait commencer, et plutôt que d’inonder les annuaires de liens sans valeur, optimise avant toute chose le contenu du site et, si possible, son architecture.

  20. ElisaElisa

    Merci pour ces idées Martin ainsi que pour le temps que tu as dédié à m’apporter une réponse à forte valeur ajoutée. En effet, la construction du site n’a pas été faite dès le départ avec le référencement en tête (…), nous payons cela aujourd’hui. Plusieurs opérations en cours pour éviter que les pages se ressemblent aux yeux d’un moteur de recherche mais les flash restent un problème. Priorité aux pages qui sont à promouvoir (qui dans notre cas, ne sont pas les pages produits mais celles du niveau au-dessus), notamment via la création récente d’une boîte de texte qui permet de les rendre uniques. C’est certain que le SEO des mots-clés principaux et les plus compétitifs est confié à des professionels dignes de ce nom depuis quatre mois, nous voyons progressivement les résultats. Ils déconseillent également l’usage de ce software par des novices, nous avions été tenté de le faire en interne pour d’autres mots-clés moins stratégiques et moins compétitifs, d’où mes questions sur ton blog pour contraster des points de vue et apprendre d’avantage sur le sujet. Cela a valu largement la peine, merci !

  21. Décoration africaineDécoration africaine

    La méthode est efficace oui. L’idée très bonne même excellente je dirais. pourvu que le contenu généré ai un sens. Mais il faut avoir qu’il m’arrive parfois de penser à ce genre de chose. C’est vrai que lorsqu’on a un grand nombre de blogs traitant de la même thématique pour promouvoir un seul site, c’est pas mal comme concept. Je suis impatient de voir l’évolution du script.

  22. MartinMartin Auteur de l’article

    En trois ans, le script a peu évolué. Très peu, même. En effet, je considère toujours qu’il ne s’agit pas d’une bonne approche, le contenu généré automatiquement est facile à identifier (plus facile à identifier qu’à créer), et le contenu dupliqué à outrance, malgré les variantes, est même carrément évident à repérer, d’autant plus facile qu’il est diffusé largement, chaque nouvelle version dévoilant son lot d’expressions récurrentes.

    Néanmoins, je m’en sers tout de même dans le cadre de mes missions en référencement. Je m’en sers en effet comme d’une béquille évitant d’avoir le même texte sous les yeux lorsque je relaie un communiqué de presse, notamment. Mais une fois une version spinnée copiée-collée, je réécris tout ou partie de l’article manuellement, utilisant des expressions spécifiques à chaque site. C’est autrement plus coûteux (15 à 30 minutes par soumission contre moins de 5 minutes autrement, voire quelques secondes dans le cas d’une automatisation à outrance), mais gage d’une pérennité optimale.

    (Inutile d’optimiser les liens apparaissant en signature : ce blog applique l’attribut rel="nofollow" sur les liens des commentaires et aucun changement n’est envisagé à l’avenir. Pire, cela a le don de m’agacer et à invalider les commentaires soumis.)

  23. Acta-LinkActa-Link

    Hello Martin,

    2010-2012… Bien des mois après, et malgré ton dernier article plutôt négatif face à ton outil, j’aurais voulu savoir s’il est possible de l’utiliser ?

    Je pense que cela peut quand même aider pour ce travail de bagnard qu’est la rédaction d’une même idée 50 fois différemment…

    Merci pour ton retour.

    FL

  24. MartinMartin Auteur de l’article

    @Acta-Link : Depuis 2007, date de publication de cet article, j’ai assez peu poussé cette voie. Néanmoins, j’ai mis en place une version plus avancée de mon outil qui affiche une représentation graphique des possibilités en cours de frappe. Je t’invite à consulter l’article qui lui est dédié, ou bien aller directement à une version en ligne de l’outil de spinning.

    Une version plus avancée de l’outil existe, incorporant un correcteur orthographique et grammatical en cours de frappe. Cependant, cette version est trop gourmande en ressources pour la mettre en accès libre. D’autres développements mineurs sont prévus, comme une amélioration de la réactivité de l’ensemble, mais aucune date de sortie n’est annoncée.

    Enfin, en matière de publication de contenus, je pense m’orienter vers une voie plus prometteuse que le content spinning. Google conseille d’ailleurs d’éviter l’emploi de telles méthodes, et l’usage de simples synonymes reste facile à détecter et rend la lecture des textes lourde. Par ailleurs, le content spinninng est trop difficile à réutiliser et à maintenir. Il reste exploitable au niveau d’une phrase, et encore, pas trop complexe, mais devient vite indéchiffrable au niveau d’un paragraphe. Totalement inexploitable au niveau d’un article. Une solution plus avancée, sous la forme d’un texte produit de manière procédurale, quitte à y intégrer du spinning, paraît plus intéressante, comme voie à explorer.

Les commentaires sont fermés.