Je viens de noter que MSN Search vient de référencer le site Une araignée au plafond dans son index qui peut être retrouvé via une simple recherche de site:unearaigneeauplafond.be, autant sur le site français qu’américain. Il aura donc fallu quelque trois jours à MSN Search pour référencer l’intégralité des pages du site (euh… au nombre de quatre jusqu’à tout à l’heure !)
Google et Yahoo! sont à la traîne, j’ignore si c’est une volonté délibérée pour pénaliser les sites récents (et limiter ainsi le spam) ou bien si c’est un souci d’ordre plus technique. Pourtant, je note que les robots d’indexation de ces deux géants du Net sont bien passés. Je devine qu’on ne devrait pas voir tarder des résultats dans les résultats de recherche.
NB : Le site ayant déménagé depuis un domaine en .be vers un domaine en .fr début 2007, l’article a été mis-à-jour en conséquence.
Je note avec intérêt que Google vient lui aussi de référencer le site. La page de garde date du 24 janvier, dans son cache, mais ce n’est qu’aujourd’hui que je vois enfin y apparaître le site. De plus, Google.com montre neuf liens référencés (dont des liens vers les flux RSS), contre un seul sur Google.fr ou encore Google.be.
Tout cela montre bien que les logiciels d’exploration et d’indexation sont bien séparés chez Google et ne fonctionnent pas en temps réel, ce qui paraît somme toute assez logique, vu la quantité de données et la différence du temps de traitement entre chaque action. De plus, les sites localisés utilisent visiblement des centres de traitement distincts.
Il est aussi intéressant de constater que tout ce référencement semble centralisé sur les serveurs américains qui sont ensuite répartis sur les versions locales du moteur de recherche. On aurait pu imaginer des centres de traitement spécialisés par zone géographique ou par langue, ce qui ne semble pas le cas ici.
De son côté, Yahoo! aussi a référencé une unique page, que ce soit sur son site américain ou français (le site belge n’existant pas, semble-t-il). Peut-être est-ce un signe d’une base de données unique pour l’ensemble des pays ? Toujours est-il que même si le cache n’indique aucune date, il semble dater du 22 ou 23 janvier, soit entre la publication de l’article ci-dessus et la mise à jour du thème pour une traduction en français plus complète.
Le fonctionnement des moteurs de recherches se dévoile partiellement donc par des observations finalement anodines et assez instructives sur leur fonctionnement interne, puisqu’il est de coutume de considérer que — compte tenu des enjeux financiers dans ce domaine — le fonctionnement interne des moteurs de recherche, que ce soit au niveau des algorithmes d’indexation, de scoring ou encore au niveau des ressources matérielles allouées, est confidentiel.
Enfin, je viens de m’apercevoir que comme sur b2evolution, WordPress place par défaut (ou du moins l’habillage actuellement utilisé) le titre du blog en plus du titre de l’article. Or, le titre du blog n’est pas toujours en rapport avec le contenu de tous les articles référencés, surtout lorsque, comme c’est le cas du présent blog, il s’agit d’un jeu de mots que les moteurs de recherche ont tendance à très mal interpréter.
Aussi, tout comme un autre de mes blogs, je devrai modifier l’habillage de celui-ci pour éviter de rappeler le titre du blog dans le titre de la page d’un article particulier. Cela n’apporte en effet que confusion pour les robots d’indexation des moteurs de recherche, ainsi qu’aux lecteurs humains, surtout lorsque dans les résultats de recherche, le titre complet à rallonge de la page est tronqué, car finalement trop long.
Un autre point à mettre au point encore, ce sont les champs META tels que « description » ou encore « keywords » dans l’entête des pages web. Ces balises permettent semble-t-il de modifier le poids des divers mots-clés et autres expressions apparaissant sur la page, les privilégiant parmi d’autres. Enfin, les balises Technorati ne sont pas non plus à négliger, celles-ci permettent d’ajouter des liens vers des pages connexes aidant les moteurs de recherche à mieux repérer les mots-clés importants.
Bref, encore du travail en perspective ! Il faudra que je trouve les bons plug-ins WordPress, ou bien encore que j’en écrive moi-même… On verra.