Je véronise...: Suivi en direct de la naissance d'un buzz

Je rêve depuis quelques articles de pouvoir suivre en direct la naissance d'un buzz sur internet, et évaluer la performance des divers outils dédiés à leur analyse et détection. J'aurais préféré un sujet plus léger, mais c'est la tragédie de la Northern Illinois University qui m'en a donné l'occasion il y a deux semaines.

L'identité du tireur n'était pas été dévoilée le soir du drame. Mais dans la nuit (10 heures après), le Chicago Tribune fournissait sur son site internet assez d'éléments pour lever l'anonymat, tout en précisant de façon plutôt hypocrite :

The Tribune is not naming the gunman because police have not officially completed the identification of his body.

Une simple recherche d'articles co-signés par Jim Thomas et avec les mots clés "self-injury" et "prison" permettait d'identifier le suspect : Steve Kazmierczak. A 8h10, un visiteur de la Wikipedia modifie l'article concernant la fusillade pour y indiquer ce nom. Une trentaine de minutes plus tard, premier article de blog qui le cite, son auteur le met à jour plusieurs fois pour y ajouter d'autres informations trouvées sur internet. Le nom apparaît alors sur un blog et un forum, et à 10h33, est cité par le Daily Mail (l'article a été mis à jour depuis). Les internautes commencent alors à le soumettre aux moteurs de recherche, et il se retrouve en tête de la liste des "hot trends" de Google. Il est donc immédiatement repris par quelques splogs, qui semblent faire leur beurre en citant les tendances du moment éventuellement accompagnées de quelques extraits de pages web les concernant, récupérées automatiquement. A 14h42, l'agence Associated Press annonce que la police a rendu public le nom de Steven Kazmierczak. Mon suivi du buzz s'est arrêté là, puisque les articles ou pages web sur le sujet ont alors utilisé les prénoms "Steve", "Steven" ou "Stephen".

Quoi qu'il en soit, suivre les premières heures m'a permis de noter la réactivité des divers moteurs de recherche et outils de suivi de la blogosphère ou plus généralement du web. Comme je l'ai mentionné ci-dessus, c'est la Wikipedia qui a dévoilé l'identité en premier. Une occasion de plus d'en noter les possibles dérives, mais aussi de s'incliner devant la puissance de cette formidable machine à scoops. C'est dans l'encyclopédie que j'avais trouvé le premier compte-rendu clair de l'affaire Kerviel, après plusieurs jours d'évocation de "fraude" sans plus de détails dans les articles de presse que j'avais parcourus. On peut aussi s'y informer sur les décès de personnalités, en utilisant l'outil Wikirage qui par exemple montrait en tête le 13 février : Henri Salvador, Imad Mougniyah, et Badri Patarkatsishvili.

A propos des outils de suivi de la blogosphère, on peut noter que BlogPulse n'est pas très réactif. Evidemment Google Blogsearch est le premier à détecter le premier billet de blog sur le sujet, hébergé par... Blogspot. Dans l'ensemble il paraît toutefois faire jeu égal avec Technorati, dont la courbe un peu plus élevée à partir de 14h s'explique par quelques splogs non répertoriés (de façon volontaire ou non ?) par Google.

La réaction des moteurs de recherche sur la requête "Steve Kazmierczak" est aussi assez intéressante. Le buzz leur échappe complètement pendant ces premières heures... à part Google. Pour ce dernier, même si ça n'est pas clair sur le graphique, le nombre de résultats pertinents augmente bien, passant de 61 à 10h30 à 68 à 16h (les nouvelles pages proposées en résultat sont effectivement liées à l'affaire). L'explosion du nombre de résultats sans filtre de pertinence est en revanche tout à fait étonnant, et renforce le mystère sur les "nombres Google" : le nombre de pages pour cette requête a-t-il réellement doublé en 5h, ou bien n'est-ce qu'une approximation douteuse ?

Mais le plus important, c'est peut-être les courbes de Google Trends qui nous l'apprennent. Avant que la presse ose dévoiler le nom du tireur, avant que Wikipedia l'apprenne, Google était déjà au courant, avec les premières recherches sur ce nom moins de 3h après les faits. Leur domination sur le marché des moteurs de recherche leur donne aussi un accès direct à l'information, et leurs outils sont apparemment prêts pour l'exploiter au maximum. Avec la géolocalisation notamment, qui permet de cibler la provenance des requêtes et donc d'un éventuel buzz local. Alors à quand une agence de presse ou un tabloid Google, qui dévoilera ses scoops et rumeurs des heures avant le DailyMail ? Et qui a aujourd'hui accès aux données brutes de Google Trends en direct ? Sur le site, actuellement, les courbes sont actualisées au moins après 48h, ne sont pas fournies pour les termes pas assez recherchés, l'échelle horizontale n'est pas tout à fait précisée (j'interprète, peut-être à tort, que le point au-dessus de 4AM représente le nombre de recherches de 3AM à 4AM), sans parler de l'échelle verticale inexistante ! Bientôt une API Google Trends permettra peut-être d'accéder à ces données, et de rendre aux internautes la "connaissance" acquise grâce à eux...

This post is translated to English: The birth of a buzz, live.
Données brutes ayant servi à la réalisation des graphiques (fichier tableur OpenOffice)