1 février 2007

Stats de popularité artisanales

Je m'étais bien amusé à rechercher à la main le nombre de pages dans les différents moteurs de recherche citant les nombres correspondant aux vingt dernières années... en regrettant de ne connaître aucun outil pour faire cela simplement et automatiquement. Google a mis en place depuis pas mal de temps une API, permettant aux webmasters programmeurs d'utiliser les résultats de son moteur de recherche, mais ça reste non trivial (personnellement je préfère de loin l'API Google Maps).

Bref, l'utilomane que je suis a donc concocté un petit utilitaire, Freecorp FuryPopularity, pour lancer une série de requêtes sur un moteur de recherche (seulement Google et Google en français pour le moment) et obtenir pour chaque expression recherchée le nombre de résultats renvoyés par le moteur de recherche. Le processus est un peu lent, puisque j'ai préféré laisser un certain délai, plus ou moins aléatoire, de quelques secondes entre des requêtes successives pour éviter un utilisation trop massive et donc suspecte du moteur de recherche. D'autre part, le programme dépend fortement du format actuel des requêtes et des pages de résultat choisi par le moteur, il peut donc ne plus fonctionner à tout changement de ces formats.

Le résultat obtenu peut être ouvert dans un tableur pour être retraité, j'ai par exemple utilisé Excel pour classer les 589 députés ayant voté à un des 43 derniers scrutins publics selon leur popularité d'après Google sur les pages en français. Le fichier peut alors être utilisé en entrée de Freecorp TagCloud Builder, pour construire le nuage des 100 députés les plus "populaires" ci-dessous.


Ce n'est plus de GoogleFight, mais du GoogleTournoi... Attention aux défauts du traitement automatique : les nombres de résultats Google sont parfois tout à fait fantaisistes, et ne distinguent pas les homonymes, comme on le voit ici avec Jean Michel, Philippe Martin, ou Daniel Prévost.

J'essaierai d'ajouter bientôt la possibilité d'interroger Dir.com, Yahoo, ou Technorati. En attendant, si vous avez des idées des mots-clés suggérés par les internautes à la recherche d'un tel outil sur le web, je suis preneur !

3 commentaires:

Anonyme a dit…

Il y a un joli artéfact : je doute que le député Jean Michel soit particulièrement connu (personnellement, jamais entendu parlé de lui), mais il bénéficie sans doute de la présence de milliers de "Jean-Michel" sur le net...

En tout cas, bel outil.

Philippe a dit…

Oui, j'en parle dans le post (avec en plus les exemples de Daniel Prévost et Philippe Martin). Un moyen simple d'amenuiser le problème est d'ajouter un mot-clé, par exemple "député", à toute requête.

JR a dit…

Bonjour !

Extra ce petit programme (furypopularity). Ce serait beaucoup rêver que d'espérer avoir une version mise à jour récupérant les chiffres de yahoo ? :)