Affichage des articles dont le libellé est blogs. Afficher tous les articles
Affichage des articles dont le libellé est blogs. Afficher tous les articles

3 décembre 2010

Classement Wikio Sciences Humaines

En ce début décembre, de nouveaux classements thématiques de blogs fleurissent sur Wikio. Claire, qui travaille dans leur département marketing, m'a proposé de diffuser celui des blogs en les sciences humaines. Alors ça y est, les informaticiens ont encore frappé, et leurs évaluations à la sauce bibliométrique touchent désormais la blogosphère française de la recherche en SHS ? Allez, pour se faire pardonner, on va organiser à Montpellier en juillet 2011 en satellite de TALN, un colloque (Doctorants, Informatique et Sciences Humaines) où les doctorants en informatique se mettront au service des doctorants en sciences humaines qui leur soumettront des problématiques traitables par l'outil informatique (plus de nouvelles bientôt sur ce blog et sur les canaux habituels de diffusion...).


Sans plus attendre, voilà ce Top 20 :
1Scriptopolis
2Baptiste Coulmont
3Ecrans de veille en éducation
4Évaluation de la recherche en SHS
5Mapping Expert
6Socio-informatique et argumentation
7Les émotions au Moyen Âge
8AGORA / sciences sociales
9Mexique ancien
10Je véronise...
11Mame & fils
12Archéologie poitevine
13Les découvertes archéologiques
14Le blog archeomellois
15DemoSocio
16Femmes au travail
17Paris Design Lab - ENSCI Les Ateliers
18Making Science Public*
19Bafouillages
20Amades

Classement réalisé par Wikio

Comme tout classement, ce qui importe est ce qu'on en fait ! Alors évidemment, le jour où l'ANR commencera à l'utiliser pour attribuer ses financements on pourra se faire du souci. Je le vois plutôt comme une façon de mettre en avant une communauté de blogueurs, et faire découvrir quelques carnets de notes virtuels qui méritent le détour (il est possible de consulter la suite du classement sur Wikio), de manière plus pertinente que la F-list et ses déclinaisons thématiques par exemple. On pourra s'étonner de l'absence de certains grands blogs français de SHS, ils sont peut-être à chercher du côté de la section Sciences de l'information. Si vous repérez d'autres grands absents, vérifiez si Wikio les connaît, signalez-les si non, et citez-les dans vos blogs si oui !

Une autre remarque : dans ce Top 20, on trouve pas moins de 8 carnets de recherche hébergés chez Hypotheses.org. Cela souligne un beau succès de cette plateforme, et je souhaite à Plume! la même réussite avec la plateforme-réseau de blogs de vulgarisation scientifique qu'ils viennent de lancer ("scientifique" inclut bien évidemment les sciences humaines !).

Et comme je n'aime pas faire uniquement du relai d'informations, j'en profite pour diffuser un autre classement polémique, fait maison : celui des villes universitaires françaises, en fonction des demandes de mutation des professeurs d'université et maîtres de conférences. Eh oui, les mathématiciens, dans leur grande bonté, ont dédié une Machine Ouverte aux Universitaires qui Veulent Echanger, qui mentionne les souhaits de mutation. On récupère tout dans un fichier tableur OpenOffice, on fait la différence pour chaque ville des demandes d'arrivée moins les demandes de départ, et on obtient, tada, un Top 15 des villes attractives pour les enseignants-chercheurs :

Pour dissuader ceux qui seraient tentés de l'utiliser de manière sérieuse, je précise que MOUVE propose aussi d'indiquer des régions souhaitées, que je n'ai pas prises en compte ici (pour une raison autre que vouloir faire figurer en tête la ville où j'ai obtenu mon doctorat : ceux qui indiquent vouloir déménager en "région parisienne" sont-ils vraiment prêts à prendre un poste indifféremment au centre de Paris, ou dans les diverses banlieues ?), et que je n'ai même pas pris le temps de refaire l'expérience sur des données à jour (celles-ci datent de mai 2010).

4 septembre 2009

Bilan du questionnaire fait-ou-pas

Un questionnaire circule depuis plus de deux ans sur la blogosphère française, il consiste à mettre en gras ce qu'on a fait dans sa vie, parmi une liste d'une centaine de propositions. Après l'analyse du mème de la F-list, voilà donc celle du mème "fait-ou-pas".

De nombreuses caractéristiques du mème F-list (dont évidemment celles qui compliquent la récupération et l'analyse des données) se sont retrouvées dans celui-là : origine américaine (j'en trouve une trace dès juin 2004), erreurs de transmission du mème (oubli de questions, modifications d'intitulés), changement des règles du jeu (ajout d'une question à la fin du questionnaire), diffusion communautaire (blogs de gastronomie, puis blogs de loisirs, un passage par les blogs cinéma et les blogs littéraires), transmission virale non arborée (questionnaire repris chez plusieurs sources), formats divers selon la plate-forme de blog. Et ce cas de blogueuse qui répond au questionnaire, puis à une version un peu modifiée l'année suivante...

Malgré ces obstacles, j'ai réussi à identifier une liste globalement conservée de 130 questions chez 163 blogueurs ou de commentateurs de blogs (en recherchant sur Google ou Blogsearch certaines questions du questionnaires). Parmi celles-ci, 127 avaient reçu une réponse de tous ces participants (les questions 50 et 55 ont été omises par certains participants, la 16 a été modifiée...). Ces données sont disponibles ici dans un beau tableau à double entrée de 0 et de 1 (1 si fait, 0 sinon, blogueurs en colonnes, questions en lignes... je vous laisse imaginer le nombre de films que j'ai vu cet été en parallèle de cette ingrate tâche d'acquisition manuelle de données).

Quel est l'intérêt de ces données ? Bah, pour commencer ça a bien une petite valeur de sondage, même si l'échantillon n'est certainement pas représentatif de la blogosphère française. Parmi ceux qui ont répondu en tout cas, 5% ont piloté une Ferrari, 7% ont touché un iceberg, 17% vu des baleines. 42% ont sauté à l'élastique... Euh, comment ça ? La version cour d'école, ou bien l'autre un poil plus vertigineuse ? Eh oui là aussi la polysémie du français vient nous jouer des tours. Certains se permettent aussi d'interpréter les questions de façon assez large pour pouvoir répondre positivement.

Qu'est-ce qui obtient les plus gros pourcentages ? 96% pour "Se sentir vraiment heureux, même un court moment", et "faire une bataille de boules de neige". A l'inverse, personne n'a conduit de gondole à Venise et seuls deux ont visité "tous les" continents : marieestdanssonassiette "par la pensée, la gastronomie, la musique du monde et en lecture" (quand je vous disais que ça triche un peu :)...), et les Fenouillard (dans la version "olympique" à 5 continents). Le reste des pourcentages se trouve dans la troisième colonne de ce tableau.

Et là, vous vous dites que vous aimeriez bien savoir quels blogueurs ont fait les trucs les plus exceptionnels. Comment évaluer ça ? Le nombre d'actions réalisées comme le propose Nostaledonie en commentaire chez les Fenouillard ? Non, certaines sont visiblement plus extraordinaires que d'autres. Une idée est alors de considérer chaque pourcentage comme une probabilité p d'effectuer l'action. Il y a donc aussi probabilité 1-p de ne pas effectuer cette action. Et finalement, la probabilité d'effectuer une certaine liste de ces 130 actions est le produit des probabilités correspondantes pour chaque action. Bon, certes, en faisant une simple multiplication, je considère que ces probabilités sont indépendantes, ce qui est peu raisonnable (répondre oui à "élever des enfants" n'est pas indépendant de répondre oui à "changer la couche d'un bébé" par exemple). On supposera toutefois qu'elles le sont pour simplifier le calcul. Pour simplifier la lisibilité également, on prendra le log du résultat (c'est plus facile de lire "-10" que "0.0000000001", voir la troisième ligne de ce tableau). Voici donc la liste des 5 blogueurs (blogueuses ?) ayant la vie la plus extraordinaire, parmi ceux qui ont répondu :

  1. la famille Fenouillard (loin devant)
  2. Marie est dans son assiette ! (citée plus haut...)
  3. Tout Silo
  4. Poppyrose
  5. Leeloolène

Vous remarquez la présence de la fameuse n°2 du top Wikio, et de la 149. Tiens tiens, et si les blogueurs à la vie la plus exceptionnelle étaient aussi les plus lus et cités ? Eh bien non, après vérification, pas de corrélation. La récupération de données Wikio fournit en revanche d'autres conclusions. Déjà, que leur liste de blogs référencés est loin d'être complète. Elimination des blogs inactifs, refus d'indexation de la part des blogueurs ? Ceci n'explique pas que plus de 55% des blogs recensés dans cette étude ici échappent à Wikio. Leur catégorisation, bien qu'imparfaite (1/4 des blogs catégorisés ici le sont par "divers"), permet de constater que le mème s'est répandu de façon impressionnante sur la communauté gastronomie au printemps 2007. Puis, en novembre 2007 et février 2008, passage dans la communauté loisirs (remarquez qu'au même moment que la croissance de la courbe "loisirs", "divers" et "non catégorisés" augmentent également très fort, voilà un vivier de blogs loisirs à ajouter à Wikio !). Littérature et cinéma en août 2008. En tout cas ces courbes en paliers me semblent décrire très joliment une diffusion virale par communautés successives, et je rêve d'une visualisation interactive de la diffusion sur la wikiopole...

Il reste une dernière visualisation à extraire de ces données, les lecteurs fidèles de ce blog se doutent bien que je n'allais pas garder une belle matrice de 0 et de 1 sous la main sans la transformer en arbre. Eh oui, tentons de rapprocher les questions qui ont obtenu des réponses similaires :
L'ACP donnait un résultat assez moche, alors que là quelques jolis sous-arbres apparaissent (la correspondance entre les étiquettes de l'arbre et les questions précises se trouve dans la 2° colonne de ce tableau). J'ai ajouté des couleurs pour améliorer la lisibilité : quand des feuilles sont proches et ont la même couleur, elles sont dans le même sous-arbre, et constituent donc un cluster de questions auxquelles les gens ont répondu de manière similaire. Quelques clusters pas très étonnants qui permettent de valider cette classification : {se marier, acheter une maison, élever des enfants} {avoir un piercing, un tatouage} {sauter à l'élastique, faire de l'escalade} {danser sans se soucier de qui regarde, danser avec un inconnu} {manger du kangourou, manger du requin} {marcher sur le Golden Gate, visiter Las Vegas} ou encore {porter un agneau, aider un animal à donner naissance, traire une vache}. Pour certains regroupements, on soupçonne une histoire cachée derrière : {faire un art martial, se casser un os, passer à la télé} {avoir un accident, maigrir fortement, dormir 30 heures, jeûner 5 jours}. Mais pour préciser tout ça, et surtout comprendre les étonnants {manger des sushis, faire une balade nocturne sur la plage} ou {vendre ses créations, utiliser une arme à feu}, je cherche à utiliser d'autres techniques de fouilles de données ou classification. Les règles d'association me paraissent prometteuses, notamment, et si j'arrive à en tirer quelque chose vous en aurez des nouvelles sur ce blog.

31 mars 2009

Traduction d'xkcd et loi de Pareto

Le projet de traduction d'xkcd, conçu en un week-end et lancé début décembre, a plutôt bien démarré : 2/3 des planches de Randall Munroe sont maintenant traduites en français ! C'est plus que les versions russe (299/562) et espagnole (150/562)... pour une raison simple : le projet est collaboratif ! (Bon, et on traduit en dessous, et pas sur les images, aussi, hein, il faut reconnaître que c'est plus rapide). Une trentaine de personnes a participé : quelques amis, et une majorité d'internautes que je ne connais pas (vous pouvez vous signaler en commentaire de ce post afin que j'ajoute un petit lien sous votre pseudo dans la liste des traducteurs ;)).

Voici quelques données sur l'avancement du projet, au cas où vous voudriez vous lancer dans une aventure similaire. Tout d'abord, la chronologie de l'avancement du projet. J'ai indiqué par une bande rouge une période d'indisponibilité de l'interface de traduction (du 21 février au 13 mars) qui avait échappé à mon attention, le reste du site étant fonctionnel. La forme de la courbe en escaliers correspond à l'arrivée de participants motivés, qui se lassent au bout d'un moment, ou ont fini de traduire tout ce qui les intéressait (ou pensent que le site est cassé, à partir du 21 février :s).

Passons justement à la distribution des contributions. Pour la Wikipedia anglaise, Aaron Swartz nous apprenait en 2006 que 2% des contributeurs font presque 75% des modifications de l'encyclopédie. Pour la traduction d'xkcd, les pourcentages de participation des divers traducteurs se trouvent ici (quand plusieurs collaborateurs ont contribué à la traduction d'une planche, je leur attribue naturellement l'inverse du nombre de contributeurs et je divise finalement ces scores par le nombre total de planches en anglais pour obtenir les pourcentages). Notons que ces pourcentages ne prennent pas en compte la longueur des traductions réalisées (tout comme l'étude d'Aaron Swartz d'ailleurs), ce qui ne rend pas vraiment compte, par exemple, du travail de Kith sur la série à propos du Ministre de l'Internet. Toujours est-il que ces données font apparaître une loi classique : la loi de Pareto ! 20% des utilisateurs (les 6 plus gros collaborateurs) ont réalisé 80% des traductions. Ce soir, le nombre précis est même 79.62%, ce qui semblerait donc moins "élitiste" que la Wikipedia !

En fait, on voit même apparaître une distribution de Pareto (une loi de puissance qui vérifie la règle des 80-20), comme nous le montre la courbe log-log ci-contre.

On peut aussi avoir un aperçu des horaires et des jours de la semaine où les traducteurs montrent le plus d'activité (j'ai exclu les valeurs me concernant) : valeurs anormalement élevées le dimanche, à midi, et en pleine nuit, tout ça rappelle les habitudes de surf des étudiants.
Un petit aperçu de ces traductions, maintenant, avec le nuage arboré des mots apparaissant plus de 10 fois, ci-dessous. Je ne l'ai pas annoncé en grande pompe, j'attends une jolie interface web pour ça, mais ça y est (enfin), un outil pour créer des nuages arborés avec plein de paramètres personnalisés est disponible sur www.treecloud.fr (ou treecloud.org pour les anglophones). Attention, c'est un outil en ligne de commande, qui nécessite un détour par le manuel d'utilisation, en anglais. Mais ça en vaut la peine : le programme permet d'obtenir de jolis résultats, en particulier grâce à la coloration "chronologique" : les mots du nuage arboré ci-dessous apparaissent plutôt rouge s'ils se trouvaient dans les premières planches de xkcd, plutôt bleu s'ils sont beaucoup présents dans les planches récentes. On est en train, avec Jean, de tenter d'ajouter à ça des informations sur la dispersion des mots : plus de nouvelles quand ce sera prêt !
Et si ce nuage arboré vous intrigue, allez jeter un oeil à ces traductions de xkcd, ou abonnez-vous au flux RSS pour recevoir les dernières traductions dès qu'elles sont validées ! A propos, petit aparté sur le spam : les robots n'ont pas tardé à trouver le site et envoyer des traductions bien peu fiables, incitant plutôt à l'achat de petites pilules bleues, mais le flux reste faible (un spam par jour en moyenne) et la procédure de modération manuelle permet d'éviter de les laisser passer.

Pour finir, un grand merci à tous les participants à la traduction ! Internet est de plus en plus collaboratif, alors si vous avez un peu de temps, profitez-en pour vous lancer dans quelques aventures. C'est l'occasion de faire un peu de pub pour les JeuxDeMots, et Pti Clic, qui, dans le genre de Google Image Labeler ou VideoTagName, sont en train de construire petit à petit un magnifique réseau sémantique, à faire pâlir Wordnet. Les données récoltées sont en plus mises à disposition en format brut, ou consultables par des interfaces web, qui peuvent déjà être utilisées pour retrouver, par association d'idées, ces mots qu'on a sur le bout de la langue. Le premier jeu permet d'aider le système à apprendre des relations sémantiques entre mots (synonyme, contenu/contenant, lieu d'une action, etc), et le second (dont on devient vite accro, même en jouant au touchpad...) de renforcer ou préciser ces relations. Le meilleur moyen pour comprendre le principe est de tester en mode invité, et le meilleur moyen pour comprendre l'utilité des données produites est de les utiliser dans des applications diverses... ce qui ne manquera pas d'être fait bientôt sur ce blog !


Comme toujours, les données liées à ce billet sont disponibles : dans ce fichier tableur Open Office. Et le nuage arboré à ouvrir avec SplitsTree pour pouvoir zoomer, etc. Il a été construit par SplitsTree et TreeCloud avec une stoplist française, et les options distance=hyperlex minnb=11 window=100 unit=1 color=chronology.

Episodes précédent et suivant.

13 décembre 2008

Xkcd en français

xkcd est une mine d'illustrations pour les enseignants en informatique, et j'ai décidé cette année d'illustrer chaque séance des TP de système/réseau que j'assure en L2 avec un dessin traduit pour l'occasion.

Les difficultés sont multiples : choisir le dessin tout d'abord. Car parmi les quelques centaines de l'auteur, Randall Munroe, il faut en trouver qui ont un rapport plus ou moins direct avec la séance du jour, et je remercie Arnaud de m'avoir fait profiter de sa mémoire et de sa connaissance pointue de xkcd pour m'éviter d'être bloqué sur la fin.

Autre problème, la traduction. Ces courtes vignettes faisant appel à un vocabulaire spécialisé sont assez difficiles à traduire en restant aussi concis. Quand il faut en plus gérer des problèmes de culture geek dont l'équivalent français n'existe pas, ça devient mission impossible. Quant au texte alternatif, c'est souvent difficile même d'y comprendre la blague.

Encore un obstacle, la réalisation. Retrouver une police de caractères qui ressemble à l'écriture - en majuscules - de Randall Munroe n'est pas évident. On trouve quelques essais ici ou . La police International Playboy, qui contient même la plupart des majuscules accentuées, donne un résultat convenable.

Enfin, dernier problème : la publication et les droits d'auteurs. Eh bien ce n'en est pas un, puisque xkcd est publié sous licence Creative Commons autorisant justement les modifications !

Alors, qu'attendent tous les geeks de France pour lancer une vraie interface collaborative de traduction d'xkcd ?

Il y a eu quelques essais, mais la plupart n'ont pas survécu à quelques dizaines de dessins. Le total, recensé ci-dessous, permet tout de même d'arriver à 11% de la BD. Mais attention, la qualité de traduction n'est pas toujours au rendez-vous :
21 45 77 86 86' 123 129 132 148 156 163 169 171 185 191 195 198 202 208 208' 218 221 224 227 231 232 233 242 244 247 275 275' 287 290 302 302' 303 307 323 327 327' 329 341 342 343 344 345 349 350 353 374 377 378 378' 385 385' 386 397 399 400 405 411 411' 414 425 425' 426 427 428 429 432 433 434 435 436 441 444 445 447 448 451 453 456 456' 469 479 488 488' 530

Si l'on veut lancer une traduction massive, l'idée serait de permettre une collaboration. Difficile si l'on travaille directement sur les images. J'ai donc préparé une interface de traduction d'xkcd en français qui fonctionne seulement en ajoutant le texte sous l'image. Ceux qui le voudront pourront ensuite créer les images, en y insérant ces textes. Pour arriver à une bonne qualité, je propose le système suivant :

  • n'importe qui peut envoyer une traduction
  • des modérateurs (moi pour l'instant, mais si je peux vous faire confiance, j'accepterai certainement de vous ajouter à la liste) se chargent de la valider pour qu'elle apparaisse sur le site, et de choisir la meilleure (et donc bye bye les robots spammeurs !).
Le système est réalisé en PHP/MySql, sur une structure très proche de celle utilisée pour le guide de Pessoa sur Lisbonne. L'adaptation à d'autres langues sera donc très facile (contactez-moi si vous êtes intéressé par les sources). Et bien sûr, je compte sur vous pour proposer des traductions ! Il suffit de cliquer sur l'image voulue, puis compléter le formulaire, en utilisant éventuellement le lien vers l'image originale pour l'avoir sous les yeux pendant la traduction. Et surtout n'oubliez pas l'infobulle, qui apparaît quand on laisse traîner la souris sur l'image !


Alors bien sûr, vous allez me dire que la traduction des xkcd est un peu inutile, vu que la connaissance de l'anglais fait partie de la culture geek. Ce n'est pas complètement faux. Un sondage a été organisé cette année pour évaluer la familiarité avec l'outil informatique de tous les entrants en licence de la Faculté des Sciences de l'Université Montpellier 2, dans le cadre d'une UE préparant à l'examen du C2I (Certificat Informatique et Internet). Un millier d'étudiants a répondu, et voici les résultats des deux questions suivantes :

Si, sur internet, vous arrivez sur une page écrite en anglais :
  • vous n'y comprenez rien
  • vous y déchiffrez quelques mots
  • vous pourriez la comprendre en cherchant le sens de quelques expressions
  • vous la lisez en comprenant la plupart des phrases
À propos du contenu de cette unité FLIN102, vous pensez :
  • que vous aurez du mal, qu'il y aura beaucoup (trop ?) de choses à découvrir,
  • que ça ira en suivant les TP, et en les travaillant en plus chez vous,
  • que suivre les TP vous suffira pour apprendre des choses et les retenir,
  • que vous connaissez déjà une bonne partie des choses enseignées en TP, mais que vous en découvrez quelques unes,
  • que suivre les TP est pour vous complètement inutile, vous savez déjà tout ou presque.

Comme vous pouvez le constater, la maîtrise de l'anglais augmente en même temps que la maîtrise de l'outil informatique. Alors peut-être que les fous d'ordinateurs continueront à se précipiter sur la version originale de la BD, et que la traduction leur servira seulement en cas de problème. Peut-être qu'ils profiteront de leur maîtrise de la langue pour faire profiter d'xkcd aux allergiques à l'informatique pour lesquels quelques planches sont tout à fait accessibles.


Episodes suivants : traduction d'xkcd et loi de Pareto (31 mars 2009), sous-titrage xkcd : 100% ! (20 avril 2010)

2 mars 2008

Suivi en direct de la naissance d'un buzz

Je rêve depuis quelques articles de pouvoir suivre en direct la naissance d'un buzz sur internet, et évaluer la performance des divers outils dédiés à leur analyse et détection. J'aurais préféré un sujet plus léger, mais c'est la tragédie de la Northern Illinois University qui m'en a donné l'occasion il y a deux semaines.

L'identité du tireur n'était pas été dévoilée le soir du drame. Mais dans la nuit (10 heures après), le Chicago Tribune fournissait sur son site internet assez d'éléments pour lever l'anonymat, tout en précisant de façon plutôt hypocrite :

The Tribune is not naming the gunman because police have not officially completed the identification of his body.
Une simple recherche d'articles co-signés par Jim Thomas et avec les mots clés "self-injury" et "prison" permettait d'identifier le suspect : Steve Kazmierczak. A 8h10, un visiteur de la Wikipedia modifie l'article concernant la fusillade pour y indiquer ce nom. Une trentaine de minutes plus tard, premier article de blog qui le cite, son auteur le met à jour plusieurs fois pour y ajouter d'autres informations trouvées sur internet. Le nom apparaît alors sur un blog et un forum, et à 10h33, est cité par le Daily Mail (l'article a été mis à jour depuis). Les internautes commencent alors à le soumettre aux moteurs de recherche, et il se retrouve en tête de la liste des "hot trends" de Google. Il est donc immédiatement repris par quelques splogs, qui semblent faire leur beurre en citant les tendances du moment éventuellement accompagnées de quelques extraits de pages web les concernant, récupérées automatiquement. A 14h42, l'agence Associated Press annonce que la police a rendu public le nom de Steven Kazmierczak. Mon suivi du buzz s'est arrêté là, puisque les articles ou pages web sur le sujet ont alors utilisé les prénoms "Steve", "Steven" ou "Stephen".

Quoi qu'il en soit, suivre les premières heures m'a permis de noter la réactivité des divers moteurs de recherche et outils de suivi de la blogosphère ou plus généralement du web. Comme je l'ai mentionné ci-dessus, c'est la Wikipedia qui a dévoilé l'identité en premier. Une occasion de plus d'en noter les possibles dérives, mais aussi de s'incliner devant la puissance de cette formidable machine à scoops. C'est dans l'encyclopédie que j'avais trouvé le premier compte-rendu clair de l'affaire Kerviel, après plusieurs jours d'évocation de "fraude" sans plus de détails dans les articles de presse que j'avais parcourus. On peut aussi s'y informer sur les décès de personnalités, en utilisant l'outil Wikirage qui par exemple montrait en tête le 13 février : Henri Salvador, Imad Mougniyah, et Badri Patarkatsishvili.

A propos des outils de suivi de la blogosphère, on peut noter que BlogPulse n'est pas très réactif. Evidemment Google Blogsearch est le premier à détecter le premier billet de blog sur le sujet, hébergé par... Blogspot. Dans l'ensemble il paraît toutefois faire jeu égal avec Technorati, dont la courbe un peu plus élevée à partir de 14h s'explique par quelques splogs non répertoriés (de façon volontaire ou non ?) par Google.

La réaction des moteurs de recherche sur la requête "Steve Kazmierczak" est aussi assez intéressante. Le buzz leur échappe complètement pendant ces premières heures... à part Google. Pour ce dernier, même si ça n'est pas clair sur le graphique, le nombre de résultats pertinents augmente bien, passant de 61 à 10h30 à 68 à 16h (les nouvelles pages proposées en résultat sont effectivement liées à l'affaire). L'explosion du nombre de résultats sans filtre de pertinence est en revanche tout à fait étonnant, et renforce le mystère sur les "nombres Google" : le nombre de pages pour cette requête a-t-il réellement doublé en 5h, ou bien n'est-ce qu'une approximation douteuse ?

Mais le plus important, c'est peut-être les courbes de Google Trends qui nous l'apprennent. Avant que la presse ose dévoiler le nom du tireur, avant que Wikipedia l'apprenne, Google était déjà au courant, avec les premières recherches sur ce nom moins de 3h après les faits. Leur domination sur le marché des moteurs de recherche leur donne aussi un accès direct à l'information, et leurs outils sont apparemment prêts pour l'exploiter au maximum. Avec la géolocalisation notamment, qui permet de cibler la provenance des requêtes et donc d'un éventuel buzz local. Alors à quand une agence de presse ou un tabloid Google, qui dévoilera ses scoops et rumeurs des heures avant le DailyMail ? Et qui a aujourd'hui accès aux données brutes de Google Trends en direct ? Sur le site, actuellement, les courbes sont actualisées au moins après 48h, ne sont pas fournies pour les termes pas assez recherchés, l'échelle horizontale n'est pas tout à fait précisée (j'interprète, peut-être à tort, que le point au-dessus de 4AM représente le nombre de recherches de 3AM à 4AM), sans parler de l'échelle verticale inexistante ! Bientôt une API Google Trends permettra peut-être d'accéder à ces données, et de rendre aux internautes la "connaissance" acquise grâce à eux...


This post is translated to English: The birth of a buzz, live.
Données brutes ayant servi à la réalisation des graphiques (fichier tableur OpenOffice)

11 juin 2007

Archives du blog François-Mitterrand-2007

You've been Google-cach'd!Fin du mystère sur le blogueur/médium de François Mitterrand, grâce à Nicolas Voisin dont la démarche est plus ou moins appréciée.

La fermeture s'est accompagnée de la suppression de tous les billets précédents. Heureusement que notre ami Google avait (presque ?) tout archivé scrupuleusement. Comme ce n'est pas très facile de se promener là dedans, voici le catalogue des billets ordonnés chronologiquement ! Et le cache de Google n'étant pas éternel, je remplacerai à leur disposition les liens cassés par des pointeurs vers les fichiers fraîchement sauvegardés (ce qui n'était d'ailleurs pas trivial, je n'ai pas réussi à configurer mon aspirateur préféré pour archiver tout ça et j'ai dû concocter un petit programme personnel).

A ce propos, je me demande d'ailleurs comment sont gérées les questions de droits d'auteur pour des productions anonymes... En tout cas, Google ne se pose pas la question, pour le plus grand plaisir des lecteurs du "cache" !

20 avril 2007

Analyse du buzz F-List de la blogosphère francophone (3/3)

Ouf ! Après plusieurs soirées passées à corriger le corpus, les résultats intermédiaires, et quelques 800 lignes de code, voilà enfin le post de conclusion sur les F-listes.

Où l'on remarque l'importance de l'effet de gratitude dans la poursuite de la chaîne ; où l'on découvre une liste de blogs francophones intéressants que la F-list était censée promouvoir ; où l'on détermine la liste des blogs qui ont le plus bénéficié de la chaîne ; où l'on voit que cette seconde liste ne contient naturellement pas la première...

Commençons par l'effet de gratitude, c'est le principe du "tu me cites ? je te cite !". 95 blogs sur 185, soit plus de 51% des participants, étaient déjà présents dans la F-list récupérée pour construire la leur (voir l'arbre de diffusion ici) ! On peut donc supposer qu'ils n'ont pas découvert la liste simplement en lisant leur blog favori, mais plutôt en se voyant cités, grâce aux rétroliens, ou peut-être en identifiant un blog leur amenant des visiteurs grâce à des outils de statistiques de fréquentation, ou encore... eh bien demandons-leur ! Si vous êtes dans la liste ci-dessous, c'est que vous faites partie de ces participants qui ont repris une F-liste dans laquelle ils avaient déjà été ajoutés : comment l'avez-vous découverte ? Merci de répondre en commentaires ! En ce qui me concerne, c'est dans les rétroliens du blog de Jean Véronis.

fiuuu.com bluebayou34.free.fr/dotclear/index.php www.digiboy.fr www.spirit-of.com hisaux.free.fr blog.localingo.com www.underdeepwater.com/lab.oratoire yellowman.wordpress.com blog.gloups-news.info stephanerangaya.kyotek.com www.tagle.ca/wordpress www.yannicklejeune.com www.eyes-wide-shoot.be mallo-blog.new.fr www.libert-fr.com lafrange.wordpress.com befaure.blogspot.com mesgoutsmescouleurs.blogspirit.com www.net-marketing.fr damdam.typepad.com www.estrade.ca www.go-referencement.org www.stephguerin.com fredfortin.net/Blog ambiome.net/blog www.martinbreton.com www.supergab.com christellefv.com/weblog www.zecanada.com hamadiblog.blogspot.com akratique.blogspot.com fraises.blogspot.com leperiscope.blogspot.com www.goudaille.com www.nayezpaspeur.ca journal.covonline.net leblogdemateusz.blogspot.com osmany.hautetfort.com www.melissamonaco.com/wordpress maheanuu.free.fr family-counts.blogspot.com stephanetauziede.com mmelovecraft.livejournal.com ancienetmoderne.blogspot.com arnolux.typepad.fr aodai.typepad.com fredofenua.blogspot.com www.darjeeling-in-the-teapot.com lemondedetitus.blogs.letelegramme.com hysteriesilencieuse.free.fr soleilentete.canalblog.com karamailhe.canalblog.com phinebacker.blogspot.com www.netwizz.net/blog blog.galerie-net.com www.williamperes.com ru3.com/luc marcus.retais.fr les5sensselonchristian.typepad.com lesfemmesendisent.blogs-handicap.com planetargonautes.typepad.fr www.emich.be www.benjaweb.be/blog www.vinch.be/blog blog.barbayellow.com www.zewoc.com arkandis.blogsome.com www.nellio.com lovnyterrestre.vox.com bayart.typepad.com/blog www.buzzdunet.com www.greg-b.net corps-et-sante.typepad.fr www.buzztogether.net gaduman.blogspot.com www.netandco.info misstics.canalblog.com utovic.hautetfort.com viralbuzzandco.blogspot.com www.commalad.com cheguerilla.blogspirit.com sendtofriend.blogspot.com www.sylvainbriant.com www.page2007.com vmaurin.free.fr/dotclear elayeillon.hautetfort.com www.voxinablog.com www.arts-et-talents.com fadhilabrahimi.blogspirit.com www.duperrin.com www.cooperatique.com www.bizfriz.com www.jbouteiller.net 2ro.free.fr/blog le.bisounours.eu/index.php

Xavier, en démarrant la chaîne, motivait son initiative par la découverte de petits blogs francophones intéressants. On peut supposer que c'est le cas de blogs qui ont été insérés dans la F-list par plusieurs blogueurs différents. Voici la liste des 39 blogs ajoutés indépendamment plus de quatre fois (il y en a une centaine qui ont été ajoutés plus de trois fois) :

Si vous avez été cité dans la F-list, vous pouvez savoir qui vous a ajouté en recherchant votre blog parmi la liste complète disponible ici !

Comme vous avez pu le constater, les blogs ajoutés souvent à la F-list n'ont pas nécessairement été ceux le plus souvent cités, et finalement les grands gagnants en termes de citations (voir aussi : classement Technorati, voir aussi : pagerank) sont les suivants (93 blogs avec 50 citations ou plus, dont 18 participants à la F-list) :Bilan, si vous voulez créer le prochain buzz viral de la blogosphère francophone, citez des blogs de la première liste (ils vous le rendent bien), arrangez pour le faire connaître de ceux de la seconde (ils sont lus par des gens susceptibles de réagir sur leur blog), et il ne vous servira à rien de citer les blogs de la troisième qui ne sont pas en gras (s'ils ont vu passer la F-List, ils ont choisi de ne pas y participer).

N'hésitez pas si vous avez d'autres aspects du phénomène sur lequel vous voulez des précisions, vous pouvez aussi utiliser directement les fichiers générés au cours de l'étude.