1 avril 2007

Analyse du buzz F-List de la blogosphère francophone (2/3)

Le voilà enfin, l'arbre de diffusion de la F-list que je promettais il y a une semaine :

Cliquez sur l'image pour naviguer sur l'arbre et voir à quel blog correspond chaque point. Cet arbre donne tout de même une bonne interprétation du déroulement du phénomène : on peut voir un certain nombre de paliers qui rythment la transmission de la F-liste, c'est à mon avis là qu'il faut chercher les sites influents de la blogosphère (parmi les participants). Le site dont la F-list a été reprise directement le plus souvent est sendtofriend, dont le noeud, repassé en bleu dans l'arbre, a 11 fils (on remarque toutefois que ces fils ). La profondeur de l'arbre (la longueur de la plus longue chaîne, indiquée en rouge) est 18 :
Xavier - Bozarblog - BAO - 2ro - Jérôme Bouteiller - Bertrand Duperrin - Activeille - Démodéouss - Le web a meilleur goût - Mimie In Vivo - Planetargonautes - Marcus Retais - Luc - Woueb - Loneline - Ataegina - William Peres - Art pour tous.

Je détaille la méthode de construction, que je tenais à faire de façon automatique, et qui s'est révélée moins efficace que prévu. La principe de la F-list était qu'un blogueur B reprenait celle du blogueur A par qui il l'avait découverte, pour y ajouter ses propres liens favoris. Théoriquement donc, si la liste est transmise du blogueur A vers le blogueur B, celle de B contient celle de A. L'idée était donc de construire le graphe d'inclusion des F-listes, c'est à dire un ensemble de points (ou "noeuds") représentant chacun une F-liste, qu'on relie par une flèche (un "arc orienté") si une des listes contient l'autre. Si l'on dessine ce graphe, il est assez illisible à cause de la transitivité de la relation d'inclusion : si A contient B et que B contient C, alors A contient C, il y a donc des arêtes "superflues" dans le graphe. Les éliminer correspond à l'opération de réduction transitive, décrite dans la figure ci-dessous. Pour tout arc reliant A à B, s'il existe un arc reliant B à C et un arc reliant A à C, alors celui reliant A à C est superflu donc il faut l'effacer.

Si l'on effectue cette opération le plus de fois possible, on obtient un diagramme de Hasse qui représente très lisiblement les inclusions entre les listes étudiées, comme on le voit sur la figure ci-dessous (à côté de chaque noeud j'ai mis un exemple de F-list contenant les liens a, b, c, d, e ou f, le sens des flèches correspond au fait qu'une liste en contient une autre, c'est donc le sens inverse du sens de transmission des listes).

En faisant un tel traitement des listes, je comptais obtenir un arbre (où les branches ne se rejoignent jamais). En fait, le cas représenté dans la figure ci-dessus, c'est à dire que deux blogueurs ajoutent indépendamment les mêmes blogs dans leur liste (b c et d dans la figure), apparaît assez souvent, pour une quarantaine de listes. Je suis donc allé vérifier dans chacun de ces cas douteux où le blogueur disait avoir trouvé la liste (pour certains, comme Miss Tics, j'ai encore un doute...). Dans d'autres cas, le blogueur avait fait une erreur en recopiant la liste (ou avait choisi de ne pas la recopier).

J'ai donc vérifié l'ensemble de l'arbre, et le résultat de la méthode automatique n'est pas vraiment brillant : 77 erreurs d'identification du "père" sur un ensemble de 184 F-listes. Il faut tout de même relativiser ce taux d'erreur de 42% en notant que de nombreux blogueurs ont publié des F-lists ne respectant pas scrupuleusement les règles, qui n'étaient pas tout à fait claires (il n'était pas évident qu'il fallait ajouter les blogs lus régulièrement à la fin de la F-list, ce qui aurait pourtant facilité l'interprétation des listes, les chaînes de diffusion se trouvant alors en début de liste).

Conclusion : l'épisode 3 !

Aucun commentaire: