11 mai 2009

Multinuage des programmes aux élections européennes

Le logiciel TagCloud Builder de construction de nuages de mots, présenté ici il y a déjà quelque temps, a bénéficié d'une mise à jour la semaine dernière : il permet désormais de représenter les mots de plusieurs textes au sein d'un seul nuage, en attribuant une couleur à chaque texte.

Cette idée m'a été proposée par Kirsten Talbot, qui termine son master en sciences sociales en Afrique du Sud, et voulait représenter ainsi ses données sur les stéréotypes communautaires dans l'Afrique du Sud post-apartheid. En attendant de pouvoir découvrir ses visualisations et ses résultats, voici un exemple d'utilisation de cette visualisation en multinuage de mots, sur les programmes (ou ce qui y ressemble le plus...) des quatre partis français en tête dans les sondages pour les européennes selon Ipsos :

Je trouve que le résultat obtenu est bien meilleur que la simple juxtaposition de nuages créés pour chaque texte, comme celle que j'avais tentée pour les programmes PS et UMP des présidentielles il y a deux ans. Mentalement, on peut soit se focaliser sur une couleur, et bien voir les mots qui apparaissent pour celle-ci, soit lire le nuage "linéairement", et comparer pour chaque mot à quelle taille il apparaît dans chaque couleur (cette deuxième lecture permet donc le contraste des deux nuages, sans se préoccuper de trouver une bonne formule de contraste). Il manque la possibilité de cliquer sur un mot pour voir ses occurrences dans un concordancier - comme Jean l'avait fait ici pour la constitution européenne par exemple - ça ne devrait pas tarder.

Et le style n'est pas aussi chouette que les nuages Wordle. Si quelqu'un connaît (ou programme) une implémentation libre de cette méthode de visualisation (l'algorithme de placement est pour l'instant © IBM), je suis très intéressé !

En ce qui concerne les améliorations arborées des nuages de mots, voici une présentation en français du principe et des détails techniques, donnée la semaine dernière au séminaire doctorants de mon labo. Ca vous donnera peut-être envie de tester TreeCloud qui est maintenant disponible avec une interface graphique facilitant son utilisation et un manuel d'utilisateur.

Données utilisées : détaillées ici.
Edit : merci à Vincent pour la correction du lapsus sur l'année !
D'autre part je n'ai pas commenté le nuage, qui me semble pourtant intéressant sur le fond : voici quelques mots (ou absences de mots) qui peuvent surprendre (ou au moins mériter d'aller examiner les contextes) : croissancefemmeidentité, développement, énergie, nouvelle, et d'autres tendances plus attendues : droite, dumping, social, automobile, biologique, mobilitécitoyen, coopération, ambition, décidé, histoire, sociale, protection, turquie, libéralisme-capitalisme.

Ah, tiens, IBM a un truc similaire dans ManyEyes, mais apparemment limité à deux textes.