30 novembre 2006

Nuages du projet socialiste et du programme UMP

Les militants UMP ont voté lundi dernier pour leur programme législatif pour 2007, cinq mois après l'adoption du projet socialiste par le PS. C'est l'occasion de comparer les deux textes, et voir si on peut y trouver un peu de l'originalité lexicale à la mode en ce moment, et identifier les thèmes et les termes chers à chacun.

Le projet PS étant plus court que le projet UMP, on ne comparera donc pas les nombres d'occurences (après avoir éliminé quelques mots "parasites" très fréquents dans la langue française et peu porteurs de sens, ce que fait très bien le programme Dico, voilà le fichier résultat pour l'UMP et le PS), mais les fréquences. En effet, quand on organise les mots par fréquence décroissantes , les courbes des fréquences sont tout à fait comparables :


Les simples nuages de mots font apparaître de nombreux mots identiques dans les deux nuages, avec des variations plus ou moins importantes, il est donc plus intéressant d'effectuer un "contraste" des deux nuages. Pour cela, une méthode expéditive : si un mot est plus fréquent dans le nuage de l'UMP que du PS, on le supprime du nuage du PS et on retranche à sa fréquence dans le projet UMP sa fréquence dans le projet PS (et inversement, ce qui nous donne les fichiers suivants pour le PS et l'UMP). Au passage on peut aussi ajouter les fréquences des termes trouvés dans les deux programmes, pour obtenir un troisième fichier, de fréquences de mots communs aux deux projets. Et là, un petit coup de Freecorp TagCloud Builder, pour obtenir les trois nuages ci-dessous :

Je suis étonné de voir "culturelle", "écologie", et "mondialisation" à droite, et "violence" à gauche, cela diffère un peu des idées reçues sur les préoccupations de chaque camp. Toutefois, celles-ci apparaissent tout de même très nettement, le nuage "commun" étant aussi révélateur sur les sujets chauds du moment. Un grand absent cependant, le terme "chômage" !

27 novembre 2006

La naissance du web d'après les moteurs de recherche

J'avais examiné il y a quelque temps les nombres d'occurences sur internet, d'après Yahoo, des nombres correspondant à des années (en excluant les années divisibles par 10 qui parasitent...), et un événement étrange apparaissait : on retrouvait bien approximativement une droite "à la Zipf", mais en y regardant de plus près on voyait plutôt deux segments de droite. Après vérifications sur les autres moteurs de recherche, le phénomène apparaît à chaque fois (l'échelle pour le nombre de résultats dans le moteur de recherche, en ordonnées, est arbitraire et a été choisie pour faire coller au mieux, à l'oeil, les diverses courbes, remarquons tout de même le comportement bizarre de MSN pour "2005" et "2006") :

La moyenne nous permet de constater que le point de rupture entre les deux parties de la courbe est 1995 : il y a donc plus de pages qui mentionnent 1996, 1997, 1998, etc, qu'on pourrait s'y attendre. D'où viennent ces pages supplémentaires ?

L'explication la plus probable est que les pages créées à l'année n sont plus susceptibles de citer l'année n. On peut le vérifier en utilisant le Chronologue sur les différents chiffres correspondant aux années récentes :

Ainsi, c'est à partir de 1995 à peu près que la création de pages web a explosé ! Toutefois on peut voir que cette tendance semble s'amenuiser, puisque le segment de courbe 1996-2006 n'est pas parallèle et décalé avec le segment 1980-1995, il est juste décalé au début, mais revient maintenant "à la normale". Il reste à attendre encore quelques années pour voir comment évolue la tendance, et interpréter avec plus de précisions les phénomènes observés, ou la fin de l'année pour voir la progression de "2007" dans le Chronologue...

12 novembre 2006

Approximations et information

Je suis tombé sur un graphique intéressant dans un Figaro trouvé dans le train en rentrant d'Orléans : l'évolution des réponses des sympathisants socialistes à la question "Qui souhaiteriez-vous voir désigné(e) candidat(e) du PS à la présidentielle". Il accompagnait un article en première page intitulé "Royal s'effrite encore mais reste en tête devant DSK et Fabius". Sur le graphique en effet, on constate cet effritement, mais ce qui choque surtout c'est la remontée de popularité de Dominique Strauss-Kahn. Un examen des pourcentages montre que cette seconde impression est fausse : les trois courbes n'ont pas été mises sur la même échelle, mais dilatées (beaucoup pour Fabius, un peu moins pour DSK) et translatées, comme on peut le voir en comparant avec le vrai graphique pour ces valeurs :


On remarque aussi que le vrai graphique montrait bien la tendance d'effritement, et la remontée, visible mais toujours pas inquiétante pour les ségolistes, de DSK : ainsi il était tout à fait possible d'utiliser la visualisation des vraies valeurs plutôt que celle qui semble un peu truquée. Pourquoi le Figaro ne l'a pas fait et a préféré effectuer des changements qui donnent de fausses impressions ? Mystère.

Un autre exemple d'approximations qui m'amusent, celles qui font qu'un total arrive au dessus de 100%, c'est le cas par exemple de ce délicieux sandwich Poulet Tandoori de marque Leader Price avec 101% d'ingrédients, sans compter le soja, les crustacés et les poissons !


Dans ces cas-là il est vrai que ces bizarreries d'approximation sont tout à fait compréhensibles, j'arrive moins à m'expliquer en revanche pourquoi les gens en général et des journalistes en particulier prétendent qu'ils citent des phrases de façon exacte, en les déformant.

J'avais déjà évoqué les méfaits des copier-coller de dépêches d'agences de presse, eh bien là c'est un effet inverse. Notre exemple : une petite phrase de Ségolène Royal extraite de son intervention de janvier qui a agité la blogosphère cette semaine. Je m'étonne d'ailleurs que cette phrase n'ait pas fait plus réagir que le contenu général du discours. En effet, on a eu droit à un débat sur les 35h de présence des enseignants, sur le soutien gratuit, sur le fait que les propos avaient été coupés pour nuire à Ségolène Royale (la partie finale où justement elle explique que le soutien gratuit pour les élèves donnerait lieu à des compensations pour les professeurs). Bref, tout cela peut être débattu, on peut être pour ou contre. En revanche, si l'on prononce la question suivante "Donc comment se fait-il que des enseignants du secteur public aient le temps d'aller faire du soutien individualisé payant et ils n'ont pas le temps de faire du soutien individualisé gratuit dans les établissements scolaires ?", on émet incontestablement des suspicions sur le sérieux et la rigueur morale des enseignants. Travailler 35 heures par semaine laisse bien évidemment le temps d'effectuer d'autres activités rémunérées, sous les conditions fixées par la loi.

Des doutes formulés aussi clairement devraient être cités de façon exacte, mais ce n'est pas toujours le cas. Sur les blogs, on s'en doute, mais dans Le Monde non plus, qui négligemment remplace "des enseignants" par "les profs". On peut visualiser les différentes formes qui apparaissent sur le net grâce aux logiciels de bioinformatique qui font de l'alignement de séquences multiples, notamment GeneDoc qui est facile à installer sous Windows et à prendre en main pour obtenir le résultat suivant :


Les 7 versions de la phrase proviennent des sites suivants :
1 - Vidéo originale, Reuters, Nouvel Obs.
2 - Article du Monde
3 - Site de LCI
4 - Un blog
5 - Site Neteco
6 - ZeScoop
7 - Un forumeur sur le forum France 2

On peut alors donner à chaque mot de la phrase originale une taille proportionnelle à sa fréquence parmi les 6 variantes :


Et ceci nous permet de chercher toutes les variantes possibles sur les moteurs de recherche, en remarquant en particulier que les groupes de mots "le temps" et "faire du soutien" sont toujours conservés.