Affichage des articles dont le libellé est société. Afficher tous les articles
Affichage des articles dont le libellé est société. Afficher tous les articles

22 octobre 2010

1000 chercheurs parlent d'avenir

La Fête de la Science a commencé, elle est marquée cette année par la projection sur les murs du Panthéon de 1000 portraits de chercheurs accompagnés d'une phrase sur leur vision de l'avenir (et de vidéos sur le site du CNRS). Pierre Maraval, le photographe à l'origine de ce projet, dévoile les 1000 phrases sur son site web. Voici une visualisation des mots les plus fréquents construite avec le logiciel NuageArboré sur treecloud.org, glissez la souris sur chaque mot pour voir son nombre d'occurrences :


Image SVG

Les distances entre mots calculées ci-dessus le sont d'après les cooccurrences dans des fenêtres glissantes de 10 mots. Mais ces fenêtres peuvent concerner la fin de la phrase d'un chercheur, et le début de la phrase du suivant. Pour éviter cela, il faut télécharger TreeCloud et utiliser la fonction "séparateur" afin que la distance entre mots dans l'arbre reflète le nombre de chercheurs qui les utilisent ensemble dans leur phrase. Si l'on classe chaque chercheur en "sciences exactes", "sciences de la vie" et sciences humaines" (comme dans ce fichier tableur OpenOffice), voici les nuages obtenus par TreeCloud et SplitsTree :

Le voisin du mot "recherche" dans chacun des nuages arborés (respectivement "liberté", "passion", "sauvons") me semble intéressant (même s'il n'est pas nécessairement celui qui est le plus cité conjointement avec "recherche"). Les mots des sous-arbres autour d'"avenir" d'une part et "recherche" d'autre part, me semblent intéressants pour esquisser des visions contrastées de ces domaines. On peut aller plus loin en cherchant le vocabulaire statistiquement sur-représenté dans un domaine par rapport aux deux autres. D'après les calculs de spécificité de Lexico 3, les mots (non vides) sur-représentés sont les suivants :
  • sciences exactes (total de 501 phrases) : univers, Terre, énergie, demain, futur
  • sciences de la vie (total de 379 phrases) : recherche, espoir, mieux, chercher
  • sciences humaines (total de 120 phrases) : pas, passé
A partir du prénom, j'ai également tenté de repérer les mots sur-représentés dans les phrases de 331 chercheuses par rapport à celles de 599 chercheurs. Pas de grosses différences : seuls service (systématiquement dans l'expression "au service de" chez les femmes), recherche et pour, sont sur-représentés chez les femmes alors que plus est sous-représenté par rapport aux hommes.

N'hésitez pas à commenter ces résultats, et proposer d'autres méthodes d'analyse de ce corpus !

31 mai 2010

Graphe orienté et politique : le cercle vertueux

Les graphes apparaissent rarement sur ce blog, alors qu'ils constituent l'une de mes thématiques de recherche. Une utilisation dans le cadre du débat politique me donne l'occasion d'en parler aujourd'hui.


Combats de chiffres parfois, d'égos souvent, de mots toujours, les débats politiques s'enlisent bien souvent sans faire apparaître clairement le fond du problème, sorte de plus petit commun désaccord. Des outils informatiques de brainstorming et de web-débat commencent à voir le jour pour structurer les discussions et les confrontations. Mais ceux que je connaissais ne me satisfaisaient pas au moment où nous avons commencé avec d'autres doctorants des universités montpelliéraines à débattre sur la future charte des thèses.

Un peu d'éléments de contexte avant d'aborder l'outil proposé. La charte des thèses existe dans les établissements d'enseignement supérieur pour donner un cadre à la préparation du doctorat. Ces chartes détaillent de façon plus ou moins poussée les droits et devoir des doctorants, de leurs encadrants, et des structures liées au doctorat. Selon les universités et les domaines de recherche, elles assurent aux doctorants un statut clair de professionnel de la recherche recruté sur un projet précis (en affirmant par exemple que tout doctorant doit être rémunéré) ou bien restent plus vagues, pour diverses raisons. Raisons historiques, contextuelles, et scientifiques se mélangent bien souvent dans les explications, il est difficile de faire le tri. Face à cette confusion, la Confédération des Jeunes Chercheurs tient un discours clair, argumenté et documenté sur le sujet.

J'ai donc essayé de regrouper l'ensemble de ces arguments dans une synthèse qui ferait apparaître la cohérence d'ensemble de ce discours, et permettrait rapidement de mettre le doigt sur les points de désaccord. Les arguments étant souvent liés les uns les autres, il semblait apparaître une sorte de cercle vertueux, et c'est cet aspect que j'ai essayé de mettre en valeur dans un graphe orienté (un ensemble de points reliés par des flèches), à l'occasion d'une pause MacDo par un sombre dimanche d'hiver. Les flèches s'interprètent comme des implications logiques, mais comme tout modèle mathématique, il s'agit d'une simplification de la réalité, où les flèches doivent plutôt être interprétées comme "conduisent à" ou "favorisent".

Il fallait ensuite passer de l'ébauche sur carnet Moleskine au document clair et utilisable, ça a été fait grâce à l'outil de dessin de Google Docs (afin de laisser la possibilité à d'autres participants de notre groupe de réflexion de modifier la figure), et aux conseils esthétiques de Paola et Alban pour mieux faire ressortir le cercle vertueux, et faire apparaître la charte des thèses, et ses effets sur le cercle, en position centrale :


Etape suivante, rendre la figure entièrement cliquable pour expliquer les flèches et les cases dans une interface très navigable. L'outil de création de maps HTML d'OpenOffice a permis de faire ça très rapidement, le résultat se trouve ici.

Résultat sur les discussions et le débat ? On y gagne une vision d'ensemble assez claire : ce cercle fonctionne bien actuellement pour les doctorants en sciences exactes, en revanche c'est moins le cas pour les doctorants en sciences humaines. La clé du débat est alors de savoir comment l'amorcer : en imposant de nouvelles contraintes sur les doctorants (obligation de financement pour s'inscrire en thèse, durée limitée de façon stricte à 3 ans), ou bien en améliorant les conditions d'encadrement et de travail en équipe ? La réponse est vite trouvée, et correspond à l'évolution en cours dans les écoles doctorales montpelliéraines en sciences humaines : EDEG, 58 et 60. Pour Droit et sciences sociales, le chemin à parcourir semble plus important...

C'est justement dans cette école doctorale qu'on nous dit que le "cercle vertueux" est inadapté, en ciblant les cases et les flèches qui ne sont pas correctes. L'insertion professionnelle dans le privé aurait peu de lien avec le bon déroulement de la thèse, en droit, et serait même à l'origine d'un grand nombre d'abandons de thèse. De plus, le rapport personnel et subjectif du doctorant à son sujet de thèse et aux textes de sa bibliographie, ainsi que la maturation de la réflexion nécessaire à produire un résultat de recherche intéressant, seraient à l'origine d'une impossibilité de borner une thèse à une durée maximale de trois ans. Là, toute la question est de savoir s'il s'agit d'un principe qui fait consensus en droit voire dans d'autres domaines scientifiques (philosophie ? littérature ?), ou si elle concerne seulement certains sujets de thèse exceptionnels qui demandent des durées adaptées en conséquence... auquel cas une simple exception à la règle, bien encadrée dans la charte des thèses, suffirait.

Verdict attendu suite aux discussions dans les écoles doctorales et les conseils scientifiques... En tout cas la phase de réflexion des doctorants est en train d'aboutir, grâce à une consultation de l'ensemble des doctorants montpelliérains, et ce graphe orienté aura contribué à faciliter le débat et sa synthèse.

24 février 2010

Miss Google 2010

Avez-vous déjà invité une brésilienne à votre soirée d'anniversaire ? Paola me raconte que ça suffit à obséder certains jeunes hommes que j'imagine charmés par les sonorités de l'accent brésilien ou de la langue portugaise. A moins que la brésilienne ait un statut particulier dans l'imaginaire collectif français...

C'est l'hypothèse que j'ai testée en allant récupérer le nombre de réponses Google de "belle brésilienne", "jolie brésilienne", et en faisant de même pour un total de 152 nationalités. Je suis fan de ce genre de tests, tout comme xkcd. Et mon petit FuryPopularity fonctionne toujours aussi bien pour effectuer des requêtes Google en masse (contrairement aux requêtes Yahoo, qui a encore changé d'apparence récemment)... en imposant un délai d'une vingtaine de secondes entre deux requêtes, pour éviter d'être détecté comme robot (il y a quelques mois 8 secondes suffisaient, argh).

Les résultats sont dans ce document tableur partagé.

Top 10 des belles : françaises, japonaises, marocaines, brésiliennes, chinoises, roumaines, mexicaines, allemandes, italiennes, américaines.
Top 10 des jolies : françaises, thaïlandaises, russes, indiennes, anglaises, italiennes, américaines, brésiliennes, espagnoles, allemandes.

Première remarque en se penchant un peu plus sur les résultats chiffrés : en les passant au logarithme on obtient une droite, excepté une irrégularité pour les nombres de résultats compris entre 10 et 40. Je ne serais pas étonné que ce soit le palier au delà duquel Google ne fournit pas les nombres exacts de résultats, mais seulement des approximations. En revanche je suis un peu étonné de ne pas tomber sur une loi de puissance comme ça a si souvent été le cas sur ce blog.

Deuxième remarque, il y a une forte corrélation entre les résultats pour "belle" et ceux pour "jolie" (coefficient de corrélation 0.88), qui tendrait à indiquer qu'effectivement ces résultats correspondent à une tendance commune, et qu'on pourrait donc les interpréter comme un inconscient collectif (ou médiatique ?) d'association de la beauté féminine avec certaines nationalités.

Mais j'entends déjà poindre les premières critiques : belles françaises, italiennes, allemandes et américaines... Google Images nous confirme qu'on ne parle pas là que des habitantes de ces pays, mais aussi de leurs voitures. Les allemands ont semble-t-il un peu moins tendance à personnifier leurs voitures (encore que, les motos peut-être un peu), j'ai donc également lancé l'expérience également avec "schöne" et "hübsche", avec les gentilés allemands trouvés ici.

Les résultats sont différents, mais tout de même un peu corrélés aux français (0.72 et 0.75). Voilà le top 10 pour "schön" : sud-africaines, russes, allemandes, italiennes, suédoises, danoises, françaises, indiennes, polonaises, autrichiennes ; et pour "hübsch" : japonaises, brésiliennes, allemandes, polonaises, françaises, chinoises, suédoises, italiennes, américaines, norvégiennes. Avec toujours une bonne corrélation entre les deux listes de résultats (0.86).

Vous remarquez le point à droite, très "schön" mais moyennement "hübsch" ? Il s'agit de l'Afrique du Sud, représentée, pour les allemands, par Charlize Théron qui truste les résultats de la requête. Elle me permet de remarquer une fois de plus combien les nombres de résultats Google sont variables du jour au lendemain, car il y a aujourd'hui beaucoup moins de résultats qu'hier soir quand j'ai récupéré les données.

N'hésitez pas à réutiliser le protocole pour obtenir des résultats plus solides (en réitérant les requêtes sur plusieurs jours pour éviter les résultats fantaisistes parfois fournis par Google), ou bien dans d'autres langues, ou sur les hommes plutôt que les femmes. Et peut-être, en testant assez de langues, pourrez-vous trouver le pays où français et française sont les mieux cotés ! Ou bien tout cela vous donnera envie de voyager un peu dans les pays du milieu et du bas du classement pour constater l'absurdité de ces stéréotypes.

27 octobre 2009

L'informatique de mêche avec les sciences humaines

Mes véronisations donnent généralement un aperçu de l'utilisation possible d'outils informatiques en sciences humaines, et j'ai essayé d'en savoir plus sur les liens réels entre ces deux domaines en participant vendredi dernier à la journée OSIDMESH (Outils Statistiques et Informatiques pour Doctorants Montpelliérains En Sciences Humaines) organisée par le LIRMM et l'Association Contact. Le bilan en est plutôt positif : un intérêt est sensible de la part des doctorants en sciences humaines, même si tous ne le ressentent pas au même niveau (problèmes techniques liés à la rédaction de la thèse, maîtrise d'outils généraux de traitement des données ou bien prise en main de logiciels spécialisés). La rencontre a en tout cas permis de présenter quelques possibilités permises par des logiciels existants ou des projets en cours, et de se mettre en contact pour un travail en commun plus poussé.


De mon côté j'ai fait des présentations sur deux sujets déjà apparus sur ce blog, qui me donnent l'occasion de mentionner quelques nouveautés à leur propos.


Si TreeCloud (cité dans l'article sur Wordle de chercheurs du formidable Visual Communication Lab d'IBM, mazette !) a déjà fait son apparition dans le coin, je n'ai pas encore dédié de billet à la version Python disponible depuis mars. Ce ne sera pas encore le cas, même si cette présentation montre quelques nouvelles fonctionnalités (sur le corpus Pantel), en particulier l'interface graphique (pour les allergiques à la ligne de commande) et la coloration ciblée en fonction de la cooccurrence autour d'un mot (une belle idée que j'ai récupérée dans AstarTex de Jean-Marie Viprey). Attendez encore une petite semaine si vous voulez télécharger une belle version : dans la prochaine, plus besoin de s'embêter avec les espaces dans les noms de fichiers, et quelques autres fonctions supplémentaires (coloration personnalisée, liste de mots du nuage personnalisée). Il sera alors temps de préciser quelques problématiques d'analyse textuelle (voire littéraires !) pour lesquelles la visualisation en nuage arboré montre son intérêt.


Je conclus cette seconde présentation avec l'exemple de la carte interactive de Lisbonne par Pessoa pour illustrer une utilisation possible de l'API Google Maps (attention, pour la France, on pourra lui préférer l'API Geoportail qui a l'air drôlement chouette). C'est l'occasion de citer un autre projet que j'ai dérivé de celui de Lisbonne, le recensement de tous les lieux barcelonais cités dans l'oeuvre d'Eduardo Mendoza (aussi réalisé en préparation d'un charmant voyage). Pas de dialogue direct entre la carte et le texte intégral, cette fois (je laisse le facétieux Eduardo encaisser ses droits d'auteur), mais j'ai pu réutiliser directement mes petits scripts permettant de créer automatiquement une carte imprimable (avec numéros) à partir de données d'une carte personnalisée Google Maps.

Je dois avouer que cette journée m'a permis, à ma grande honte, de découvrir moi aussi des outils informatiques qui me faciliteraient la vie. Zotero (merci Isabelle !) a l'air d'être ce dont j'ai toujours rêvé pour gérer mes favoris web, ma biblio et mes pdf d'articles... Une vidéo pour saliver en page d'accueil de leur site ici.

Et une question pour finir : vous connaissez un outil pour créer, à partir d'une thèse, ou d'un article, un index des auteurs cités avec, pour chacun, des mots-clés qui le caractérisent ? J'ai en tête une petite application du nuage arboré pour faire ça de façon semi-automatisée, mais peut-être qu'une solution (entièrement automatique ?) existe déjà...

17 avril 2009

Cartographie au Figaro

Hier soir, le Figaro a "révélé" le "le palmarès 2008 des violences, sur la base des données officielles de l'Observatoire national de la délinquance (OND)", et choisit de l'illustrer avec la carte des atteintes volontaires à l'intégrité physique en titrant "La nouvelle carte de France de l'insécurité". Buzz assuré, une centaine de commentaires en quelques heures...


Mais que nous apprend la carte ? Comparons-la avec celle des densités par département :

Elles se ressemblent, hein ? On peut le vérifier précisément en faisant un graphique du taux d'atteintes volontaires à l'intégrité physique en fonction du log de la densité :La corrélation est assez claire, on a un coefficient de 0.67 (et 0.81 en omettant la Guyane). Bref, la carte n'est pas très utile, et servirait au mieux à illustrer le principe bien connu par les chimistes que des concentrations élevées favorisent les chocs... L'auteur de l'article aurait pu au moins mentionner cette remarque basique et concentrer son analyse sur les exceptions à cette règle, ou bien choisir une autre carte un peu plus riche en informations, par exemple celle des atteintes aux biens, accessible par un clic sur la carte interactive des atteintes à l'intégrité physique.

Données liées à ce billet : fichier tableur OpenOffice.

Edit de midi : tiens, je lis sur Twitter qu'en plus ils ont confondu Martinique et Guadeloupe sur la carte.

6 août 2008

L'agence de presse des spammeurs

"Google accusé d'espionnage par l'Union Européenne",
"La Wii Fit utilisée pour entraîner les troupes américaines",
"Bush évite un soulèvement albanais en envahissant l'Alabama",
"Al Pacino soupçonné de financer la mafia"...
Vous en avez loupé des choses cet été, vous dites-vous en consultant votre boîte mail au retour des vacances !

En fait, ce que vous avez surtout loupé, c'est un mois de juillet marqué par des spammeurs farceurs et originaux dans leur choix de sujet de mail constitué d'un faux-titre d'article de journal. Dommage, ça n'allait pas plus loin que le titre, et ces courriels contenaient généralement seulement une autre phrase du même tabac suivie d'un lien vers un site douteux. Le phénomène s'est apparemment arrêté depuis quelques jours. Je n'ai pas résisté au plaisir de compiler tout ça, puisque la période du 6 juillet au 3 août a été très productive pour le Monsieur Titres à l'origine de ces trouvailles, qui pourrait sans problème envoyer son CV à France Dimanche ou trouver des titres encore plus racoleurs aux articles du Post.

Quelques détails techniques sur la cueillette de ces titres : récupération manuelle sur quatre adresses mails, puis recherche Google de certains d'entre eux, pour tomber sur un splog qui a doublé ma récolte (titres récupérés par mail, sur le splog, listes concaténées en éliminant les doublons). Le fichier obtenu m'a permis de tester ma dernière version (0.5) de TreeCloud (ça y est, elle est utilisable sans devoir installer SplitsTree, on en reparlera, informations et téléchargement ici). Bref, voici un petit nuage arboré qui permet de voir quelques thèmes forts qui doivent éveiller la curiosité de l'anglophone moyen :

Et comme l'arbre ne semble finalement pas si louche (à part peut-être le sous-arbre des sex-tapes d'Obama et MacCain), un petit best-of - que je n'oserai pas traduire - pour voir à quel point les nouvelles annoncées étaient bidon :
Statue of liberty to return to France
Ex-Google engineers debut 'Cuil' way to search
(décidément, cette non-information est partout !)
Angry man shoots lawnmower
Prada gives fake bags to charity
Release Of The Nancy Pelosi Sex Dvd Causes Mass Mass Erectile Dysfunction In US
Tupac Shakur Speaks Out From Beyond The Grave: "Stop Releasing My Stanky Old Songs"
Bush And Mccain Dance Ballet
Jesus Christ To Star In Next Series Of Batman
Madonnas Former Home Destroyed By Jesus
Jesus Christ To Star In Next Series Of Big Brother
The truth about ghosts revealed
Mermaid discovered off NZ coast
Yahoo search shuts down for good
Swedish princess slaps town florist
Danish princess slaps town grocer
Black Panthers Sue White Guys For Stealing Copyrighted Gesture
Bush 'Troubled' by Gay Marriages. Declares San Francisco Part of 'Axis of Evil'
Beijing Olympics cancelled, moved to Atlanta
Living proof that the earth is flat available
Angelina Jolie gives birth to triplets

Et que s'est-il passé le 3 août ? Ces spams ont été remplacés par un nouveau format : de faux mails d'alerte de CNN. Certes, on a une vingtaine de titres pour le prix d'un, mais ça sent le recyclage : pas mal d'entre eux sont déjà présents dans la liste que j'ai compilée. Et surtout il faut cliquer une première fois pour accéder au corps du message, contrairement au titre dans le champ Sujet du mail qui sautait tout de suite aux yeux. Bah, en attendant qu'ils reviennent à la version précédente, je me contenterai du RSS du Monde.

10 mars 2008

Rétroingéniérie de Google Trends (1)

En janvier, j'avais proposé un utilitaire, le CaptuCourbe, pour extraire les valeurs d'une courbe, avec application possible à Google Trends. Depuis, l'outil s'est enrichi des couleurs par défaut des courbes Google, mais il manque toujours une donnée importante : quelle échelle verticale choisir ? Google prend en effet la précaution de cacher aux utilisateurs l'échelle utilisée. De plus comme les zooms ne sont pas permis, il n'est pas possible d'effectuer directement des comparaisons de courbes à différents ordres de grandeur. La hauteur maximum de courbe est en effet de 113 pixels, donc vous ne pouvez pas distinguer si un terme a été cherché 1000 fois, ou 10 000 fois moins qu'un autre.

Voici donc une hiérarchie de mots anglais, dans un ordre décroissant de recherches Google d'après Google Trends : of, free, sex, car, dog, gun, muscle, knife, torn, filming, separating, fooling.

On peut les utiliser pour créer une échelle pour Google Trends. Attention, elle ne sera pas précise (j'y reviendrai), mais permettra tout de même d'obtenir des valeurs quantitatives. Pour l'établir, j'ai procédé en recherchant conjointement dans Google Trends deux termes successifs dans la liste ci-dessus. Cela me permet d'évaluer le changement d'échelle pour chaque paire de successifs, en comptant la hauteur en pixel du maximum de chaque courbe. Une image est plus parlante que mes explications :

Comme je fais ça pour chaque paire de mots successifs, j'obtiens des valeurs de ce genre :
Comparaison cat ~ dog : 65 px ~ 113 px
Comparaison dog ~ phone : 69 px ~ 113 px
ce qui me permet de déduire en utilisant habilement des règles de trois que :
cat ~ dog ~ phone : 65 ~ 113 ~ 113*113/69=185,06
si l'on se base sur l'échelle de la première ligne ou bien :
cat ~ dog ~ phone : 69*65/113=39,69 ~ 69 ~ 113
si l'on se base sur l'échelle de la seconde.

Bref, j'ai reproduit ce raisonnement sur mes 11 mots pour obtenir les valeurs de maximum suivantes, en fixant la référence à fooling, et en appelant donc cette nouvelle unité le foo :

Attention, ce qui est à retenir, ce n'est pas seulement ces diverses valeurs, mais aussi la position du maximum qui atteint chaque valeur, c'est pourquoi en cliquant sur chaque mot ci-dessus vous accédez à une capture de la courbe vous permettant de localiser le max. En effet si vous voulez déterminer la valeur d'un pic pour un nouveau mot, soit vous avez compris le principe de la règle de 3 et vous amusez à calculer vous-même le max, soit vous indiquez simplement au CaptuCourbe l'échelle verticale en choisissant le max de la courbe de référence juste au-dessus du pic :
Par exemple ici environ 800 foo pour Manaudou en décembre 2007, à comparer avec les 240 foo du pic Bruni, ou les 470 foo atteints par Obama, les 1000 foo de Britney et les 3200 foo du tsunami de 2004 ou les 5700 foo de... Janet Jackson après le Superbowl 2004 !

Après l'annonce un peu commerciale de cette jolie petite échelle, l'honnêteté du scientifique m'oblige à quelques remarques :
- la marge d'erreur lors du calcul par enchaînement de règles de 3 successives : c'est le sujet de mon prochain billet et ce sera un peu technique (yaura même une jolie équation que ni Maple ni Mathematica n'arrivent à simplifier)... retenez que les nombres proposés ici doivent être valides à 10% près. Je me suis retenu de préciser plus de décimales, me souvenant de la sage annotation d'une prof de physique de lycée (au nom écorché par les sauvages utilisateurs de Note2Be) sur une de mes copies : "précision illusoire".
- non content de ne pas fournir l'échelle verticale de ses courbes, Google se permet aussi de les modifier fortement d'un jour à l'autre (c'est peut-être simplement un problème de discrétisation de la courbe réalisée "à la hache" sans se poser de question, mais dans ce cas étrange que les courbes de news en dessous soient identiques), comme le montre ce gif animé (créé avec le simplissime UnFreez) :
Attention donc si vous réutilisez un des mots ci-dessus comme référence, ne vous contentez pas de retenir la valeur du pic, ni même son positionnement, mais vérifiez en tentant de superposer la courbe de référence fournie sur ce billet, que la courbe de référence de l'image que vous voulez utiliser est bien à la même échelle, et tentez de corriger si ce n'est pas le cas.
- l'échelle reste relative, et pour en obtenir une absolue il faudrait savoir à combien de recherches Google exactement correspond 1 foo ? Toute idée de méthodologie pour connaître cette valeur est la bienvenue, pour l'instant la seule solution que j'aurais serait de créer un buzz artificiel de recherches Google, par un programme qui, un certain jour, à une certaine heure, irait rechercher un terme sur Google, et visiter une "page compteur" qui recenserait ainsi le nombre total de recherches Google sur ce terme. Encore faudrait-il avoir assez de volontaires qui accepteraient d'installer le programme, et je ne suis pas Vijay Pande... En attendant je peux remarquer que la courbe pour M6 direct a atteint 0,5 foo en février, alors que mon blog recevait environ 500 visites hebdomadaires pour ces mots-clé (pour lesquels je suis bien positionné). Bref, pour qu'un pic soit mentionné par Google Trends il faudrait cibler sur plus d'un millier de participants...


Ajout du 10/03 : je me rends compte que j'aurais peut-être dû mentionner, à propos de cette unité "foo", que le nombre de recherches auquel elle correspond est variable avec le temps. En effet les courbes Google Trends représentent une proportion des recherches sur certains termes par rapport à toutes les recherches Google. Ceci explique d'ailleurs la valeur impressionnante en foo de "Jackson". Par rapport au nombre total d'utilisateurs de Google en 2004 effectivement le buzz a été énorme, mais difficile de comparer de façon absolue en nombre de recherches 5700 foo de 2004 avec 800 foo de 2008... à moins que là aussi on puisse bricoler quelque chose ? Récupérer l'évolution du nombre de visiteurs ou de recherches Google depuis 2004, utiliser les courbes Alexa... à voir.


This post is translated to English: Reverse engineering Google Trends (1).

Fichiers source : les courbes Google Trends de chaque mot sont liées ci-dessus, voilà le fichier tableur qui a servi au calcul des valeurs en foo (attention c'est un fouillis monstre, plus de détails dans le prochain billet).

23 octobre 2007

Dissection d'une pétition (3) : robustesse des résultats

Je reviens sur les résultats de mon dernier billet concernant les tendances horaires d'utilisation d'internet selon la catégorie professionnelle. Quelques éléments de tendance avaient été identifiés, et j'avais avancé dans chaque cas une cause pouvant les expliquer. A quel point ces tendances sont-elles réelles, pourraient-elles être dues à la procédure utilisée pour obtenir les graphiques ?

En général pour vérifier que des résultats trouvés à partir d'analyses statistiques sont corrects, on réeffectue tous les calculs en modifiant légèrement les données. C'est la technique de "rééchantillonnage" ou "bootstrap", particulièrement utilisée en phylogénie (c'est d'ailleurs cette étape de vérification qui traîne et m'empêche de terminer mon billet sur une proposition de "distance Eurovision").

Dans le cas de la pétition TouchePasAMonAdn je ne vais pas modifier les données de départ concernant les signataires, mais plutôt utiliser d'autres règles de regroupement de professions qui donneront donc lieu à un nouveau lot de données. J'avais précisé que les règles que j'avais utilisées pour interpréter les noms de professions entrées par les signataires étaient un peu arbitraires, j'obtenais finalement trois gros groupes (retraités, étudiants, enseignants), et un ensemble de groupes beaucoup plus petits. C'est en tombant sur l'analyse des statistiques sur la pétition EUCD.info que j'ai découvert d'autres règles de groupement de professions qui m'ont semblé meilleures (page 2). Sont-elles effectivement meilleures ? Est-ce qu'en les appliquant on obtient des courbes de tendances similaires ?

Première réponse : oui, les règles d'Eucd sont meilleures, puisqu'elles permettent d'identifier plus de professions. Mes règles personnelles appliquées sur les signataires du 4 octobre permettait de récupérer la profession de 50,5% d'entre eux. Avec les règles d'Eucd.info, j'arrive à 64,3% d'identification de la profession (les signataires de TouchePasAMonAdn ont "mieux" indiqué leur profession que ceux d'Eucd où ils atteignaient seulement 36,6% d'identification). Et en plus de la quantité, la qualité est au rendez-vous : les courbes sont beaucoup plus équilibrées, avec le groupe des "employés" qui passe en première position dans l'ensemble des signataires.

Seconde réponse : oui, les tendances identifiées sont toujours visibles, excepté peut-être le "repas de 13h" des journalistes un peu noyés dans la masse. La disjonction du groupe d'étudiants en post-bac et lycéens/collégiens permet aussi d'identifier une nouvelle tendance sur ces derniers (utilisation d'internet plutôt le soir).

On remarque aussi certaines courbes presque constantes, celles des cadres, des professions libérales, des fonctionnaires, groupes au sein desquels on ne peut donc pas identifier de comportement commun vis à vis de l'utilisation d'internet.

Enfin je m'étais bien gardé de comparer entre différentes professions les pourcentages de signataires trouvés (pour éviter de fausses impressions du genre "ceux qui ont le plus signé la pétition sont les employés", attention j'ai 30% de professions que je n'ai pas identifiées !), mais après cet avertissement je peux me permettre de comparer les pourcentages de signataires par profession avec ceux de la pétition EUCD.info :
Et là les pourcentages de signataires de la pétition TouchePasAMonAdn sont clairement plus représentatifs de la société française que ceux de Eucd.info. Je suis particulièrement étonné par la proportion de retraités : traduit-elle un plus grand intérêt pour cette pétition comme pour les enseignants ou les professions libérales, ou est-ce simplement un reflet de la forte augmentation du "taux de connexion" des retraités depuis 2 ans (la pétition EUCD a commencé fin 2005) ?

21 octobre 2007

Dissection d'une pétition (2) : à quelle heure surfent les retraités, enseignants, étudiants, ingénieurs...

J'expliquais dans mon dernier billet comment récupérer l'heure et la profession de chaque signature de la pétition Touche pas à mon ADN. On va voir maintenant que les résultats obtenus illustrent les habitudes de surf sur internet de chaque profession.

Tout d'abord voyons comment j'ai uniformisé les noms de professions (vous pouvez passer directement au graphique en bas si vous voulez éviter ces détails techniques...). Effectivement, dans la base de données brutes, on trouve "étudiant" aussi bien qu'"étudiantes", les professeurs détaillent parfois quelle matière ils enseignent, etc. Bref il faut regrouper certaines professions. Voici les règles utilisées (sur des chaînes de caractères que j'ai "désaccentuées"), dans cet ordre, tout à fait subjectives et critiquables (les commentaires sont faits pour ça [modification du 21/11/2013 : si je devais refaire le travail ci-dessous aujourd'hui, je ne mettrais évidemment pas "doctorant" et "thesard" dans la catégorie "étudiant", mais bien dans la catégorie "chercheurs", je n'étais alors qu'au début de mon doctorat et pas très sensibilisé à ces questions...]) :
profession contient "retraite" > retraité
profession contient "etudiant" ou "lyceen" ou "collegien" ou "doctorant" ou "thesard" > étudiant
profession = "prof" ou contient "enseignant" ou "professeur" > enseignant
profession contient "medecin" > médecin
profession contient "sans emploi" ou "sans profession" ou "chomeur" > chomeur
profession contient "architecte" > architecte
profession contient "assistant" et "social" > assistante sociale
profession contient "chercheu" > chercheur
profession contient "fonctionnaire" > fonctionnaire
profession contient "infirmier" > infirmier
profession contient "graphiste" > graphiste
profession contient "informaticien" ou "webmaster" > informaticien
profession contient "ingenieur" > ingénieur
profession contient "journaliste" > journaliste
profession contient "musicien" ou "chanteu" > musicien
profession contient "psychologue" > psychologue
profession contient "secretaire" > secrétaire
profession contient "technicien" > technicien
profession contient "commer" ou "vendeu" > commercial
profession contient "au foyer" > mère au foyer
profession contient "ouvrier" > ouvrier
profession contient "plombier" ou "artisan" ou "electricien" > artisan

Pourquoi me limiter à ceux-là ? La méthodologie pour déterminer les noms de métiers "significatifs" a été la suivante : afficher dans un tableur le tableau des professions récupérées pour les deux premiers jours de la pétition (eh oui, les tableurs ont un nombre de ligne limité, je ne pouvais pas insérer toute ma base), trier par nom de métier croissant, puis filtrer (c'est formidable, cette fonction des tableurs découverte à l'occasion de mon enseignement de C2I...) tous les métiers qui apparaissent plus de 50 fois.

Résultat : pour le 4 octobre par exemple, sur 32845 signataires, 30222 ont indiqué leur profession, mes règles basiques me permettent d'en récupérer 16605. Au total je récupère 79104 indications de professions. Assez pour que la loi des grands nombres s'applique et que je puisse espérer obtenir des résultats représentatifs. Voici le graphique des données récupérées pour les signatures du 2 au 10 octobre (j'avais mentionné dans mon post précédent que les données des jours suivants contiennent des doublons qui peuvent être gênants pour ces stats) :
En sélectionnant les courbes des trois groupes les plus représentés : enseignants, étudiants, retraités, on remarque que leur allure est similaire les jours de semaine, et un peu différente le weekend. Ce sont ces régularités qui justifient qu'effectivement certains motifs particuliers apparaissent pour chaque profession, que l'on va pouvoir tenter d'expliquer : un creux dans une des courbes indique que moins de personnes signent la pétition, elles doivent donc faire autre chose que surfer sur internet. Par exemple, remarquons le creux de 16h le dimanche. Il doit y avoir une explication : la promenade dominicale peut-être ? (Re)précisons que le creux du samedi a une cause technique : une défaillance du site web de la pétition certainement.

Certaines régularités étant observables pour les jours du lundi au vendredi, on va donc regrouper les données de ces jours pour obtenir des statistiques horaires par profession et visualiser certaines de leurs habitudes de vie. Comme on s'intéresse aux spécificités de chaque profession, c'est moins le nombre de signataires horaires que le pourcentage horaire de signataires de chaque profession qui nous intéresse, le voici donc représenté :
Regardons les trois groupes les plus représentés : entre minuit et 3h, belle prépondérance de la courbe des étudiants, visiblement plus couche-tard. Attention toutefois, entre 1h et 6h, les données ne sont pas extrêmement significatives... Si les retraités semblent avoir une représentation constante depuis 4 heures du matin, il semble que beaucoup d'enseignants vont surfer au réveil, entre 6h et 8h. Pour les étudiants, le réveil a visiblement lieu plus tard, ce qui apparaissait déjà bien sur la courbe s'étendant sur toute la semaine. Nouveau pic enseignant à 18h, petit surf de retour du boulot certainement ? Pour les retraités, les creux se placent à 13h et entre 19h et 22h : repas de midi, et soirée devant la télé ?

Maintenant regardons plus précisément les groupes moins représentés :
La pause repas d'une heure le midi semble particulièrement suivie par les ingénieurs qui semblent utiliser internet dès leur arrivée au travail le matin, et éventuellement en rentrant chez eux le soir après 19h. On a un beau pic de psychologues insomniaques à 4h du matin qui concerne en fait 8 individus, et de chercheurs à 5h, qui en concerne 9... on atteint ici les limites de significativité. Pour les informaticiens, se dégage bien un plateau entre 8h et 16h, intervalle qui doit correspondre à leurs heures de travail et donc de présence sur internet. Pour les journalistes enfin, remarquons comme pour les ingénieurs le creux vraisemblablement expliqué par la pause repas, qui semble là être décalée à 13h.

La compilation de ces courbes fait donc bien apparaître quelques variations significatives (le prochain billet s'intéressera justement à cette significativité, et à la robustesse des résultats présentés ici), qu'on peut tenter d'expliquer par des comportements globaux inhérents à la profession. N'hésitez pas à en mentionner d'autres en commentaires, pour visualiser mieux une courbe en la mettant en gras, vous pouvez modifier le document source, un fichier au format Excel.

19 octobre 2007

Dissection d'une pétition (1)

De retour après avoir passé du temps à l'Inathèque, déménagé, commencé ma thèse, et préparé mes premiers enseignements, me voilà prêt à décortiquer un nouveau phénomène viral, après la F-list, la pétition "Touche pas à mon ADN".

Là malheureusement, on n'a pas autant d'informations sur la transmission du phénomène que pour les F-lists, mais on va essayer de tirer quelques conclusions à partir de la jolie base de plus de 200 000 signataires disponibles sur le site TouchePasAMonAdn.com. Première difficulté, récupérer la base de données, qui est répartie en plusieurs feuilles de 400 noms. Pour ça j'ai mon "aspirateur" personnel, qui visite les pages voulues en extrayant les informations utiles du code HTML des pages. Une petite difficulté supplémentaire : la liste se met à jour pendant l'aspiration, il a donc fallu mettre en place a posteriori une détection automatique des signataires qui avaient été enregistrés deux fois : en fin de page et en début de page suivante. Ca paraît relativement simple, hein ? Sauf que la tâche se complique quand les organisateurs décident de nettoyer leur base de signataires d'avant le 11 octobre, en réorganisant au passage de façon apparemment aléatoire (rangée ni dans l'ordre alphabétique, ni chronologique) la liste des signatures avant cette date.

Alors pourquoi une telle réorganisation ? Tout d'abord, à cause des signataires qui cliquent mal : beaucoup de doublons apparaissent dans la liste brute. Ensuite, à cause des petits rigolos qui font des blagues. En voilà un petit florilège (vous vous rappelez des Zidane et Chirac d'Unitaid ?), attention la finesse n'est pas toujours au rendez-vous...

04 octobre 2007, 02:15;nicolas sarkozy;nabot présidentiel (république bananière);
04 octobre 2007, 12:29;Nicolas Sarkozy;;
04 octobre 2007, 13:01;Nicolas Sarkozy;Président de rien du tout;
04 octobre 2007, 14:54;NICOLAS SARKOZY;président (france);
04 octobre 2007, 17:43;Nicolas Sarkozy;Président (aucune);
04 octobre 2007, 18:38;nicolas sarkozy;président;
04 octobre 2007, 20:52;Nicolas Sarkozy de Nagy Bocsa;Président, enfin... je crois;
16 octobre 2007, 08:36;nicolas sarkozy;président des francais;
03 octobre 2007, 11:00;brice hortefeux;schizophrène (Dictature Sarkozyenne);
03 octobre 2007, 11:52;BRICE Hortefeux;Fuhrer (République Francaise);
03 octobre 2007, 13:41;hortefeux brice;raciste 2nd;
03 octobre 2007, 17:12;Brice HORTEFEUX;;
03 octobre 2007, 17:28;Brice Hortefeux;Face de pet;
03 octobre 2007, 21:47;BRICE HORTEFEUX;ministre de la betise;
03 octobre 2007, 22:50;Brice Hortefeux;futur ex-Ministre;
03 octobre 2007, 23:13;Brice Hortefeux;;
04 octobre 2007, 16:12;brice hortefeux;;
04 octobre 2007, 16:13;Brice HORTEFEUX;Ministre (SARKOLAND);
16 octobre 2007, 12:16;brice hortefeux;;
03 octobre 2007, 21:59;Thierry Mariani;Député cocu;
03 octobre 2007, 18:48;thierry mariani;député (bientôt chômeur);
12 octobre 2007, 15:04;Thierry Mariani;député;
13 octobre 2007, 21:04;THIERRY MARIANI;MINISTRE : vous êtes tous des rigolos !;
03 octobre 2007, 10:53;GEORGES BUSH;u want2fukme;
03 octobre 2007, 22:22;jorge bush;rongeur (otan);
04 octobre 2007, 15:37;georges bush;;
04 octobre 2007, 23:30;GEORGES BUSH;USA;
13 octobre 2007, 22:54;Debeuliou Bush;President of the United-States of America;
16 octobre 2007, 06:33;georges bush;;
12 octobre 2007, 18:49;François Mitterrand;Illusionniste;
13 octobre 2007, 17:41;Chirac Bernadette;Pute des routes;
16 octobre 2007, 10:57;Jacques Chirac;ancien Président de la République;
03 octobre 2007, 11:35;zidane zinedine;retraité;
03 octobre 2007, 18:05;Zinedine Zidane;ancien footballeur;
03 octobre 2007, 22:50;zidane zinedine;footballeur;
03 octobre 2007, 23:23;zinedine zidane;footballer (OM);
04 octobre 2007, 23:27;Zinédine Zidane;Footballeur retraité;
15 octobre 2007, 18:38;Zinedine Zidane;retraitée du sport (les pervers);
15 octobre 2007, 19:06;Bernard Kouchner;National Socio-traitre (Nazie) (Heil Hitler !);
04 octobre 2007, 23:32;KOUCHNER Bernard;Extérieur du Ministère;
16 octobre 2007, 09:26;Francois Bayrou;Clown;
04 octobre 2007, 10:35;fadela amara;traitre (ump);
17 octobre 2007, 07:20;test test;test (test);
17 octobre 2007, 07:17;Kipeutebattre croustibat;poisson pané (findus);
16 octobre 2007, 02:02;Kylie Minogue;Chanteuse;


Depuis, certains de ces noms ont disparu : les Sarkozy et Hortefeux d'avant le 11 octobre. Il reste les Zidane. J'imagine donc qu'une certaine partie du tri a été faite manuellement (pour automatiser un peu tout ça je suggérerais de classer les signataires par ordre alphabétique et vérifier les groupes de personnes qui ont le même nom et prénom, ou encore d'utiliser FuryPopularity sur les noms de tous les signataires pour identifier les noms connus... et donc suspects). La partie automatique de suppression des répétitions a visiblement été efficace, puisqu'elle a fait passer le nombre de signataires du 4 octobre de 41000 à 33000 environ, pour le 3 octobre de 30000 à 28000. L'ordre de grandeur est toutefois respecté, ce qui peut rassurer les quelques visiteurs étonnés par ces doublons.

Bref, même si la récupération de la base n'est pas immédiate, elle est possible, et je l'ai bien vite enregistrée en supprimant les données nominatives, gardant seulement l'heure et la profession pour chaque signataire. La profession, je la garde en réserve pour la deuxième et la troisième partie de ce billet, regardons seulement l'évolution des signatures pendant la première quinzaine de la pétition :
Remarquons d'abord le joli démarrage, qui doit laisser rêveur tout adepte de marketing sur internet... Est-ce que la "qualité du produit" a suffi à attirer une telle foule ? Quels ont été les relais publicitaires pour faire connaître le site aussi vite ? Médias traditionnels, bouche à oreille, blogs, mails ? S'il n'est pas évident de le déterminer (le décollage commence à 8h du matin !), on peut en revanche remarquer une forte corrélation entre le nombre de billets de blogs citant la pétition, ou son adresse, et le nombre de signataires :
Notre tableur préféré nous donne un coefficient de corrélation de 0.80 entre le nombre de signataires et le nombre de billets quotidiens contenant "Touche pas à mon ADN" d'après Blogsearch, 0.76 avec le nombre de ceux qui contiennent le lien vers touchepasamonadn.com. Remarquons aussi que les deux courbes Blogsearch très proches avant le 13 octobre divergent ensuite. Pourquoi ?

La clé de l'énigme, c'est le meeting concert Touche pas à mon ADN, dont les gens ont visiblement parlé sur leur blog sans donner l'adresse de la pétition. Toutefois l'événement a eu un retentissement médiatique qui se visualise très bien le 14 octobre au soir avec deux pics de signatures vers 19h50 et 20h20, et qui redonne de l'énergie au nombre de signatures par heure.

Enfin vous aurez noté sur le graphique de l'évolution des signatures deux interruptions du site, le 11 octobre au soir, et le 6 octobre avant 17h. Il semble tout de même avoir tenu le coup aux moments les plus critiques.

Pas encore efficace, cette pétition montre toutefois quelques conditions nécessaires pour un succès. Un relai médiatique, une solide structure technique pour accueillir les signatures voire vérifier leur authenticité. Où s'arrête l'initiative populaire et où commence le lobbying super organisé et forcément bien financé ? En attendant de telles initiatives permettent au moins de maintenir une certaine vigilance... et nous donner des indications sur les horaires de surf des étudiants, des enseignants, des retraités, des chercheurs, des ingénieurs. A suivre très bientôt, dans le prochain billet !