13 juillet 2008

Les présidentiables en 2012 selon Google

Le côté "femme politique" d'Íngrid Bétancourt a été un peu passé sous silence par la presse après sa libération, traitée plutôt sous l'angle de l'émotion, ou de la récupération politique extérieure. Seuls quelques rares articles (ici, ou ) évoquent les projets d'Íngrid qui depuis 1990 suivait une carrière politique en Colombie. Et en France ? Cette idée a déjà fait surface sur la toile en divers endroits (rien vu sur la blogosphère en tout cas).
A quel point ces rumeurs sont-elles significatives ? Regardons ce que donnent les requêtes "X candidat(e) en 2012" et "X en 2012" sur Google :

Possibles candidats aux présidentielles de 2012 selon GoogleAttention, comme toujours avec les "Google numbers", les résultats sont à prendre avec des pincettes. Toutefois, le premier souci qui est celui de la polysémie des expressions recherchées est plutôt bien réglé par le "en 2012". Il précise le contexte des élections présidentielles est correct, et permet par exemple d'assurer que "Royal" signifie bien "Ségolène Royal" (ce qui est rarement garanti dans les recherches Google de ce genre). Je ne vous assure pas de la pertinence de rechercher cette expression en décembre 2011, mais pour l'instant, les résultats trouvés concernent presque tous le sujet. Petit problème aussi, différencier père et fille chez les Le Pen : la variation entre "candidate" et "candidat" permet de donner des indications sur les scores des deux.

Comme souvent je vous laisse analyser le graphique et sa pertinence. A propos de l'échelle verticale, il était impossible pour des questions de lisibilité de garder les chiffres bruts (sinon ça aurait été Nicolas Sarkozy contre le reste du monde), j'ai donc "passé les chiffres au log". Pour n1 réponses à "X candidat en 2012" et n2 réponses à "X en 2012", X obtient donc un score de log(n1+n2+1), le "+1" étant destiné à ce Marie-George Buffet présente dans cette liste pour sa candidature aux précédentes présidentielles n'ait pas un score infiniment négatif.

N'hésitez pas à me suggérer d'autres noms de possibles candidats aux présidentielles 2012, voire d'autres expressions à rechercher pour tous. Pour lancer l'ensemble des recherches sur Google automatiquement, vous pouvez bien sûr utiliser FuryPopularity avec ce fichier d'expressions. Le fichier tableur qui en résulte et le graphique ci-dessus seront probablement mis à jour au cours des prochains mois (tant que les deux expressions sembleront pertinentes) pour constituer un baromètre des présidentiables.

11 juillet 2008

Livre interactif : Lisbonne, par Fernando Pessoa


Le lien traîne depuis quelque temps dans la liste à gauche, le projet a enfin atteint un degré d'avancement justifiant que j'en parle. Le poète portugais Fernando Pessoa a écrit en 1925 un guide touristique sur la ville qu'il n'a presque jamais quittée : Lisbonne. Un texte sans aspiration poétique, rédigé directement en anglais (d'où le titre Lisbon, what the tourist should see), et destiné à faire connaître à l'étranger les merveilles de sa ville chérie. Celles-ci ont été bien préservées au XXe siècle, et modulo quelques renommages, la plupart des monuments cités et leur description sont inchangés aujourd'hui. Le guide a donc été traduit dans plusieurs langues après sa découverte à la fin des années 90, dans la malle de manuscrits de l'auteur.

En France il a été publié par les éditions 10/18. Malheureusement le texte fourni dans l'édition est une traduction brute de celui de Pessoa, sans notes, avec une carte de la ville datant de 1929 plutôt illisible, sans index. Il ne peut donc pas vraiment être utilisé tel quel pour rechercher des informations pendant la visite. Pareil pour la première édition, chez Livros Horizonte, en bilingue anglais/portugais. L'ouvrage vient toutefois d'être republié en anglais par un éditeur britannique, Shearsman, qui a mis à jour les noms de lieux cités, et ajouté quelques photos tirées de cartes postales des années 20.

Bref, pour rendre ce guide utilisable directement sur place, j'ai concocté une version interactive de Lisbonne par Pessoa, avec carte Google associée, et quelques photos qui proviennent d'une semaine délicieuse passée sur place, complétées par quelques unes trouvées sur la Wikipedia ou Flickr - qui ont le bon goût d'inciter leurs utilisateurs à préciser les conditions de réutilisation des images.

J'ai donc numérisé la partie anglaise du livre des éditions Livros Horizonte fraîchement acquis à Lisbonne, qui est maintenant disponible librement (Pessoa est décédé depuis plus de 70 ans) sur le site :

L'étape de reconnaissance de caractères a été réalisée avec le logiciel gratuit (pour la reconnaissance de caractères dactylographiés) SimpleOcr, qui n'est pas extrêmement fiable (et qui, surtout, n'apprend rien de ses erreurs...) mais plutôt ergonomique pour effectuer les corrections. Bref, il est possible qu'il reste des coquilles, n'hésitez pas à me les signaler. Je dois tout de même mentionner que certaines erreurs sont présentes dans le texte original. Peut-être laissées par l'éditeur par souci d'authenticité...

Les lieux et rues cités ont alors été localisés sur une carte de Lisbonne, ce qui permet d'obtenir une visualisation géographique du livre, où Pessoa propose en fait trois balades - la première assez longue, en bleu, les deux autres vertes et rouges destinées au touriste qui "pourrait rester un jour de plus". Il termine par une description des journaux portugais de l'époque, puis des détails sur quelques villages des environs. L'itinéraire principal, qui débute par une arrivée par la mer, en bleu sur la carte, nécessite d'avoir une voiture. En réalité, comme il est impossible de faire en une seule journée toutes les visites indiquées, il pourra être morcelé par quartier pour se contenter de transports pédestres ou en commun. Attention dans ce cas, l'optimisation se fait en suivant la carte plutôt que l'ordre linéaire des visites du bouquin, puisque le cheminement de la visite est loin d'être hamiltonien ! Le choix de l'ordre par le poète n'est en tout cas pas tout à fait innocent, puisqu'il répartit assez bien les visites indispensables (le quartier Baixa, l'Alfama, le château Saint -George, le monastère des Jeronimos, la tour de Belém, etc) au milieu d'autres plus anecdotiques.

Alors une carte Google, c'est bien joli, mais pas super utile quand on voyage déconnecté d'internet (à propos, si vous cherchez un webcafé, tentez la Rua da Madalena) ! La carte est donc disponible aussi dans une version facilitant l'impression, avec de petits numéros pour chaque lieu (en moyenne chez moi le chargement de la page met plus de 10 secondes, c'est normal ;)). Et pour avoir la légende de tous ces numéros, classés selon l'ordre d'apparition dans le livre, c'est en bas de cette version imprimable du texte.

Si vous avez la version interactive toutefois, vous aurez accès à bien plus d'informations sur le lieu. Pour de nombreux lieux mentionnés vous avez un lien vers la page Wikipédia, voire son site officiel (avec horaires d'ouverture par exemple pour les musées).

Ces informations supplémentaires qui transforment l'ouvrage en vrai livre interactif n'ont pas été insérées directement dans le texte original. En fait j'ai mis en place un système pour ajouter automatiquement au texte ces informations stockées à un autre endroit, dans des sortes de tableaux, des bases de données. Voilà enfin le passage technique qui sera sauté allègrement par la plupart des lecteurs, malgré une image alléchante, ci-dessous, qui essaie d'expliquer le principe. En plus du texte, il y a donc trois bases de données : la bleue, celle des occurences des lieux dans le texte, l'orange, celle des lieux, et la violette, celle des coordonnées. Expliquons alors les flèches dans l'exemple ci-dessous. Pour un endroit donné de la carte, stocké dans la base violette, il peut se trouver un ou plusieurs objets d'intérêt (par exemple sur la Place du Commerce se trouve une statue équestre du roi José I). Chaque objet d'intérêt a alors un emplacement dans la base orange, qui détaille son nom et le décrit (en anglais), en ajoutant éventuellement une photo. Notez que si vous voulez adapter le système pour fournir des informations en français sur les lieux, c'est juste cette base de données orange qu'il faudra traduire (et pas tout le site). Enfin, pour savoir où se trouvent tous ces points d'intérêt dans le texte de Pessoa, on stocke la position des caractères où ils apparaissent, dans la base bleue. Il est possible que l'un d'eux apparaisse plusieurs fois dans le texte, comme la Place du Commerce ci-dessous. Si vous modifiez le texte original (par exemple pour le traduire dans une autre langue), c'est donc cette base bleue qu'il faudra modifier.


Pour terminer le projet, c'est la base orange que je dois finir de compléter (actuellement j'en suis à un peu plus du tiers). Toutefois, vous avez déjà accès à toutes les informations déjà entrées, en particulier, tout le texte illustré avec photos ici. Et bien sûr la carte Google Maps qui est l'élément fondamental de ce mashup (MySQL, PHP, Javascript, contactez-moi pour récupérer les sources si vous avez un projet similaire de livre interactif) sur un thème de Pessoa.

Vous pouvez donc partir tranquille pour une semaine, ou plus, de découvertes à Lisbonne en charmante compagnie : celle - au moins - de quelques éléments, imprimés ou enregistrés, extraits du site...

30 juin 2008

Quand Google joue les Ravaillac

H4 sur Google MapsVous avez déjà essayé d'aller au fameux lycée Henri IV en utilisant Google Maps ? Eh bien ne vous fiez surtout pas à la carte fournie, l'adresse est fausse ! Eh oui, une nouvelle erreur des algos d'extraction d'informations de Google, qui en plus nous donne un petit aperçu de leur processus de localisation...

Pour cela, essayons de retracer la provenance de l'erreur. La carte indique que le lycée se trouve rue Hugues Clovis. Tiens tiens, je ne savais pas que Clovis avait un prénom ! En effet, il s'agit en fait de Clovis Hugues (vous ne connaissez pas ? l'article Wikipedia est passionnant), voilà déjà une erreur dans la base de données des noms de rues de Google, où le prénom précède habituellement le nom. Le lycée se trouve bien sûr dans la rue Clovis (que vous pouvez voir, ainsi que les alentours du Panthéon, entièrement vidés de passants dans un plan de Seuls Two). Et voilà la seconde erreur de Google : l'algorithme semble avoir procédé en deux temps, une première étape pour récupérer l'adresse de l'établissement, bien réalisée ; une autre pour faire correspondre cette adresse avec celle de la base, et c'est celle-là qui a échoué. D'ailleurs ce serait intéressant de savoir si des villes contiennent deux rues ayant le même nom (mais éventuellement pas le même prénom), histoire de créer un vrai casse-tête pour Google... et les pauvres postiers de la ville ! Je cherche depuis des mois une base de données des noms de rues en France...

Autre possibilité, il s'agit juste d'un complot des magnoludoviciens employés chez Google. Malheureusement, LinkedIn (inscription nécessaire), qui nous informe de leur connaissance des employeurs antérieurs des salariés de Google ne fournit pas de statistiques sur les lycées et classes prépa d'origine pour accréditer cette thèse...

A très bientôt pour un nouveau billet sur Google Maps, ou plutôt une utilisation dans un mashup que les petits curieux auront déjà trouvé parmi les liens disposés à gauche...

28 mars 2008

Cuisine : polyèdre des ingrédients et enveloppe convexe

Ma cuisine a récemment rejoint ma liste de lieux de découverte et d'émerveillement montpelliérains (après mon labo, ma médiathèque, mon ordinateur, ma salle de concerts et mes cinémas). Pas besoin de tenter d'audacieuses expériences de gastronomie moléculaire pour être fasciné par de simples changements de forme, de couleur et de texture. Que d'émotions à expérimenter la cuisson mutationnelle des choux au Comté, le durcissement de mes fameuses meringues-radiateur, ou une simple montée de blancs en neige au fouet ! Alors rassurez-vous, ce blog ne va pas s'aventurer sur la paillasse d'un chimiste, je ne parlerai ni du pourquoi ni comment ça marche, mais seulement du jusqu'à quel point ça marche ?Rien de plus affirmatif qu'une recette de cuisine : on vous fournit une liste d'ingrédients avec des quantités bien précises, et leur mode d'emploi. Si vous déviez à peine des instructions, aucune garantie, et avec une précision des ingrédients au centigramme, prenez garde que moelleux fondant "merde-j'ai-pu-qu'-deux-oeufs" Marmiton au chocolat ne se transforme en galette compacte.
Heureusement, ce blog va apporter une contribution révolutionnaire pour tous les auteurs de recettes de cuisine : le polyèdre des ingrédients ! Et en bonus une méthode pour le calculer artisanalement à partir d'un corpus de plusieurs recettes du plat que vous voulez, trouvées sur le net par exemple. Illustration du jour : les crêpes ! (oui, je sais, j'aurais dû écrire ce billet il y a 54 jours mais j'ai totalement renoncé à publier à temps mes billets d'actualité...)

Ce qu'il y a de bien dans les crêpes, c'est que ça se fait avec en gros trois ingrédients (plus un pour la poële, qui ne compte pas), ça va donc nous permettre d'obtenir une jolie image en 3D. Des oeufs, de la farine, et du lait, voilà le dénominateur commun aux 19 recettes que j'ai réunies (dans ce fichier tableur) grâce aux sites lejus.com, 1001delices.net, recette-crepe.net, goosto.fr, supertoinette.com, recettes.qc.ca et Marmiton (désolé pour mes amis végétaliens). Mais peut-être va-t-on commencer avec seulement deux ingrédients pour bien comprendre. Disons que l'on a déjà décidé du nombre d'oeufs à utiliser, un seul par exemple. On calcule alors selon toutes les recettes, par une règle de trois, la quantité x de lait et y de farine qu'on doit ajouter (j'ai tout codé en grammes pour simplifier). On peut alors placer sur un graphique cette vingtaine de points de coordonnées (x,y) obtenus :

En bas à gauche se trouvent les recettes avec beaucoup d'oeufs (puisqu'il y a peu de farine et de lait), en haut à droite avec peu d'oeufs. En haut à gauche, plus de farine, en bas à droite, plus de lait. Qu'est-ce donc que cette sorte d'élastique orange qui se resserre autour des points ainsi dessinés ? C'est une sorte de zone de sécurité : tout point de cette zone correspond à un choix d'ingrédients qui devraient fonctionner, puisqu'il se situe "entre" des choix de quantités d'ingrédients qui fonctionnent. En mathématiques, on appelle ça l'enveloppe convexe de l'ensemble de ces points, et il existe des algorithmes variés pour la calculer automatiquement. Alors évidemment, pour ne prendre aucun risque il vaudra mieux cibler bien au milieu de cette enveloppe, vous pouvez d'ailleurs remarquer que 3 recettes présentent les mêmes quantités des trois ingrédients principaux, cela correspond à un point assez central (1/2 litre de lait et 250 grammes de farine pour 3 oeufs).

Autre enseignement de cette enveloppe convexe, on peut en déduire des informations sur la précaution à mesurer chaque ingrédient (la robustesse de la recette en fonction de chaque paramètre en gros). Remarquez combien l'enveloppe convexe est allongée et étroite (elle le serait encore plus si j'avais choisi une échelle verticale et horizontale identiques). Cela signifie que selon les recettes la quantité d'oeufs varie pas mal, mais la proportion lait/farine beaucoup moins. On peut d'ailleurs comparer pour chaque recette ses proportions par rapport aux proportions moyennes :

Et si l'on fait la moyenne de ces pourcentages de variation en valeur absolue, on obtient : 16% pour le rapport lait/farine, 28% pour le rapport farine/oeufs, 31% pour le rapport lait/oeufs. Ainsi le rapport lait/farine varie beaucoup moins que les autres parmi les recettes, il faudra donc être plus méticuleux dans ces proportions que pour le nombre d'oeufs, par rapport à la variation duquel la recette des crêpes est donc plutôt robuste (désolé pour cette structure de phrase alambiquée, mais ça me donne l'occasion de faire un joli accord de pronom relatif).

Vous pouvez aussi vous amuser à représenter sur un même graphique plusieurs desserts ayant les mêmes ingrédients principaux, ici les crêpes, les gaufres et le flan :
Attention tout de même avant de verser votre pâte à crêpes dans le gaufrier ou les ramequins au four, il y a aussi un peu d'huile et de levure dans la préparation à gaufres, et de sucre dans celle du flan.

Pour finir, passons au polyèdre 3D des ingrédients grâce à la très jolie applet Java de Tim Lambert (dont il distribue en plus de code source que j'ai modifié pour y mettre mes points de crêpes), vous pouvez agir avec la souris pour contrôler le polyèdre et le faire bouger :


Sorry, but you need Java to see the animation.

Là encore c'est une enveloppe convexe qui est calculée, en 3 dimensions, sur des points de coordonnées (x,y,z) avec cette fois le nombre d'oeufs en x, la quantité de lait en y, et de farine en z. Je place les points en fixant le nombre d'oeufs à une limite minimum et une limite maximum pour obtenir ce joli tronc de cône, tel que toute coupe perpendiculaire à l'axe x (à nombre d'oeufs constant) me donne bien le polygone d'enveloppe convexe de même forme que ci-dessus. Et pour le rendre vraiment utilisable il faudrait pouvoir laisser entrer à l'utilisateur les valeurs de quantités d'ingrédients qu'il a lui-même utilisées : si le point arrive à l'intérieur du polyèdre, tout va bien, sinon... gare à la recette loupée !

Eh bien il me reste maintenant à attendre le prochain livre de cuisine ou pâtisserie (ou site web) qui accompagnera ses recettes de polygones ou polyèdres d'ingrédients, bizarrement je crois que je devrai faire preuve d'un peu de patience. Encore que... Il y a bien des geeks qui ont programmé un moteur de recherche de recettes de cuisine à partir des ingrédients sur cuistot.org !


Mise à jour en soirée : il me semble naturel que si deux points correspondant à des quantités d'ingrédients fonctionnent pour une recette, alors tout le segment entre ces deux points fait aussi fonctionner la recette, mais certains lecteurs que je ne nommerai pas n'en sont pas convaincus. Tout contrexemple, ou toute théorie alternative quant à la structure, dans l'ensemble à multidimensionnel des ingrédients, des ensembles de points permettant de préparer avec succès un certain plat, sera le bienvenu ! Ce défi du contrexemple est doté d'un prix : une invitation à le déguster (ou bien, si je suis de bonne humeur, à déguster plutôt une des deux extrémités, qui fonctionnent, du segment).

14 mars 2008

Rétroingéniérie de Google Trends (2) : marge d'erreur

J'avais prévenu dans mon dernier billet, aujourd'hui on parle de choses techniques : la marge d'erreur de mon calcul. Rien de terrible non plus, hein, les calculs sont de niveau lycée... Et en fin de billet, quand même quelques éléments de méthodologie pour minimiser l'erreur. Résumé de l'épisode précédent : j'ai choisi une hiérarchie de termes qui apparaissent de plus en plus haut dans Google Trends, pour évaluer par règles de trois successives le niveau du terme le plus recherché par rapport au moins recherché.

Pour mon calcul je m'étais initialement arrangé instinctivement pour que dans chaque paire de termes consécutifs, le premier ait un maximum environ 2 fois plus haut que le précédent. En effet, la marge d'erreur absolue de lecture de la valeur des courbes est d'environ 1 pixel. Sauf que cette erreur absolue ne correspond pas à la même erreur relative pour la courbe du dessus et celle du dessous. Celle du dessus culmine toujours à 113 pixels : 1 pixel d'erreur c'est donc moins de 1%. Mais pour celle du dessous, si elle culmine à 50 pixels, ça fera 2% d'erreur. Si elle ne dépasse jamais 3 pixels, c'est plus de 30% d'erreur ! Alors dans ce cas, doit-on choisir une hiérarchie de courbes qui sont très proches les unes des autres ? Pas nécessairement, puisque dans ce cas effectivement on réduit l'erreur à chaque étape du calcul, pour deux termes consécutifs, mais on augmente le nombre de termes (et donc d'erreurs successives) entre le moins recherché sur Google, et le plus recherché.

Evidemment, ce délicat compromis que je viens d'exprimer avec des mots, je n'ai pas pu m'empêcher de le modéliser mathématiquement. Je vais appeler a le rapport entre la hauteur max de la courbe la plus haute et celle de la plus basse parmi deux consécutives (et donc a>1). Pour simplifier le problème je considère que dans toute mon échelle de termes, ce rapport est constant. Ainsi, idéalement, j'aimerais trouver un mot 1 cherché x fois par jour sur Google, un mot 2 cherché ax fois par jour, un mot 3 cherché a2x fois par jour... un mot n+1 cherché anx fois par jour.

Maintenant, exprimons cette histoire d'erreur à chaque étape entre deux mots consécutifs : au lieu de lire une hauteur de k pour un mot et ak=113 pour le mot suivant, disons que je me trompe d'un pixel, à chaque fois trop haut (c'est une hypothèse pessimiste, en réalité, l'erreur alterne probablement, une fois on lit trop haut, une fois trop bas, et ça compense...). Pour mon calcul, s'il n'y avait pas d'erreur, par la règle de 3 je devrais trouver comme valeur du nombre de recherches du terme le plus haut :

x.113/k = x.ak/k = xa

Problème, je fais 1 pixel d'erreur, et donc quand j'applique la règle de 3 j'obtiens :
x.113/(k+1) = x.113/(113/a+1) = x.113a/(113+a)

Ainsi à chaque étape je multiplie par 113a/(113+a) au lieu de multiplier par a, donc pour le terme le plus recherché, je trouve x(113a/(113+a))n au lieu de xan. Je sous-estime donc la valeur réelle : ainsi pour minimiser l'erreur, je dois maximiser ma valeur calculée, donc trouver la valeur de a>1 qui maximise x(113a/(113+a))n.

Deuxième partie du raisonnement maintenant : le nombre d'étapes, c'est à dire n+1 termes, certes... mais ce n dépend de a. En effet, considérons qu'on s'est fixés le terme le moins recherché (x fois) et le terme le plus recherché (x'=xan fois). Alors x'=xen ln a, d'où ln(x'/x)=n ln a et donc n=ln(x'/x)/ln a.

Injectons ça dans la formule du haut, on a sous-estimé tous les termes de la hiérarchie, et le plus haut a été évalué à :
x(113a/(113+a))ln(x'/x)/ln a

expression qu'on doit donc maximiser par rapport à a. Commençons par une analyse de cette fonction aux limites (mmmmh, les bons souvenirs de première !). En 1+, l'intérieur de la parenthèse est inférieur à 1, et l'exposant tend vers +∞, donc l'expression tend vers 0. En +∞, l'exposant tend vers 0, et l'intérieur de la parenthèse vers 113, le tout tend donc vers 1. Ca tombe bien, c'est assez intuitif, ça exprime mathématiquement le dilemme que j'exprimais au second paragraphe... Bon bref, tout ceci ne nous dit pas où se situe son maximum. Et là ni Ahmed le Physicien, ni Julian le Mathématicien, armés respectivement de Mathematica et Maple, ne me fournissent une belle formule, il reste quelques méchants RacineDe(...) dans l'expression.

Pas grave, on va se contenter d'en trouver une approximation à l'aide d'un tableur. Le fichier est ici, et voici la courbe obtenue pour un rapport de 20 000 entre le mot le moins cherché et le plus cherché (c'est de l'ordre de grandeur de celui que j'ai dans ma hiérarchie de termes) :
Ainsi l'erreur minimale est atteinte pour une valeur de a d'environ 2,75 (soit une hauteur maximale de 41 pixels pour la courbe du bas). Elle est alors d'un peu moins de 25%. C'est certes conséquent, mais rappelez-vous qu'on a choisi le scénario où les erreurs se cumulaient par sous-estimation systématique. Alors il me reste cette question théorique intéressante : peut-on calculer l'espérance de l'erreur sur la valeur calculée du terme le plus fréquemment cherché, si à chaque étape l'erreur oscille aléatoirement à chaque mesure entre -1 et +1 pixel ?

On remarque aussi que la courbe croît plus vite à gauche qu'à droite : comme suggéré en vert sur le graphique, il semble qu'il vaudrait mieux choisir une hiérarchie telle que les nombres de recherches des mots de référence consécutifs ont un rapport de 4, plutôt qu'un rapport de 2.

Maintenant, voici quelques autres moyens d'améliorer la précision du calcul. Tout d'abord la précision de la mesure : au lieu de simplement mesurer le maximum où on sait qu'il y a une erreur inévitable, on peut tenter de le calculer à partir de mesures qui contiennent moins d'erreur. Je reprends l'exemple du billet précédent avec cat, dog, et phone:
Comparaison cat ~ dog (courbe 1) : 65 px ~ 113 px
Comparaison dog ~ phone (courbe 2) : 69 px ~ 113 px

Sauf qu'au lieu de mesurer le maximum de dog, on peut l'évaluer de la façon suivante faire la moyenne des valeurs sur la courbe 1 de dog, et la moyenne des valeurs sur la courbe 2 de dog. On en déduit alors un changement d'échelle tout à fait précis. On sait alors que le maximum de dog sur la courbe 1 est atteint à 113 pixels exactement, puisque ça semble être la valeur de référence dans les dessins Google Trends. On multiplie donc cette valeur par le changement d'échelle, et le tour est joué !

Alors maintenant autre problème : comment obtenir la moyenne des valeurs d'une courbe Google Trends ? Avec le CaptuCourbe, évidemment ! Alors là aussi, attention : il arrive que certaines valeurs ne soient pas récupérées par le CaptuCourbe (problème de couleur, par exemple la courbe est coupée par une ligne verticale noire accrochée à une bulle de légende Google News). Il s'agit donc de prendre garde à effectuer la moyenne des deux courbes sur des valeurs bien récupérées !

Autre chose, le CaptuCourbe, par sa méthode de capture, n'est pas très précis puisqu'il récupère tous les pixels de la couleur de la courbe, et en fait la moyenne. J'ai donc développé une nouvelle version, bientôt en ligne, qui permet de récupérer non pas la moyenne mais le max des hauteurs des pixels d'une certaine couleur. C'est cette fonction que j'utilise dans ma méthode pour calculer le max, en revanche c'est toujours celle de la moyenne que j'utilise pour calculer les moyennes des courbes. Ce petit détail n'en est pas un, comme le prouve par exemple la courbe Google Trends de Britney Spears, que j'ai capturée par la méthode du max, et de la moyenne :
Une erreur de 20% dans la mesure de plusieurs pics en utilisant la moyenne des pixels de même couleur, vraiment pas négligeable !

Pour terminer cette série de billets sur l'échelle verticale de Google Trends, il me reste encore quelques questions. Tout d'abord préciser la "valeur du foo". Grâce à des commentaires pertinents sur mon premier billet, je n'en suis pas loin. Je pourrai alors tenter d'automatiser toute la chaîne de récupération de courbes, mesures, et calculs, décrite dans le premier billet, pour fournir un programme qui précise sur une courbe Google Trends à combien de visiteurs correspondent les pics. Ceci dit je ne promets rien, ça vaudrait peut-être le coup d'attendre si l'API que Google prépare fournira ces données.

L'estimation du nombre de recherches pour un mot clé est en tout cas un défi intéressant, j'ai découvert le logiciel gratuit GTrends Made Easy qui propose de telles estimations par une méthode similaire à celle que j'ai présentée ici (en fait il ne fait qu'une seule règle de trois, en comparant le terme cherché avec un mot dont il connaît le nombre de recherches Google par un bon placement Google sur ce mot, et donc se limite aux mots qui apparaissent entre 5 et 50000 fois par jour, c'est à dire inférieurs à 100 foo), qui avait été décrite sur cette vidéo YouTube. Dommage que leurs auteurs n'aient pas poussé leur idée plus loin en enchaînant les changements d'échelle au lieu de se limiter à un.

10 mars 2008

Rétroingéniérie de Google Trends (1)

En janvier, j'avais proposé un utilitaire, le CaptuCourbe, pour extraire les valeurs d'une courbe, avec application possible à Google Trends. Depuis, l'outil s'est enrichi des couleurs par défaut des courbes Google, mais il manque toujours une donnée importante : quelle échelle verticale choisir ? Google prend en effet la précaution de cacher aux utilisateurs l'échelle utilisée. De plus comme les zooms ne sont pas permis, il n'est pas possible d'effectuer directement des comparaisons de courbes à différents ordres de grandeur. La hauteur maximum de courbe est en effet de 113 pixels, donc vous ne pouvez pas distinguer si un terme a été cherché 1000 fois, ou 10 000 fois moins qu'un autre.

Voici donc une hiérarchie de mots anglais, dans un ordre décroissant de recherches Google d'après Google Trends : of, free, sex, car, dog, gun, muscle, knife, torn, filming, separating, fooling.

On peut les utiliser pour créer une échelle pour Google Trends. Attention, elle ne sera pas précise (j'y reviendrai), mais permettra tout de même d'obtenir des valeurs quantitatives. Pour l'établir, j'ai procédé en recherchant conjointement dans Google Trends deux termes successifs dans la liste ci-dessus. Cela me permet d'évaluer le changement d'échelle pour chaque paire de successifs, en comptant la hauteur en pixel du maximum de chaque courbe. Une image est plus parlante que mes explications :

Comme je fais ça pour chaque paire de mots successifs, j'obtiens des valeurs de ce genre :
Comparaison cat ~ dog : 65 px ~ 113 px
Comparaison dog ~ phone : 69 px ~ 113 px
ce qui me permet de déduire en utilisant habilement des règles de trois que :
cat ~ dog ~ phone : 65 ~ 113 ~ 113*113/69=185,06
si l'on se base sur l'échelle de la première ligne ou bien :
cat ~ dog ~ phone : 69*65/113=39,69 ~ 69 ~ 113
si l'on se base sur l'échelle de la seconde.

Bref, j'ai reproduit ce raisonnement sur mes 11 mots pour obtenir les valeurs de maximum suivantes, en fixant la référence à fooling, et en appelant donc cette nouvelle unité le foo :

Attention, ce qui est à retenir, ce n'est pas seulement ces diverses valeurs, mais aussi la position du maximum qui atteint chaque valeur, c'est pourquoi en cliquant sur chaque mot ci-dessus vous accédez à une capture de la courbe vous permettant de localiser le max. En effet si vous voulez déterminer la valeur d'un pic pour un nouveau mot, soit vous avez compris le principe de la règle de 3 et vous amusez à calculer vous-même le max, soit vous indiquez simplement au CaptuCourbe l'échelle verticale en choisissant le max de la courbe de référence juste au-dessus du pic :
Par exemple ici environ 800 foo pour Manaudou en décembre 2007, à comparer avec les 240 foo du pic Bruni, ou les 470 foo atteints par Obama, les 1000 foo de Britney et les 3200 foo du tsunami de 2004 ou les 5700 foo de... Janet Jackson après le Superbowl 2004 !

Après l'annonce un peu commerciale de cette jolie petite échelle, l'honnêteté du scientifique m'oblige à quelques remarques :
- la marge d'erreur lors du calcul par enchaînement de règles de 3 successives : c'est le sujet de mon prochain billet et ce sera un peu technique (yaura même une jolie équation que ni Maple ni Mathematica n'arrivent à simplifier)... retenez que les nombres proposés ici doivent être valides à 10% près. Je me suis retenu de préciser plus de décimales, me souvenant de la sage annotation d'une prof de physique de lycée (au nom écorché par les sauvages utilisateurs de Note2Be) sur une de mes copies : "précision illusoire".
- non content de ne pas fournir l'échelle verticale de ses courbes, Google se permet aussi de les modifier fortement d'un jour à l'autre (c'est peut-être simplement un problème de discrétisation de la courbe réalisée "à la hache" sans se poser de question, mais dans ce cas étrange que les courbes de news en dessous soient identiques), comme le montre ce gif animé (créé avec le simplissime UnFreez) :
Attention donc si vous réutilisez un des mots ci-dessus comme référence, ne vous contentez pas de retenir la valeur du pic, ni même son positionnement, mais vérifiez en tentant de superposer la courbe de référence fournie sur ce billet, que la courbe de référence de l'image que vous voulez utiliser est bien à la même échelle, et tentez de corriger si ce n'est pas le cas.
- l'échelle reste relative, et pour en obtenir une absolue il faudrait savoir à combien de recherches Google exactement correspond 1 foo ? Toute idée de méthodologie pour connaître cette valeur est la bienvenue, pour l'instant la seule solution que j'aurais serait de créer un buzz artificiel de recherches Google, par un programme qui, un certain jour, à une certaine heure, irait rechercher un terme sur Google, et visiter une "page compteur" qui recenserait ainsi le nombre total de recherches Google sur ce terme. Encore faudrait-il avoir assez de volontaires qui accepteraient d'installer le programme, et je ne suis pas Vijay Pande... En attendant je peux remarquer que la courbe pour M6 direct a atteint 0,5 foo en février, alors que mon blog recevait environ 500 visites hebdomadaires pour ces mots-clé (pour lesquels je suis bien positionné). Bref, pour qu'un pic soit mentionné par Google Trends il faudrait cibler sur plus d'un millier de participants...


Ajout du 10/03 : je me rends compte que j'aurais peut-être dû mentionner, à propos de cette unité "foo", que le nombre de recherches auquel elle correspond est variable avec le temps. En effet les courbes Google Trends représentent une proportion des recherches sur certains termes par rapport à toutes les recherches Google. Ceci explique d'ailleurs la valeur impressionnante en foo de "Jackson". Par rapport au nombre total d'utilisateurs de Google en 2004 effectivement le buzz a été énorme, mais difficile de comparer de façon absolue en nombre de recherches 5700 foo de 2004 avec 800 foo de 2008... à moins que là aussi on puisse bricoler quelque chose ? Récupérer l'évolution du nombre de visiteurs ou de recherches Google depuis 2004, utiliser les courbes Alexa... à voir.


This post is translated to English: Reverse engineering Google Trends (1).

Fichiers source : les courbes Google Trends de chaque mot sont liées ci-dessus, voilà le fichier tableur qui a servi au calcul des valeurs en foo (attention c'est un fouillis monstre, plus de détails dans le prochain billet).

2 mars 2008

Suivi en direct de la naissance d'un buzz

Je rêve depuis quelques articles de pouvoir suivre en direct la naissance d'un buzz sur internet, et évaluer la performance des divers outils dédiés à leur analyse et détection. J'aurais préféré un sujet plus léger, mais c'est la tragédie de la Northern Illinois University qui m'en a donné l'occasion il y a deux semaines.

L'identité du tireur n'était pas été dévoilée le soir du drame. Mais dans la nuit (10 heures après), le Chicago Tribune fournissait sur son site internet assez d'éléments pour lever l'anonymat, tout en précisant de façon plutôt hypocrite :

The Tribune is not naming the gunman because police have not officially completed the identification of his body.
Une simple recherche d'articles co-signés par Jim Thomas et avec les mots clés "self-injury" et "prison" permettait d'identifier le suspect : Steve Kazmierczak. A 8h10, un visiteur de la Wikipedia modifie l'article concernant la fusillade pour y indiquer ce nom. Une trentaine de minutes plus tard, premier article de blog qui le cite, son auteur le met à jour plusieurs fois pour y ajouter d'autres informations trouvées sur internet. Le nom apparaît alors sur un blog et un forum, et à 10h33, est cité par le Daily Mail (l'article a été mis à jour depuis). Les internautes commencent alors à le soumettre aux moteurs de recherche, et il se retrouve en tête de la liste des "hot trends" de Google. Il est donc immédiatement repris par quelques splogs, qui semblent faire leur beurre en citant les tendances du moment éventuellement accompagnées de quelques extraits de pages web les concernant, récupérées automatiquement. A 14h42, l'agence Associated Press annonce que la police a rendu public le nom de Steven Kazmierczak. Mon suivi du buzz s'est arrêté là, puisque les articles ou pages web sur le sujet ont alors utilisé les prénoms "Steve", "Steven" ou "Stephen".

Quoi qu'il en soit, suivre les premières heures m'a permis de noter la réactivité des divers moteurs de recherche et outils de suivi de la blogosphère ou plus généralement du web. Comme je l'ai mentionné ci-dessus, c'est la Wikipedia qui a dévoilé l'identité en premier. Une occasion de plus d'en noter les possibles dérives, mais aussi de s'incliner devant la puissance de cette formidable machine à scoops. C'est dans l'encyclopédie que j'avais trouvé le premier compte-rendu clair de l'affaire Kerviel, après plusieurs jours d'évocation de "fraude" sans plus de détails dans les articles de presse que j'avais parcourus. On peut aussi s'y informer sur les décès de personnalités, en utilisant l'outil Wikirage qui par exemple montrait en tête le 13 février : Henri Salvador, Imad Mougniyah, et Badri Patarkatsishvili.

A propos des outils de suivi de la blogosphère, on peut noter que BlogPulse n'est pas très réactif. Evidemment Google Blogsearch est le premier à détecter le premier billet de blog sur le sujet, hébergé par... Blogspot. Dans l'ensemble il paraît toutefois faire jeu égal avec Technorati, dont la courbe un peu plus élevée à partir de 14h s'explique par quelques splogs non répertoriés (de façon volontaire ou non ?) par Google.

La réaction des moteurs de recherche sur la requête "Steve Kazmierczak" est aussi assez intéressante. Le buzz leur échappe complètement pendant ces premières heures... à part Google. Pour ce dernier, même si ça n'est pas clair sur le graphique, le nombre de résultats pertinents augmente bien, passant de 61 à 10h30 à 68 à 16h (les nouvelles pages proposées en résultat sont effectivement liées à l'affaire). L'explosion du nombre de résultats sans filtre de pertinence est en revanche tout à fait étonnant, et renforce le mystère sur les "nombres Google" : le nombre de pages pour cette requête a-t-il réellement doublé en 5h, ou bien n'est-ce qu'une approximation douteuse ?

Mais le plus important, c'est peut-être les courbes de Google Trends qui nous l'apprennent. Avant que la presse ose dévoiler le nom du tireur, avant que Wikipedia l'apprenne, Google était déjà au courant, avec les premières recherches sur ce nom moins de 3h après les faits. Leur domination sur le marché des moteurs de recherche leur donne aussi un accès direct à l'information, et leurs outils sont apparemment prêts pour l'exploiter au maximum. Avec la géolocalisation notamment, qui permet de cibler la provenance des requêtes et donc d'un éventuel buzz local. Alors à quand une agence de presse ou un tabloid Google, qui dévoilera ses scoops et rumeurs des heures avant le DailyMail ? Et qui a aujourd'hui accès aux données brutes de Google Trends en direct ? Sur le site, actuellement, les courbes sont actualisées au moins après 48h, ne sont pas fournies pour les termes pas assez recherchés, l'échelle horizontale n'est pas tout à fait précisée (j'interprète, peut-être à tort, que le point au-dessus de 4AM représente le nombre de recherches de 3AM à 4AM), sans parler de l'échelle verticale inexistante ! Bientôt une API Google Trends permettra peut-être d'accéder à ces données, et de rendre aux internautes la "connaissance" acquise grâce à eux...


This post is translated to English: The birth of a buzz, live.
Données brutes ayant servi à la réalisation des graphiques (fichier tableur OpenOffice)

1 février 2008

Traquer les mots moches

Las d'écorcher les yeux et les oreilles de mes proches, après 4 journées de stage de technesthésie pour améliorer mon expression orale (merci le CIES !), j'ai décidé de m'attaquer à mes erreurs et tics lexicaux. Anglicismes, complexifications inutiles, abus de langage, tout cela est recensé dans le Dicomoche. Encore faut-il repérer qu'on en utilise !

J'ai commencé à construire un site dédié à cela. Pour l'instant c'est tout à fait basique, le "Démocheur" (version beta) se contente de colorer certains mots moches ou potentiellement moches. Quand je dis basique, ça signifie aucune analyse lexicale, un simple fonctionnement par rechercher/remplacer. La liste actuelle de mots moches est très réduite, elle est destinée à s'enrichir au moins par le contenu du dicomoche, mais tout visiteur du Démocheur peut y proposer ses mots moches. Je mettrai certainement en place un système de vote pour laisser aux visiteurs la possibilité d'évaluer la laideur de chaque expression, dans un esprit de démocratie tout à fait web2.0. Reste à voir, une fois que les problèmes sont identifiés, comment les corriger, et là c'est au visiteur de se casser la tête, en suivant éventuellement les liens vers le dicomoche.

Résultat du démocheur

27 janvier 2008

Danger : accidents mortels !

Je ne connais pas du tout la blogosphère américaine (d'ailleurs, commencer à publier en anglais est aussi un moyen, j'espère, d'en récupérer quelques échos) mais il y a un blog anglophone que je visite régulièrement, xkcd, recueil de vignettes de BD tordantes... pour un public plutôt initié (comprenez : aussi geek que son auteur Randall Munroe, à l'origine d'autres jolis coups).

J'ai particulièrement apprécié une des dernières vignettes, qui fait appel aux nombres de résultats Google, comme ça m'est déjà arrivé sur ce blog pour l'orthographe, la célébrité des députés, ou la date de naissance du web :

Activités dangereuses
Indexées par le nombre de résultats Google pour
"mort dans un accident de ..."

Type d'accident - Résultats Google
parachutisme - 710
ascenseur - 575
surf - 496
skateboard - 473
camping - 166
jardinage - 100
patinage - 94
couture - 7
blogage - 2

Cette vignette a créé une Google Bomb slashdottée en faisant exploser le nombre de réponses pour "died in a blogging accident". L'expression avait bien sûr marqué les esprits de tous les blogueurs, qui ont repris la vignette en ajoutant les résultats de leurs propres recherches Google sur le sujet. On peut voir sur ce site ou dans le forum xkcd de nombreuses tentatives pour trouver la perle rare de l'activité dangereuse originale.

Sauf que la langue anglaise a un avantage sur le français : elle exprime ses noms d'activités par des verbes au participe présent. Là vous commencez à voir où je veux en venir, et si on envoyait carrément à Google tous les verbes anglais, pour qu'il nous dise lequel est le plus accidentogène ? Comment le faire techniquement ?

Première étape, récupérer une liste de tous les verbes anglais. Pas évident, comme en témoignent cette question Google Answers pleine de liens morts, ou ces 5 pages de réponses inutiles ou périmées de forumeurs... Bref, je me suis résolu à faire confiance à mon moteur de recherche préféré, en lui envoyant une liste de tous les verbes qui me sont passés par la tête. Manque de chance, elle renvoyait naturellement des dictionnaires complets, j'interdis donc d'un nom commun, hat, et en troisième page pour -hat strike give abandon wipe rub search seek hang eat adjust draw conclude reappear reconsolidate create destroy dream cut put drive, j'arrive enfin à une page du projet VerbNet qui présente plus de 3500 fichiers nommés par des verbes, plus quelques intrus. Même si on peut faire mieux, je m'en suis contenté...

Deuxième étape, générer les participes présents. Verbe + ing ? Oui mais il y a quelques subtilités, en fonction des dernières lettres de l'infinitif ! Heureusement que mon logiciel de tableur préféré me permet de coder quelques bouts de programmes, voilà la formule magique pour le "calcul" des participes présents (histoire de ne pas me perdre dans les parenthèses, je l'ai séparée en plusieurs cellules dans mon fichier tableur, mais pour le fun je la mets en un seul morceau) :
B1=IF(RIGHT(A1;1)="e";=IF(LEFT(RIGHT(A1;2);1)="i";CONCATENATE(LEFT(A1;LEN(A1)-2);"ying");CONCATENATE(LEFT(A1;LEN(A1)-1);"ing"));=IF(OR(RIGHT(A1;1)="d";RIGHT(A1;1)="g";RIGHT(A1;1)="m";RIGHT(A1;1)="n";RIGHT(A1;1)="p";RIGHT(A1;1)="t");=IF(OR(LEFT(RIGHT(A1;2);1)="a";LEFT(RIGHT(A1;2);1)="e";LEFT(RIGHT(A1;2);1)="i";LEFT(RIGHT(A1;2);1)="o";LEFT(RIGHT(A1;2);1)="u");=IF(OR(LEFT(RIGHT(A1;3);1)="a";LEFT(RIGHT(A1;3);1)="e";LEFT(RIGHT(A1;3);1)="i";LEFT(RIGHT(A1;3);1)="o";LEFT(RIGHT(A1;3);1)="u";AND(LEFT(RIGHT(A1;2);1)="e";RIGHT(A1;1)="n"));CONCATENATE(A1;"ing");CONCATENATE(A1;RIGHT(A1;1);"ing"));CONCATENATE(A1;"ing"));CONCATENATE(A1;"ing")))

Allez, une petite explication rapide. Si la dernière lettre est un "e", alors :
  • si l'avant-dernière est un "i", je transforme en "ying" (die -> dying)
  • sinon, je supprime le "e" et ajoute "ing" (love -> loving)
sinon :
  • si le verbe se termine par "en", j'ajoute simplement "ing" (sharpen -> sharpening)
  • sinon, si l'avant-dernière est un "d", "g", "m", "n", "p", "t", je vais la doubler si elle est précédée par une voyelle qui n'est pas précédée par une voyelle (bid -> bidding, put -> putting, mais claim -> claiming, feed -> feeding)
  • sinon, j'ajoute simplement "ing" (speak -> speaking)
J'ai créé ces règles intuitivement, en fait pour le doublement de la consonne finale, il faut vérifier si la dernière syllabe est accentuée, ma version a un très petit nombre d'exceptions, je n'ai identifié que des verbes se terminant par "on" (abandon -> abandoning, alors que con -> conning est correct).

Dernière étape, entourer chaque participe à gauche par "died in a (ou "died in an si le verbe commence par une voyelle) et à droite par accident", et envoyer chaque expression ainsi créée à Google, en utilisant FuryPopularity. J'en ai profité pour mettre le programme à jour, parce que Google a changé le style de ses résultats, et apparemment durci sa politique de détection de spam de requêtes : au bout de 200 requêtes envoyées toutes les 5 secondes, le moteur m'a empêché de continuer, et m'a débloqué seulement après captcha. En laissant une dizaine de secondes, ça passe. Je suis preneur de toute information sur leur algorithme de détection : se fonde-t-il seulement sur la fréquence (si oui, ils doivent identifier les proxys générateurs de nombreuses requêtes, non ?) ou sur la périodicité des requêtes, ou encore les actions effectuées suite aux requêtes ?

Voici le nuage brut de mots trouvés :
En analysant avec précaution ceux qui apparaissent moins fréquemment, on ne tombe malheureusement pas que sur des prétendants aux Darwin Awards. Tout d'abord, quelques parasites issus des réactions au dessin de xkcd, ou des décès d'animaux, mais aussi des choses plus gênantes : des adjectifs (amusing, embarrassing, interesting...) et des verbes n'indiquant pas une activité, mais plutôt des circonstances (exploding, crushing, choking...). Pour ces derniers, je n'ai pas de solution. On peut en revanche enlever les adjectifs verbaux assez facilement de façon automatique. Bien sûr, c'est possible en utilisant un analyseur syntaxique, voire un dictionnaire, mais je préfère rester dans l'utilisation des nombres de résultats Google.

J'ai fait plusieurs essais avant de trouver le critère discriminant. Comparer la fréquence de la forme participe présent par rapport à celle de l'infinitif (en espérant que ce soit plus élevé pour les adjectifs verbaux), ou trouver les pourcentages d'apparition du participe présent just après l'article "a", "more", ou "most". Dans le graphique ci-contre, les 5 premiers verbes donnent naissance à des adjectifs verbaux (amusant, effrayant, choquant, intéressant, dérangeant). On y voit que la stratégie du "a" ne fonctionne pas en particulier à cause des participes présents utilisés en anglais dans des mots composés : "a frying pan", une poële à frire, explique que "a frying" apparaisse si fréquemment. En revanche pas de contrexemple dans cette liste-test pour le superlatif avec "most" qui permet apparemment de faire la distinction (en fait la méthode laisse passer deux intrus : "ensuing" et "seeming" dans cette liste d'une centaine de verbes) :

Bref, une fois ce petit filtrage effectué, on peut regarder non seulement la fréquence de "died of a ... accident", mais aussi la comparer avec la fréquence de "a ... accident", ainsi que la popularité de l'activité elle-même, pour obtenir des sortes de taux d'accident (en bleu) et taux de mortalité (en rouge) :Et voilà ! Si votre activité favorite n'est pas dans la liste, vous avez au moins une base de comparaison pour tester sa dangerosité. Et si elle y est, faites attention à vous (surtout ceux qui ont prévu une petite joute équestre pour le weekend prochain...), mais ne vous inquiétez pas trop quand même, vous gardez aussi vos chances avec la bonne vieille tumeur ou la crise cardiaque !


This post is translated to English: Danger: deadly hobbies!
Et comme d'hab, les fichiers source : liste de plus de 3000 verbes anglais et la construction automatisée de leur participe présent, test des méthodes de détection des adjectifs verbaux, résultats des requête Google.

16 janvier 2008

Britney-Amy : duel mortel

Découverts grâce au Petit Journal de Canal + la semaine dernière, les sites WhenWillAmyWinehouseDie.com et WhenIsBritneyGoingToDie.com proposent un concept intéressant : pronostiquer la date de décès des deux divas, le plus proche gagnera qui un iPod Touch, qui une PS3. Buzz énorme, bien sûr, des milliers d'internautes se sont rués pour participer, laissant un petit messages de pré-condoléances au passage. Les deux sites sont évidemment optimisés pour récupérer des revenus publicitaires (contrairement à l'initiative plus confidentielle mais tout aussi "sympathique" du TopMort), et communiquent seulement les données brutes entrées par les signataires.

Il manquait donc un peu d'analyse de tous ces pronostics. Grâce à la formidable assistance de Matthieu Muffato, expert en domptage de Python, quelques lignes (de code) et quelques heures (d'exécution du programme) après que je lui aie parlé du problème, il m'envoyait son source avec les données récupérées.

La question que je m'étais initialement posé sur les pronostics était simple : quel est l'intervalle de temps le plus grand qui est encore libre, et permettant donc de maximiser a priori les chances de gagner ? A priori, c'est à dire en considérant que tout intervalle de temps d'une même durée est uniformément dangereux pour Amy et Britney, et uniformément choisi par les autres internautes.

Pas de chance, ces conditions idéales sont loin d'être vérifiées en pratique, pour une raison finalement toute simple : l'internaute veut gagner son iPod ou sa PS3 maintenant, et pas dans 30 ans ! Donc si vous voulez cibler pour le décès de votre Britney préférée un mois qui n'a encore pas été choisi par les autres visiteurs, il faudra attendre février 2023 ! Pour Amy, il y a eu moins de participants, donc si rien n'a changé depuis la récupération des données, novembre 2016 est encore libre, ou alors tenter l'année 2031, dont seul le mois d'octobre a été choisi. Je dois aussi préciser, comme Matthieu me l'a fait remarquer, qu'aucune date n'est enregistrée sur ces sites après janvier 2038, à cause probablement du codage des dates. Bref, passons aux choses "sérieuses", voilà un petit aperçu du nombre de pronostic par mois (avec simple renormalisation verticale pour Amy qui a reçu moins de votes) :
J'imagine que vous êtes aussi ahuris que je le fus quand les courbes sont apparues : elles sont quasiment identiques ! Coefficient de corrélation de 0.98, on obtient la même loi de puissance. Alors c'est l'occasion de faire un petit intermède mathématique. Pour détecter ce type de loi, on fait un tracé log/log des valeurs (c'est à dire on applique une fonction logarithmique aux abscisses, et aux ordonnées, pour afficher les points de coordonnées (log x,log y)) et on doit obtenir une droite. A vue d'oeil elle a à peu près pour équation Y=4-3X, c'est à dire quand on quitte le repère log/log et qu'on revient au linéaire : log10 y = 4-4/3 log10 x, et enfin y = 10 000 - x^(4/3), ce qui est l'équation de la courbe bleue.

En fait les lois de puissances arrivent très régulièrement dans les analyses de données réelles (en particulier de nombreux graphes petit monde ont une distribution des degrés en loi de puissance). Ce qui est remarquable est qu'ici les deux lois ont à peu près les mêmes paramètres. En regardant en détail on se rend quand même compte que les internautes ont plutôt privilégié 2008 pour Britney (qui semblait vraiment être au plus bas en ce début d'année) et 2009 pour Amy.

En regardant précisément les courbes, ont peut aussi noter une apparente périodicité. En tout cas elles ne sont pas monotones, et une représentation des proportions de pronostics de chaque mois dans l'année pour Miss Winehouse donne la courbe des pourcentages à gauche. Les variations sont étonnantes, entre novembre et août, on passe du simple au double ! Je n'ai pas d'explication a priori sur les choix réduits des mois de novembre, décembre, et février, peut-être que c'est un mécanisme similaire à celui que décrit Knuth dans un de ses premiers exos du tome 2 : demandez à un ami (ou un ennemi) un chiffre aléatoire, vous obtiendez plus souvent le nombre 7.

Pour en finir avec les chiffres, la représentation des pronostics par jour, toutes années confondues. J'ai enlevé le premier janvier qui était artificiellement haut à cause du problème du codage des années, qui a donné énormément de 01/07/1970.
Là à nouveau un phénomène de périodicité étonnant, les joueurs préfèrent visiblement les milieux de mois. Notez l'esprit retors qui fait apparaître aussi haut le 14 février, surtout pour la pauvre Britney. Même le point de son anniversaire le 2 décembre apparaît anormalement haut par rapport à ses voisins...

Alors pour oublier tout ça terminons sur une note de recueillement, d'émotion et de poésie, avec les nuages de mots des pré-condoléances pour les deux stars.
This post is translated to English: Britney-Amy, Celebrity Deathmatch.
Fichier tableur des pronostics par jour, par mois, autres fichiers source fournis sur demande, à moins que je les mette ici un jour.

11 janvier 2008

Sarkozy l'Orateur (2) : décryptage de l'impro-Sarko

Je les avais promis dans mon dernier billet, mais je ne les donnerai pas, les nuages arborés des deux versions (prévue, et prononcée) du discours de conférence de presse de Sarkozy. Pourquoi ? Je suis toujours loin d'être satisfait des détails techniques de la construction de ces objets, et même si je suis convaincu qu'un système de consensus d'arbres permet de bien les comparer (tiens, on s'approche de mon sujet de thèse, là...), quand les arbres à comparer ne sont pas très fiables, ça ne fonctionne pas. Bref, pas de jolie visualisation à l'interprétation casse-gueule, mais plutôt un bon vieux traitement semi-automatisé des différences entre les deux textes.

Nuages de mots des deux versions du discours de conférence de presse de SarkozyCommençons par la dynamique globale des changements. Je l'évoquais image à l'appui dans mon dernier billet, Sarkozy se lâche peu à peu dans son discours, et finit par improviser complètement en laissant de côté le texte prévu. Et à s'écarter des chemins balisés, on commet des erreurs. En particulier une de celles que j'adore, traque, et compile, une erreur d'accord de pronom relatif, dans sa forme la plus pure qu'est le "danlekel" invariable :

« Quelle est la ville dans lequel nous voulons vivre ? »
Dans le milieu du discours, on peut aussi noter une litote bien maladroite : "les enseignants sont plus victimes que coupables dans cette affaire" ! A moins qu'il faille vraiment prendre la phrase au pied de la lettre, et fustiger les enseignants coupables de ne pas passer leurs weekends à réparer et repeindre leur université... De même il est un peu cavalier en ajoutant qu'on ne parle jamais d'urbanisme pendant les campagnes politiques (hum, certes, ce sont des discours, pas des débats, dans Discours2007).

Maintenant voyons quels sont les thèmes des passages improvisés, et des passages supprimés (indiqués barrés) significatifs, ils expliquent bien sûr les mots mis en relief dans le nuage de mots "contrasté" de la version pronconcée :
Tous ces passages, c'est du pur Sarkozy. Pas de conseiller, pas de notes. Juste un freestyle présidentiel. Et là on peut se lancer dans l'analyse du style.

Malheureusement je n'ai pas les outils pour la détection et la mesure de l'anaphore. A vue de nez, j'ai quand même été tout à fait surpris d'en trouver un certain nombre ("comment..." ligne 112, "Paris doit" ligne 553, "L'Europe" ligne 844, "On aurait eu l'air malin" lignes 879 et 892, "Et bien sûr" ligne 1081...) dans les passages improvisés. Se serait-il donc converti au style Guaino, ou bien y a-t-il une autre explication ? Ils est de plus tout à fait frappant de noter à quel point elles sont renforcées à l'oral. Comme je l'expliquais, les retours à la ligne dans le texte prononcé indiquent des pauses dans le discours, et les anaphores arrivent toutes en début de ligne ! On peut aussi remarquer ligne 37 comment deux répétitions de "du respect" sont supprimées à l'oral, mais la suppression d'un "et" et une pause permettent de conserver la fonction rhétorique de l'anaphore.

Passons à une autre caractéristique du discours sarkozien : le pronom "je". Pour cela on fait mouliner le TagCloud Builder non pas sur les textes originaux, mais sur leurs listes contrastées et normalisées d'occurences de mots, ce que j'avais déjà fait sur les programmes du PS et de l'UMP (malheureusement cet outil de contraste est encore trop peu abouti pour le distribuer). J'ai pris bien soin pour une fois de laisser tous les mots dans le nuage, pronoms, conjonctions et interjections inclus, ce qui donne donc un aperçu du style oral de Sarkozy. Et les "je", alors ? Certes, le "j'" ressort, mais la fréquence des "je" est inférieure dans le texte prononcé par rapport au texte prévu ! Comptons les fréquences en détail (et c'est l'occasion de livrer une astuce pratique pour compter facilement le nombre d'occurences d'un mot dans un texte : ouvrez-le dans un éditeur ou traitement de texte, faites Rechercher/Remplacer, le mot éventuellement suivi d'un espace, par lui-même, choisissez Remplacer tout, et voilà la réponse !) : 14,99 fois pour 1000 mots dans le texte prononcé, contre 12,80 fois pour 1000 mots dans le texte prévu ! On a bien fait de ne pas s'arrêter à la première impression donnée par le nuage, et il ne pourra pas prétendre que ceux qui lui écrivent ses discours le forcent à se mettre en avant !

Dans le style familier à la Sarko, on peut noter le pronom "on", le "y" de "il y a" voire "y a", ou encore le "eh" de "eh ben" ou "eh bien". Au fait, vous vous rappelez du "naturellement" de Chirac ? Sarko préfère le "parfaitement" (fréquence d'environ 1 pour 1000 mots dans ce discours), ce qui semble aussi se confirmer avec ses discours de campagne.

Et pour finir sur le style Sarkozy, une remarque que je faisais dans le billet précédent et que je confirme aujourd'hui, l'emploi du verbe "épouser", deux fois à l'oral mardi, semble être conjoncturel (dans les discours recensés dans Discours2007 il apparaît moins de 0.1 pour 10 000 mots, contre plus d'une fois pour 10 000 ici).

Enfin, je l'ai omis dans mon dernier billet, je dois mentionner un outil qui m'a particulièrement aidé dans ma transcription : le Real Player Download & Recording Manager qui s'installe avec RealPlayer11 Basic (hein, mais ils font quoi, dans la blogsophère française ???), et qui propose de télécharger en un clic toutes les vidéos ou sons croisés sur internet. A quel point c'est légal ? Real n'est pas une petite boîte douteuse en tout cas, j'ai l'impression que comme Altavista, ce système va devenir un excellent assistant au piratage, pour initiés...


Ajout du 25 mars 2008 : et pour aller plus loin dans l'analyse du discours sarkozien, jetez-vous sur l'indispensable Les mots de Nicolas Sarkozy !