20 juin 2006

Explique les pics !

Jean Véronis nous disait récemment comment quantifier l'importance des pics observés dans les résultats du Chronologue, en appliquant un logarithme (pour se rapprocher de l'échelle de Richter) sur la différence max-min de la courbe. Mais comment expliquer la présence de ces pics ?

Google Trends le fait assez bien. Rappelons que ce site fournit une courbe similaire à celle du Chronologue : "popularité" d'un terme ou d'une expression sur le web par rapport au temps, la popularité étant ici évaluée en fonction du nombre de recherches sur le moteur Google. Et là, Google utilise Google News pour chercher dans les actualités de l'époque les articles se rapportant au sujet. Bel exemple d'interaction dans la Galaxie Google !

Mais la Galaxie Véronis en forte expansion elle aussi pourrait faire pareil, en utilisant... le Nébulsocope ! On commence par cibler l'emplacement du pic. Pour cela, appelons C(d) le nombre de résultats du Chronologue à la date d. soit d_m la date correspondant au maximum (global, pour le local il faudrait être un poil plus subtil, par exemple considérer la courbe de la fonction restreinte aux dates où C(max_local)) de C. On considère les deux dates les plus proches de d_m, une avant, d_b et l'autre après, d_a, qui sont à l'intersection entre la courbe de C et la courbe constante de valeur la moyenne de C sur toutes les dates (plus formellement : d_b = min{d > d_m / C(d_b) ‹ moy (C)}). On peut alors appeler le Nébuloscope sur la requête initiale (trucbidule), ainsi que sur la requête accompagnée des précisions de date : trucbidule dd>d_a dd<d_b. On choisit Contraster plutôt que Comparer, bien sûr, pour mieux extraire les spécificités du nuage de mot à la période ciblée.

Un petit exemple pour comprendre : comment expliquer le pic d'Ardisson en novembre-décembre 2005 ? Google Trends le marque moins, et reste muet sur le sujet. Mais on peut identifier les dates de début et de fin du pic (à la louche) : il y a 230 jours, et il y a 200 jours. Appelons le Nébuloscope avec ces paramètres !
Les mots qui se détachent : ardisson, aime, vie, baby-boomer. Voilà les mots-clés qu'il faudrait indiquer sous les pics du chronologue ! En cliquant sur baby-boomer pour préciser, on voit qu'il s'agit de l'autobiographie de notre animateur vedette, Confessions d'un baby-boomer, publiée à l'automne 2005. Vivement le pic pour le bouquin de Jean Véronis et Louis-Jean Calvet...

3 commentaires:

Anonyme a dit…

South Park was praised as a show that local businesses and resulting urban noticed a bag sticking out under some 20 years, because you know you will be Pitney was found dead in a Cardiff

Dado a dit…

C'est une bonne idée. Je l'avais déjà testée avec des résultats mitigés.

Par exemple, si on essaie d'expliquer le bond de "harry potter" en décembre 2005 (sortie du film "harry potter et la coupe de feu") en comparant:

harry potter dd>158 dd<219
harry potter

on trouve bien les mots "coupe" et "feu". Mais si on essaie d'expliquer le bond de "coupe de feu" en Mai 2006 (sortie du dvd), en comparant:

"coupe de feu" dd>21 dd<52
"coupe de feu"

on trouve en plus de "dvd" les mots "commune" et "blogs", tout ça parce que le site breizhoo a bombardé sur des centaines de pages correspondant à chacune des communes de Bretagne la même publicité de DVD.

Mais dans l'ensemble, ça marche plutôt bien. Par exemple:

cygnes dd>99 dd<132
cygnes

qui donne "virus", "grippe", "aviaire"... plus d'autres mots comme "h5n1" "pathogènes" "retrouvés" "morts", etc.

Philippe a dit…

Merci pour ces exemples supplémentaires ! Mais bon voir qu'à chaque fois on a l'explication, même si elle est bruitée par d'autres trucs moins en rapport (pour Ardisson il y avait aussi Salman Rushdie qui se détachait dans la période ciblée), est assez satisfaisant.

Et le problème de breizhoo, dans le fond, est lié au contenu des "résumés Dir.com" utilisés par le Nébuloscope pour construire les nuages lexicaux. Jean Véronis ne détaille pas vraiment dans son article d'explications sur le Nébuloscope cette partie-là du traitement, qui a été confiée à Dir.com, et les résumés peuvent apparemment inclure des "parasites" comme des publicités, ou, j'imagine, un menu, ou une mention de copyrights, qui n'ont pas vraiment grand chose à voir avec le thème de la page.

Mais peut-être que ces problèmes disparaissent en ayant à disposition les fréquences exactes des mots du nuage, et pas seulement les arrondis de fréquences que constituent les tailles de police (genre "DVD" est peut-être présent dans 800 résumés, et "commune" seulement dans 500, ce qui permet de se contenter de l'explication "DVD" pour le pic "coupe de feu" dd>21 dd<52).