28 juin 2006

Teaser...

Pour fêter la sortie (le 12 juin) du logiciel de construction d'arbres et réseaux phylogénétiques SplitsTree 4.5 (avec, en écran d'accueil du logiciel, une jolie photo, de la Nouvelle Zélande, j'imagine), bientôt, sur ce blog, un nouvel arbre phylogénétique intéressant...

Ou pas... Vous voyez ce que ça peut être ?

20 juin 2006

Explique les pics !

Jean Véronis nous disait récemment comment quantifier l'importance des pics observés dans les résultats du Chronologue, en appliquant un logarithme (pour se rapprocher de l'échelle de Richter) sur la différence max-min de la courbe. Mais comment expliquer la présence de ces pics ?

Google Trends le fait assez bien. Rappelons que ce site fournit une courbe similaire à celle du Chronologue : "popularité" d'un terme ou d'une expression sur le web par rapport au temps, la popularité étant ici évaluée en fonction du nombre de recherches sur le moteur Google. Et là, Google utilise Google News pour chercher dans les actualités de l'époque les articles se rapportant au sujet. Bel exemple d'interaction dans la Galaxie Google !

Mais la Galaxie Véronis en forte expansion elle aussi pourrait faire pareil, en utilisant... le Nébulsocope ! On commence par cibler l'emplacement du pic. Pour cela, appelons C(d) le nombre de résultats du Chronologue à la date d. soit d_m la date correspondant au maximum (global, pour le local il faudrait être un poil plus subtil, par exemple considérer la courbe de la fonction restreinte aux dates où C(max_local)) de C. On considère les deux dates les plus proches de d_m, une avant, d_b et l'autre après, d_a, qui sont à l'intersection entre la courbe de C et la courbe constante de valeur la moyenne de C sur toutes les dates (plus formellement : d_b = min{d > d_m / C(d_b) ‹ moy (C)}). On peut alors appeler le Nébuloscope sur la requête initiale (trucbidule), ainsi que sur la requête accompagnée des précisions de date : trucbidule dd>d_a dd<d_b. On choisit Contraster plutôt que Comparer, bien sûr, pour mieux extraire les spécificités du nuage de mot à la période ciblée.

Un petit exemple pour comprendre : comment expliquer le pic d'Ardisson en novembre-décembre 2005 ? Google Trends le marque moins, et reste muet sur le sujet. Mais on peut identifier les dates de début et de fin du pic (à la louche) : il y a 230 jours, et il y a 200 jours. Appelons le Nébuloscope avec ces paramètres !
Les mots qui se détachent : ardisson, aime, vie, baby-boomer. Voilà les mots-clés qu'il faudrait indiquer sous les pics du chronologue ! En cliquant sur baby-boomer pour préciser, on voit qu'il s'agit de l'autobiographie de notre animateur vedette, Confessions d'un baby-boomer, publiée à l'automne 2005. Vivement le pic pour le bouquin de Jean Véronis et Louis-Jean Calvet...

7 juin 2006

GoogleFight (pour l'orthographe), le retour

De jolis contrexemples au GoogleFight appliqué à la levée d'ambiguïtés orthographiques sur le blog de Dado : "acquis de conscience" au lieu d'"acquit de conscience", "autant pour moi" au lieu d'"au temps pour moi".

Et avec un seul mot ? J'ai seulement "traffic" au lieu de "trafic". D'accord, la faute vient ici du fait que GoogleFight, même en version française, ne se restreigne pas aux pages francophones et se laisse donc parasiter par la forme anglaise (merci à Renault de m'avoir permis de corriger mon dictionnaire cérébral après un embouteillage derrière un de leurs Trafic). Bref, pour être vraiment sûr, une autre possibilité de test en alternative au GoogleFight : proposer à Google les deux écritures dans une seule requête. Pour traffic trafic, on se rend compte que la seconde forme est dominante pour les premiers liens. Pour des expressions, comme "autant pour moi" "au temps pour moi", il faudra plutôt suivre les premiers liens pour lire les discussions passionnées sur le sujet, et en extraire la réponse correcte.

Sur ces histoires de corrections orthographiques inexactes, une anecdote de Derek Corneil, chercheur canadien en théorie des graphes, qui fait relire sa thèse tapée à la machine à son épouse. Elle passe la journée à éliminer patiemment toutes les erreurs et conclut le soir venu : "Je sais que tu as des problèmes avec l'orthographe, mais quand même, écrire 'if' avec deux 'f' !"

1 juin 2006

Créations lexicales et graphe sémantique

Une question intéressante en commentaires du dernier post de Jean Véronis. Spinodo - Charles Mougel a dit…

Quel est la probabilité, pour qu'une personne, associe ces deux mots, au cours de sa vie ?
- "ordre" et "juste".
Il me semble qu'il est loin d'être nul. Car ordre et la justice, sont tout de même des notions qui reviennent souvent dans le vocabulaire politique ou religieux, non ?
Quelles sont les chances de naissance indépendante de ce couple de mots ?
Depuis un petit moment déjà, j'ai comme projet de créer un petit graphe sémantique à partir d'un dictionnaire : des points, chacun représentant un mot, sont reliés s'ils sont souvent cités dans une même définition du dictionnaire, ou si l'un est cité dans la définition de l'autre, la longueur des liens étant proportionnelle à une certaine distance. J'espère que ce truc pourrait donner un graphe qui rapproche bien (en terme de plus court chemin entre deux points) des termes entre lesquels on peut faire des associations d'idées facilement.

Si c'est le cas, la distance entre deux mots, par exemple "ordre" et "juste", pourrait refléter la probabilité que les deux mots soient naturellement associés par un individu lambda, la probabilité que le couple "ordre juste" soit créé (peut-être faudra-t-il au passage vérifier/imposer au passage que le groupe de mot créé soit grammaticalement correct). La comparaison entre la probabilité théorique de création des couples (d'après le dico) et la création effective se ferait en comparant ces distances et les distances Google (Normalized Google Distance). Le nombre de couples de mots "créés" par une seule personne étant vraisemblablement plus rares que ceux apparus naturellement (plusieurs créations indépendantes), on peut attendre que les deux distances soient en général cohérentes... les exceptions représentant justement les créations lexicales d'une seule personne.

Bon, bon, je suis peut-être trop optimiste... et surtout créer le graphe sémantique demande un certain temps de programmation que je n'ai pas, donc pas moyen de faire une petite vérification rapide de ce que j'espère. Un week-end tranquille en juin, peut-être...