1 juin 2006

Créations lexicales et graphe sémantique

Une question intéressante en commentaires du dernier post de Jean Véronis. Spinodo - Charles Mougel a dit…

Quel est la probabilité, pour qu'une personne, associe ces deux mots, au cours de sa vie ?
- "ordre" et "juste".
Il me semble qu'il est loin d'être nul. Car ordre et la justice, sont tout de même des notions qui reviennent souvent dans le vocabulaire politique ou religieux, non ?
Quelles sont les chances de naissance indépendante de ce couple de mots ?
Depuis un petit moment déjà, j'ai comme projet de créer un petit graphe sémantique à partir d'un dictionnaire : des points, chacun représentant un mot, sont reliés s'ils sont souvent cités dans une même définition du dictionnaire, ou si l'un est cité dans la définition de l'autre, la longueur des liens étant proportionnelle à une certaine distance. J'espère que ce truc pourrait donner un graphe qui rapproche bien (en terme de plus court chemin entre deux points) des termes entre lesquels on peut faire des associations d'idées facilement.

Si c'est le cas, la distance entre deux mots, par exemple "ordre" et "juste", pourrait refléter la probabilité que les deux mots soient naturellement associés par un individu lambda, la probabilité que le couple "ordre juste" soit créé (peut-être faudra-t-il au passage vérifier/imposer au passage que le groupe de mot créé soit grammaticalement correct). La comparaison entre la probabilité théorique de création des couples (d'après le dico) et la création effective se ferait en comparant ces distances et les distances Google (Normalized Google Distance). Le nombre de couples de mots "créés" par une seule personne étant vraisemblablement plus rares que ceux apparus naturellement (plusieurs créations indépendantes), on peut attendre que les deux distances soient en général cohérentes... les exceptions représentant justement les créations lexicales d'une seule personne.

Bon, bon, je suis peut-être trop optimiste... et surtout créer le graphe sémantique demande un certain temps de programmation que je n'ai pas, donc pas moyen de faire une petite vérification rapide de ce que j'espère. Un week-end tranquille en juin, peut-être...

2 commentaires:

Dado a dit…

Est-ce que ce n'est pas ce qui est déjà fait par le dictionnaire des synonymes du CNRS ?http://dico.isc.cnrs.fr/

Philippe a dit…

En effet, il y a des similitudes avec l'approche pour construire les graphes sémantiques sur ce site web (pour en savoir plus sur cette approche, voir http://halshs.ccsd.cnrs.fr/docs/00/06/06/77/PDF/Construction_d_espaces_semantiques.pdf ou la vidéo d'une présentation de Bernard Victorri http://diffusion.ens.fr/index.php?res=conf&idconf=181).

Mais cette méthode consiste à prendre en entrée le dictionnaire des synonymes pour obtenir en sortie un graphe sémantique liant seulement des mots de même nature grammaticale (tous des noms, ou des verbes...). Je parlais plutôt d'une sorte d'extension, qui consiterait à ne pas utiliser l'information très précise donnée par un dictionnaire de synonymes, mais en ayant une approche plus statistique, (avec une distance liée aux co-occurences au sein de définitions d'un dictionnaire "classique"), rapprocher par exemple des termes comme "cheval" et "galoper", ou "cheval" et "mammifère", ce que ne fait pas le dico des synonymes...