Densité des idées
La rencontre de doctorants Osidmesh (évoquée précédemment sur ce blog) a débouché sur un joli projet qui a déjà donné ses premiers résultats, que mes coautrices vont présenter cette semaine et le mois prochain. Petit coup de projecteur, donc, sur ces travaux liés à la thèse d'Hyeran sur le langage des malades d'Alzheimer.
En octobre dernier, elle m'avait parlé du logiciel CPIDR qui permet d'estimer, pour un texte en anglais, sa "densité des idées". Le concept de ce score linguistique, qui correspond au nombre d'idées exprimées en 10 mots, nous vient de la psycholinguistique. La densité des idées représente une certaine qualité informative des phrases d'un texte, et les psycholinguistes soupçonnent que sa dégradation est liée à un déclin de l'activité cognitive. Ainsi, Hyeran cherchait à vérifier que les malades d'Alzheimer avaient généralement une densité des idées inférieure aux personnes non atteintes, première étape avant d'utiliser ce critère pour des applications plus poussées comme le diagnostic de la maladie, ou l'analyse précise des dégradations de la capacité langagière en vue de proposer des exercices de rééducation adaptés.
Nous avons donc réutilisé la méthode du logiciel CPIDR pour le calcul de la densité des idées d'un texte : on détermine la nature grammaticale de tous les mots (par exemple de façon automatique avec TreeTagger), et on utilise cette information comme base pour déterminer si le mot peut être considéré comme représentant une idée ou non. En fait, les mots comptant pour une idée sont principalement les verbes, les adverbes et adjectifs, ainsi que les prépositions et conjonctions. Des règles linguistiques permettent d'ajuster ce principe de base et de traiter certains cas particuliers, éventuellement spécifiques au discours oral.
Nous avons donc codé dans un logiciel libre en Python, Densidées, ce principe de base et quelques premières règles grammaticales, qui nous ont permis d'obtenir assez rapidement une approximation intéressante des valeurs de densité des idées trouvées manuellement. Et par un prompt renfort de deux étudiantes lyonnaises en orthophonie, Constance et Elsa, un joli corpus étiqueté manuellement (le rêve de tout TALeux !) a été constitué, permettant d'améliorer le logiciel en comparant les résultats de l'analyse automatique et manuelle, pour trouver les nouvelles règles à ajouter pour réduire le taux d'erreur. Nous arrivons finalement à de très bons résultats, comme détaillé dans cet article à RECITAL 2010 et montré dans le graphique de corrélation entre analyse manuelle et automatique ci-contre.
Aucun commentaire:
Enregistrer un commentaire