Affichage des articles dont le libellé est TAL. Afficher tous les articles
Affichage des articles dont le libellé est TAL. Afficher tous les articles

12 juin 2011

Le vocabulaire des entreprises pour booster son CV

Utiliser le vocabulaire de l'entreprise est un conseil donné aux jeunes diplômés de l'université en recherche de leur premier emploi, ou aux jeunes docteurs qui veulent s'orienter dans le privé après la thèse. CV, lettre de motivation, entretien, pour tout cela il faut s'adapter au langage de son interlocuteur. Sans pour autant parler uniquement en jargon d'entreprise, mots moches compris.

C'est suite à une sensibilisation à cette problématique par Naïma Maybel lors d'un P'tit Déj' d'information de Contact, l'association des doctorants et docteurs de l'Académie de Montpellier, que nous nous sommes lancés avec Paola Salle, la présidente de l'asso, dans la conception d'un site web qui aide à connaître ce vocabulaire spécifique en l'extrayant des offres d'emploi du site de l'APEC.

En fait, boosterCV.fr va plus loin, en offrant des outils d'exploration des offres d'emploi (par région, par entreprise, par métier) qui manquent un peu au site de l'APEC, conçus par Paola. Ce n'est qu'un début, n'hésitez pas à nous signaler des fonctionnalités que vous aimeriez voir sur le site, ou à laisser vos coordonnées pour recevoir des informations sur les prochaines mises à jour. On envisage aussi de faire le même travail avec les offres d'emploi de ProfilCulture, à destination des étudiants, doctorants et docteurs en sciences humaines et sociales, pour qui les offres de l'APEC peuvent sembler inadaptées.

Bien sûr, ce site web n'est pas la solution miracle, et les doctorants les mieux préparés pour poursuivre leur carrière en entreprise sont ceux qui s'y sont intéressés dès le début de leur thèse. Formations doctorales pour être en contact avec des professionnels du secteur privé, échanges avec des chefs d'entreprise ou des responsables de ressources humaines dans les rencontres docteurs/entreprises (le mois dernier à Montpellier, bientôt à Bordeaux et Paris), valorisation des travaux de thèse sur les pages web des doctorants ou sur HAL (utilisé par les structures de transfert technologique pour répondre à des besoins des entreprises)... Tout cela permet de mettre un pied dans l'entreprise, et peut déboucher sur un emploi pour un docteur, ou une mission d'expertise pour un doctorant.

Participer, à distance, à la compilation des CV des participants à la Rencontre Docteurs Entreprises de Montpellier m'a permis de constater, cette année, à quel point les doctorants et docteurs savent mettre en valeur leurs compétences en utilisant le vocabulaire de l'entreprise. Evidemment, il faut qu'ils y aient été sensibilisés (ce qui était le cas pour la plupart des participants à cette rencontre), et qu'ils aient un petit coup de pouce : contrairement à l'an dernier nous avons imposé cette année des CV d'une page, en fournissant un exemple (version OpenOffice). Cela a conduit à une grosse majorité de documents très professionnels, dont voici le nuage arboré :

Notez les compétences transversales dans le sous-arbre en haut à gauche (qui correspondent assez bien à la demande) et les compétences linguistiques et bureautiques dans celui en haut à droite. En bas à droite, les compétences techniques, bien marquées par le grand nombre de jeunes chercheurs en chimie ou biologie-santé parmi les participants de cette année.

Pour compléter sur ce sujet, pour les spécialistes, j'ajouterai que la classification arborée de la centaine de CV reçus, selon une distance intertextuelle, a également très bien fonctionné pour faire apparaître quatre sous-arbres : sciences du vivant, sciences chimiques, sciences de l'ingénieur, et sciences humaines et sociales... en utilisant un anti-dictionnaire approprié ! En effet, les participants ayant utilisé le CV fourni en exemple se retrouvaient initialement dans un même sous-arbre à cause des mots "loisirs", "intérêts" ou encore "sports" qui causaient ce rapprochement. En fait, la classification thématique était améliorée en enlevant l'ensemble des mots attendus dans ces CV de doctorants et docteurs montpelliérains, je vous dévoile ici l'anti-dictionnaire utilisé.

Je termine ce billet par un dernier outil à destination des doctorants et docteurs attirés par une poursuite de carrière dans le secteur privé, un répertoire des compétences généralement acquises au cours du doctorat, sous les deux formes les plus intéressantes que j'ai pu trouver à ce jour (en espérant que l'enquête d'ADOC Talent Management débouchera sur un document qui les complétera utilement) :

23 janvier 2011

Mème : Scrabble international

Nouvelle chaîne dans ma boîte mail, nouvelle analyse de mème sur ce blog (après la F-list, et fait-ou-pas) : le "Scrabble International".

Il s'agit d'une liste de mots de 6 lettres, à laquelle on doit ajouter un mot français :
- de 6 lettres pas encore présent dans la liste
- ayant exactement une lettre de différence avec le mot précédent (dont les lettres sont éventuellement réordonnées).

Sont ajoutés le prénom et la ville du participant, ainsi que sa date de participation. Voilà l'exemple de la liste que j'ai reçue (209 mots). J'en ai trouvé quatre autres sur le net, de 124, 85, 216 et 89 mots, qui montre que la liste a voyagé (par mail, pas sur la blogosphère apparemment) en Belgique d'où elle est partie, en France, en Algérie, en Suisse, au Canada, au Maroc... L'arbre de diffusion à gauche résume l'historique de ces listes.

Je me suis demandé quelle taille pourrait atteindre cette liste, en théorie. Eh oui, car en pratique, comme pour tous les mèmes, les participants ne suivent pas toujours les règles, éviter et tourbe sont deux fois dans la première liste, piéger et pingre dans la cinquième, et je ne parle pas de ceux qui oublient d'inscrire la date, ou prennent un malin plaisir à changer le format pour que je ne puisse pas récupérer toutes les infos facilement avec un script.

Bref, supposons que tout le monde suive les règles, le jeu correspond à construire un chemin qui ne repasse jamais pas le même sommet (en bleu dans l'illustration ci-dessous) dans un graphe :
- dont les sommets sont les mots français de 6 lettres
- dont les arêtes rejoignent deux mots qui ont une lettre de différence.
Quelles sont les propriétés de ce graphe ? Quelle est la taille du plus long chemin qu'il contient ? Est-ce que 6 lettres est la taille de mots la plus adaptée pour assurer le succès de ce mème ? Voici les quelques questions auxquelles je vais tenter de répondre dans ce billet, avant une suite éventuelle qui sera dédiée à une analyse des données des les 5 listes récoltées.

Première chose à faire, construire ce graphe à partir d'une liste de tous les mots français. Je récupère ça chez un collègue marseillais, regroupe les mots par taille en passant tout en minuscules et en enlevant les lettres accentuées : 2 mots de taille 1, 81 de taille 2, 427 de taille 3, 1799 de taille 4, 5897 de taille 5, 13931 de taille 6... Tiens tiens, ça augmente comme ça jusqu'à 50097 (taille 10) avant de redescendre. Mais la longueur du plus long chemin n'est pas directement reliée à la taille du graphe : certes, celui des mots de 10 lettres a plus de sommets, mais il est moins dense (moins d'arêtes), et contient donc probablement moins de longs chemins. Grâce à quelques scripts en Python, voici les réseaux obtenus pour les mots de taille 3, 4, 5, 6, 7, 8 (18 Mo pour le dernier...).

Première chose à faire, calculer les composantes connexes, les parties du graphes où toute paire de sommets est reliée par un chemin. Pour cela (merci Anaïs !) la bibliothèque iGraph en R fait tout le boulot. Téléchargez-la, installez-la (install.packages("igraph")), puis lancez le code suivant :
library(igraph)
g<-read.graph("http://philippe.gambette.free.fr/Blog/2011Scrabble/Mots6.graph.txt",format="ncol")
cc<-clusters(g)
cc$csize

On obtient une composante connexe de taille 13865, et 5 de taille 2. Pour avoir la composition des cinq paires :
V(g)[which(cc$membership==1)-1]
V(g)[which(cc$membership==2)-1]
...
Les 5 paires sont donc : {rococo, corozo}, {hiboux, bijoux}, {puffin, muffin}, {okoume, loukoum}, {zozota, zozote}.


dd <- degree.distribution(g)
plot(dd)
On obtient l'image ci-contre, qui sent le Poisson...

Quelle est la taille du plus long chemin dans ces graphes ? Eh bien ce problème est NP-complet (difficile à résoudre pour un ordinateur), et je n'ai pas encore essayé de le soumettre (pour les mots de taille 3, car je doute qu'il arrive à traiter un graphe à 10000 sommets et 400000 arêtes) au programme linéaire en nombres entiers récemment ajouté par Nathann dans Sage (au moins j'ai - enfin - installé le logiciel). En revanche j'ai programmé un script qui lance un millier de chemins au hasard, en partant d'un sommet également choisi au hasard, et enregistre la taille de chacun des chemins obtenus.

J'obtiens les valeurs moyennes suivantes : la longueur maximale parmi tous les chemins trouvés augmente jusqu'à 8 lettres inclus (je n'ai pas testé les graphes pour les mots de taille supérieure), en revanche la longueur moyenne des chemins atteint un maximum pour le graphe des mots de sept lettres (cliquez sur le graphique pour voir la distribution des longueurs de chemins obtenue) :
Vous me direz qu'en calculant simplement le degré moyen des sommets du graphe, on obtenait justement un maximum pour une taille de mots de 6, avec un nombre moyen de voisins de 28,7 qui correspond à peu près à la valeur où le pic de la loi de Poisson est atteint ci-dessus... J'aimerais bien savoir comment Eliane de Bruxelles a choisi la taille de 6 quand elle a conçu ce jeu. En tout cas c'était bien trouvé, et il ne reste plus qu'à trouver quelques milliers de participants pour commencer à rendre le jeu difficile... A moins que vous ne vouliez vous lancer dans une stratégie de blocage du jeu, en l'orientant vers un "cul-de-sac", soit en faisant revenir le chemin vers des sommets déjà visités, soit vers des sommets de faible degré...

Si vous avez participé au mème, et que vous avez une liste différente de celles montrées ci-dessus, ça m'intéresse, dans la perspective d'un prochain billet sur le sujet : indiquez en commentaire une adresse de page web où vous l'avez placée, ou envoyez-la moi par courriel en indiquant dans le sujet "Scrabble International". Et si vous voulez lancer le mème sur la blogosphère, faites-vous plaisir, en citant des blogs pour les inciter à propager la chose ! Plutôt des blogs féminins, au vu des prénoms dans mes listes...

30 juin 2010

Densité des idées

La rencontre de doctorants Osidmesh (évoquée précédemment sur ce blog) a débouché sur un joli projet qui a déjà donné ses premiers résultats, que mes coautrices vont présenter cette semaine et le mois prochain. Petit coup de projecteur, donc, sur ces travaux liés à la thèse d'Hyeran sur le langage des malades d'Alzheimer.

En octobre dernier, elle m'avait parlé du logiciel CPIDR qui permet d'estimer, pour un texte en anglais, sa "densité des idées". Le concept de ce score linguistique, qui correspond au nombre d'idées exprimées en 10 mots, nous vient de la psycholinguistique. La densité des idées représente une certaine qualité informative des phrases d'un texte, et les psycholinguistes soupçonnent que sa dégradation est liée à un déclin de l'activité cognitive. Ainsi, Hyeran cherchait à vérifier que les malades d'Alzheimer avaient généralement une densité des idées inférieure aux personnes non atteintes, première étape avant d'utiliser ce critère pour des applications plus poussées comme le diagnostic de la maladie, ou l'analyse précise des dégradations de la capacité langagière en vue de proposer des exercices de rééducation adaptés.

Nous avons donc réutilisé la méthode du logiciel CPIDR pour le calcul de la densité des idées d'un texte : on détermine la nature grammaticale de tous les mots (par exemple de façon automatique avec TreeTagger), et on utilise cette information comme base pour déterminer si le mot peut être considéré comme représentant une idée ou non. En fait, les mots comptant pour une idée sont principalement les verbes, les adverbes et adjectifs, ainsi que les prépositions et conjonctions. Des règles linguistiques permettent d'ajuster ce principe de base et de traiter certains cas particuliers, éventuellement spécifiques au discours oral.

Nous avons donc codé dans un logiciel libre en Python, Densidées, ce principe de base et quelques premières règles grammaticales, qui nous ont permis d'obtenir assez rapidement une approximation intéressante des valeurs de densité des idées trouvées manuellement. Et par un prompt renfort de deux étudiantes lyonnaises en orthophonie, Constance et Elsa, un joli corpus étiqueté manuellement (le rêve de tout TALeux !) a été constitué, permettant d'améliorer le logiciel en comparant les résultats de l'analyse automatique et manuelle, pour trouver les nouvelles règles à ajouter pour réduire le taux d'erreur. Nous arrivons finalement à de très bons résultats, comme détaillé dans cet article à RECITAL 2010 et montré dans le graphique de corrélation entre analyse manuelle et automatique ci-contre.

Deuxième étape, vérifier que la densité des idées, en particulier celle calculée par Densidées, est effectivement plus faible chez les malades d'Alzheimer. Les résultats du mémoire d'Elsa et Constance pour un groupe de 22 personnes (dont 11 malades), sont confirmés dans notre poster à CEDIL 2010 pour un groupe de 40 personnes.

Hyeran va poursuivre la constitution de son corpus, et elle a d'autres pistes de critères linguistiques pouvant jouer le rôle d'indices de la maladie d'Alzheimer, mais la partie de son travail à laquelle j'ai eu la chance de participer a précisé de manière très concrète l'image que j'esquissais dans le billet précédent de recherches en sciences humaines d'une grande qualité malgré la faiblesse, ou l'absence, des financements. La motivation et le travail d'une doctorante, en lien avec une équipe d'étudiantes énergiques et passionnées, et un bon encadrement de thèse, sont visiblement des clés pour compenser la faiblesse des moyens pour la recherche en sciences humaines. Mais jusqu'à quand si les financements n'arrivent pas à la suite des bons résultats obtenus ? Le minimum vital est de pouvoir les présenter, afin de recueillir l'avis et les suggestions de la communauté scientifique. Pour l'article de RECITAL (à Montréal cette année avec TALN), nous remercions le laboratoire Praxiling et l'école doctorale 58, ainsi que l'ATALA et l'école doctorale I2S pour leur soutien financier.

A très vite pour évoquer un autre logiciel libre et une autre collaboration à l'interface avec les sciences humaines...