8 décembre 2008

Les sections d'un article scientifique (1/2)

J'utilise fréquemment le nombre de réponses Google : le plus souvent pour l'orthographe, mais aussi pour diverses expérimentations en soumettant un nombre massif de requêtes, comme dans mon billet précédent (ou tous ceux tagués par mon utilitaire qui permet de le faire, FuryPopularity). Même s'ils ne sont pas toujours fiables - j'y reviendrai au prochain billet de la série - ils sont le plus souvent assez parlants, comme peuvent l'illustrer ces dessins de XKCD.

Aujourd'hui, ils vont nous servir à visualiser le découpage traditionnel d'un article scientifique en sections. Le point clé est que l'on y annonce généralement son plan en introduction, en utilisant, de façon parfois un peu pesante, la formulation "In Section [X], we [VERB]", comme dans ce fameux article qui promettait : "In Section 7, we discuss how to draw a rooted split network" (comment ça j'ai pas le droit de faire ma pub sur mon blog ?).

Alors que fait-on quand on a une liste d'un peu plus de 3000 verbes anglais depuis cette expérience, et un Fury Popularity fonctionnel ? Eh bien on profite de ses nuits pour envoyer tout ça automatiquement à Google, en faisant varier le numéro de section X de 1 à 10... Par manque de temps, je repousse au prochain billet sur le sujet mes arguments sur le fait que ça a du sens, bien que tous les articles n'utilisent pas cette formulation en introduction, et je passe directement à la méthodologie. Tout d'abord, récupération des nombres Google :

  • pour 3656 verbes anglais (cette liste de verbes était donnée à la fin de ce billet) pour X variant de 1 à 3.
  • pour "seulement" les 940 verbes qui ont eu des résultats à cette étape précédente, pour X variant de 4 à 10.
Les données sont alors stockées dans ce fichier tableur, et normalisées :
  • en colonne tout d'abord, divisées par le nombre total de résultats à X fixé, ce qui fournit pour chaque verbe un pourcentage d'apparition,
  • en ligne ensuite : pour chaque verbe, soustraction de la moyenne de ses pourcentages d'apparition, puis division par l'écart type.
Avec les données ainsi obtenues, en gardant uniquement les verbes donnant plus de 5000 résultats au total, et en retirant les auxiliaires are, have et will, on obtient ce résultat :

Héhé, surpris, hein ? Pas de diagramme, pas d'arbre, pas du nuage ! Eh oui, après un module de biostats qui m'a initié à R, et avant de plonger dans les subtilités de l'utilisation de l'analyse factorielle en lexicométrie, cet essai de visualisation de données par analyse en composantes principales donne un résultat tout à fait convenable. Il permet en effet de représenter les données en deux dimensions, au lieu des 6 initiales (1 par section), de la meilleure façon possible.

Le code R (le logiciel est téléchargeable gratuitement ici) est le suivant :
donneesSections <- read.csv ("http://philippe.gambette.free.fr/Blog/200812Publis/ResultsR.csv", dec=",", sep=";",row.names=1)
mesures<-donneesSections[, c("Section1","Section2","Section3","Section4","Section5","Section6")]
acp<-princomp(mesures)
biplot(acp,cex=0.5)
acp<-princomp(mesures,cor=TRUE)
biplot(acp,cex=0.5)


Alors n'étant encore pas très familier avec la technique, j'ai quelques questions théoriques et pratiques, que j'espère bien résoudre bientôt (avec l'aide de mes lecteurs ?) :
  • quelles sont les différences, fondamentales et pratiques, entre l'ACP qui fonctionne sur la matrice de corrélation (qui correspond à l'option cor=TRUE) et la matrice de covariance ?
  • existe-t-il des options dans R pour choisir les dimensions du dessin ?
  • existe-t-il des logiciels ou applications web qui fournissent les résultats d'une ACP dans un format plus pratique, permettant de choisir la taille des étiquettes, ou bien de visualiser deux étiquettes superposées
En ce qui concerne l'analyse de cette image, je détaillerai certainement plus les conclusions au prochain billet (en vérifiant notamment si les règles théoriques de rédaction d'un article scientifique trouvables ici ou semblent vérifiées), mais voici quelques premières remarques :
  • les sections 5 et 6, et surtout 1 et 2 semblent avoir des rôles très proches. Ceci peut s'expliquer pour 1 et 2 par le fait que le plan peut se trouver soit dans le résumé, hors section, soit dans la section 1 : ainsi, la partie introductive, à laquelle les verbes begin, introduce, start, recall, formulate sont associés, se trouve en section 1 ou 2, tout comme la partie d'état de l'art : review, survey, collect.
  • Pour les sections 5 et 6, c'est la longueur variable des articles qui fait que les verbes indiquant la validation finale avec compare, evaluate, perform, explore, ou le bilan, summarize, conclude, ont des profils différenciant peu les sections 5 et 6.
  • Les sections 3 et 4 sont visiblement dédiées aux gros morceaux : assume, investigate, describe, construct, calculate, determine, demonstrate ; discuss, analyze et extend, apparaissent alors qu'on se rapproche des sections finales.
A bientôt pour la fin de cette discussion, et le retour de quelques nuages ! Il y aura certainement un billet spécial XKCD entre les deux pour patienter.

6 commentaires:

Julien a dit…

Pour pratiquer des ACP et autres analyses factorielles, je vous suggère d'utiliser le package R FactoMineR (http://factominer.free.fr/) et son module de visualisation des résultats (en beta) dynGraph.
C'est un petit peu plus agréable à utiliser que ce que propose R de base... :)

Philippe a dit…

Merci pour le conseil, je l'ai installé, mais quand j'exécute leur exemple, à la ligne "PCA(decathlon, quanti.sup = 11:12, quali.sup=13)", on me répond "ERREUR: premier argument incorrect".

Julien a dit…

Hmm hmmmm étrange !
L'installation s'est peut-être mal passée ?
Essayez les exemples des pages de manuel (en tapant "?PCA", "?MCA" ou "?MFA" par exemple).

Anonyme a dit…

Génial la représentation fournie dans le lien "l'utilisation de l'analyse factorielle en lexicométrie" avec la sphère en référence. A partir de quel soft cela a-t-il été produit ?

Je confirme que factomineR fonctionne très bien et dans des conditions plus larges que le soft standard de R. Pour info les créateurs de l'université de Rennes ont commis un petit bouquin assez intéressant pour une première prise en main. Je partage l'appréciation sur ses sorties graphiques qui sont affligeantes. Perso je récupère l'ensemble sous excel je n'ai pas trouvé mieux dans le libre :-( et encore j'ai été obligé de développer une macro pour affecter les libellés aux points.

Anonyme a dit…

Hé PHILIPPE tu as dit "A bientôt pour la fin de cette discussion, et le retour de quelques nuages !".

C'est quand bientôt ? je suis impatient de profiter de tes progrès ;-)

J'en profite pour te remercier pour ton blog. C'est la première fois que j'en rencontre un de cette qualité.

Philippe a dit…

L'image à l'intérieur de l'article a été produite par le logiciel Astartex, créé justement par un des auteurs de l'article : Jean-Marie Viprey, du laboratoire Laseldi de Besançon. Un prototype est disponible sur sa page web.

Quant à la suite de ce billet, je ne l'oublie pas. Il fait partie de ma liste d'une dizaine de billets en préparation (et j'ai déjà un billet qui attend sa suite daté du 20 mai 2007). Chacun étant généralement lié à plusieurs heures de travail, ou à la réalisation d'un programme, il faut effectivement être patient ;)...