31 janvier 2010

Prénom et profession

Ca fait un certain temps que traînent sur mon ordinateur les données des prénoms et professions de plus de 100 000 signataires d'une pétition que j'évoquais dans des billets précédents. Alors que je me suis récemment plongé dans la passionnante Initiation aux méthodes de la statistique linguistique de Charles Muller (sur un conseil avisé) pour un autre projet dont je parlerai bientôt ici, j'en profite pour appliquer ce que je viens d'y apprendre sur les écarts réduits. Les commentaires de vrais statisticiens sont les bienvenus...


J'ai donc à disposition un tableau de 294 prénoms qui apparaissent plus de 40 fois chacun parmi les signataires, et pour chacun la répartition en 15 professions (étudiant, informaticien, ingénieur, employé, chercheur, auteur, cadre, enseignant, lycéen, retraité, profession, libérale, chômeur, fonctionnaire, bibliothécaire, journaliste). J'aimerais alors pour chaque profession savoir quels prénoms sont sous-représentés et sur-représentés. Une première approche consisterait à calculer simplement le pourcentage de représentation de chaque prénom. Par exemple, sur 1304 Philippe, il y a 33 étudiants (soit 2,5%), alors que sur 103312 signataires, il y a 14881 étudiants (soit 14,4%). Ainsi, parmi les Philippe, les étudiants seraient sous-représentés ?

Malheureusement, ce raisonnement ne conduit qu'à une intuition et n'est pas encore confirmé statistiquement. Pour évaluer si cette sous-représentation est statistiquement significative, il faut calculer les écarts réduits, et pour cela abandonner les pourcentages pour revenir aux valeurs théoriques et valeurs observées. Comme il y a 14881 étudiants, 1304 Philippe et un total de 103312 personnes, le nombre théorique d'étudiants qui s'appellent Philippe est 14881/103312*1304 = 188 (environ). Le critère pour évaluer si cet écart absolu de -155 (=33-188) est bien significatif s'appelle l'écart réduit, il consiste à diviser l'écart absolu par l'écart-type.

Là, j'ai cru comprendre qu'on prend l'hypothèse d'une loi normale pour calculer l'écart-type théorique comme la racine du nombre d'individus considérés (de Philippe, soit 1304) multiplié par la probabilité qu'ils soient étudiants (soit p=14881/103312=0,144) multiplié par la probabilité qu'ils ne le soient pas (1-0,144=0,856). Pour l'instant tout ça m'a l'air un peu magique, mais ça semble avoir un rapport avec le théorème de Moivre-Laplace (qui demande que n soit suffisamment grand, d'où ma restriction initiale à des prénoms représentés plus de 40 fois, j'espère que c'est suffisant).

Enfin bref, on trouve donc un écart réduit de -12,21 ce qui est statistiquement significatif, car la probabilité qu'un tirage au hasard (d'étudiants tirés à probabilité 0,144 avec 1304 tirages) conduise à un tel écart type est tellement faible qu'elle n'est même pas dans la table de référence des écarts réduits du bouquin de Muller page 175 (qui s'arrête à un écart réduit de 4,5 qui est atteint ou dépassé avec proba 0,000006. Cette opération peut être répétée pour tous les prénoms et conduit à ce fichier tableur OpenOffice (les écarts réduits sont sur la feuille 2, si vous avez la chance de trouver votre prénom parmi les 294 sélectionnés...), et en particulier cet histogramme des écarts réduits pour Philippe (on considère que les écarts réduits sont significatifs en dessous de -2 et au-dessus de 2) :
On peut aussi faire un Top 10 des prénoms significativement sur-représentés dans diverses professions, en appliquant des calculs similaires (en feuille 3 du document tableur). Je les dispose ci-dessous sous forme de nuages construits avec TagCloudBuilder (il y a visiblement encore des progrès à faire vis à vis de la parité, regardez les nuages des ingénieurs, chercheurs, cadres, et employés... Notez aussi les excès de Jean-Quelquechose chez les ingénieurs et les cadres.).
Etudiants :
Informaticiens :
Ingénieurs :
Employés :
Chercheurs :
Cadres :
Enseignants:
Lycéens :
Retraités :
Professions libérales :
Chômeurs :
Fonctionnaires :
Bibliothécaires :
Journalistes :
A vous de les utiliser pour nommer vos enfants (je sens que je vais me reconvertir en consultant en prénoms). Toutefois, pas de chance, vous noterez qu'aucun prénom n'est significativement sous-représenté dans le groupe des chômeurs...

Edit du 2 février : pour amoindrir l'effet de l'âge, Vincent me propose de refaire les calculs en enlevant des données les étudiants, lycées et retraités. Résultats ce soir ou demain soir... Mise à jour du 4 février : en fait ça méritera un billet séparé un peu plus long, car ces nouveaux résultats m'inspirent de nouvelles hypothèses et tests, pour les impatients les nouveaux nuages se trouvent ici et les données ...

Des lectures sur le même thème :

4 commentaires:

PAC a dit…

Le gros problème c'est que tu ne contrôles pas par la date de naissance. S'il y a peu de Philippe parmi les étudiants c'est parce que c'était un prénom à la mode dans les années 60 (http://www.meilleursprenoms.com/stats/histogram.php3?recherche=philippe&image.x=0&image.y=0). De même s'il y a beaucoup d'André parmi les retraités parce que les retraités sont agés (http://www.meilleursprenoms.com/stats/histogram.php3?recherche=andr%E9&image.x=0&image.y=0) et peu d'Alain chez les informaticiens parce que les informaticiens sont jeunes (je suppose) et que les Alain sont vieux (http://www.meilleursprenoms.com/stats/histogram.php3?recherche=alain&image.x=0&image.y=0).

Les nuages de tag ne sont jamais que des tableaux de fréquences. Est-ce qu'il ne serait pas possible d'indiquer en survolant le nuage de tags, la fréquence du prénom. Je ne trouve pas que cette visualisation sous forme de nuage de tags soit si bien que cela. De temps en temps je me dis qu'un bon vieux tableaux de fréquence trié intelligemment ferait aussi bien l'affaire.

Philippe a dit…

Bien sûr la date de naissance a une importance, et il est clair que les "métiers" d'étudiant, lycéen et retraité correspondent moins à des métiers qu'à des classes d'âge, en fait. Effectivement ce panorama des prénoms est associé à une date, celle de la récupération des données : décembre 2007.

Pour les nuages de tag effectivement la version statique ne permet pas ce que tu proposes (il faudra que je pense à l'ajouter à la version "dynamique" en HTML produite par TagCloudBuilder). En revanche, si tu veux voir le tableau trié, c'est pour ça que j'ai mis en ligne le document tableur que je cite dans l'article (je prends toujours garde à donner le maximum d'infos dans mes billets, pour que les lecteurs puissent les fouiller en profondeur s'ils en ont envie) : pour chaque métier, il suffit de trier la colonne correspondante dans la feuille 3 de façon décroissante ;).

Philippe a dit…

Pardon pour la date de récupération des données, il s'agit en fait d'octobre 2007.

Et pour les fainéants qui n'ont pas envie de chercher le lien vers le tableur dans le billet sur les prénoms, le voilà.

Prénoms Arabes a dit…

Merci pour ce blog