24 février 2010

Miss Google 2010

Avez-vous déjà invité une brésilienne à votre soirée d'anniversaire ? Paola me raconte que ça suffit à obséder certains jeunes hommes que j'imagine charmés par les sonorités de l'accent brésilien ou de la langue portugaise. A moins que la brésilienne ait un statut particulier dans l'imaginaire collectif français...

C'est l'hypothèse que j'ai testée en allant récupérer le nombre de réponses Google de "belle brésilienne", "jolie brésilienne", et en faisant de même pour un total de 152 nationalités. Je suis fan de ce genre de tests, tout comme xkcd. Et mon petit FuryPopularity fonctionne toujours aussi bien pour effectuer des requêtes Google en masse (contrairement aux requêtes Yahoo, qui a encore changé d'apparence récemment)... en imposant un délai d'une vingtaine de secondes entre deux requêtes, pour éviter d'être détecté comme robot (il y a quelques mois 8 secondes suffisaient, argh).

Les résultats sont dans ce document tableur partagé.

Top 10 des belles : françaises, japonaises, marocaines, brésiliennes, chinoises, roumaines, mexicaines, allemandes, italiennes, américaines.
Top 10 des jolies : françaises, thaïlandaises, russes, indiennes, anglaises, italiennes, américaines, brésiliennes, espagnoles, allemandes.

Première remarque en se penchant un peu plus sur les résultats chiffrés : en les passant au logarithme on obtient une droite, excepté une irrégularité pour les nombres de résultats compris entre 10 et 40. Je ne serais pas étonné que ce soit le palier au delà duquel Google ne fournit pas les nombres exacts de résultats, mais seulement des approximations. En revanche je suis un peu étonné de ne pas tomber sur une loi de puissance comme ça a si souvent été le cas sur ce blog.

Deuxième remarque, il y a une forte corrélation entre les résultats pour "belle" et ceux pour "jolie" (coefficient de corrélation 0.88), qui tendrait à indiquer qu'effectivement ces résultats correspondent à une tendance commune, et qu'on pourrait donc les interpréter comme un inconscient collectif (ou médiatique ?) d'association de la beauté féminine avec certaines nationalités.

Mais j'entends déjà poindre les premières critiques : belles françaises, italiennes, allemandes et américaines... Google Images nous confirme qu'on ne parle pas là que des habitantes de ces pays, mais aussi de leurs voitures. Les allemands ont semble-t-il un peu moins tendance à personnifier leurs voitures (encore que, les motos peut-être un peu), j'ai donc également lancé l'expérience également avec "schöne" et "hübsche", avec les gentilés allemands trouvés ici.

Les résultats sont différents, mais tout de même un peu corrélés aux français (0.72 et 0.75). Voilà le top 10 pour "schön" : sud-africaines, russes, allemandes, italiennes, suédoises, danoises, françaises, indiennes, polonaises, autrichiennes ; et pour "hübsch" : japonaises, brésiliennes, allemandes, polonaises, françaises, chinoises, suédoises, italiennes, américaines, norvégiennes. Avec toujours une bonne corrélation entre les deux listes de résultats (0.86).

Vous remarquez le point à droite, très "schön" mais moyennement "hübsch" ? Il s'agit de l'Afrique du Sud, représentée, pour les allemands, par Charlize Théron qui truste les résultats de la requête. Elle me permet de remarquer une fois de plus combien les nombres de résultats Google sont variables du jour au lendemain, car il y a aujourd'hui beaucoup moins de résultats qu'hier soir quand j'ai récupéré les données.

N'hésitez pas à réutiliser le protocole pour obtenir des résultats plus solides (en réitérant les requêtes sur plusieurs jours pour éviter les résultats fantaisistes parfois fournis par Google), ou bien dans d'autres langues, ou sur les hommes plutôt que les femmes. Et peut-être, en testant assez de langues, pourrez-vous trouver le pays où français et française sont les mieux cotés ! Ou bien tout cela vous donnera envie de voyager un peu dans les pays du milieu et du bas du classement pour constater l'absurdité de ces stéréotypes.