23 avril 2007

Bilan des sondages du premier tour

SarkolèneLe premier tour des élections présidentielles hier a marqué un succès, celui des sondeurs, dont les estimations se sont révélées assez correctes.

Le journal Le Monde proposait une formidable visualisation en Flash de tous les sondages d'intentions de vote pour la présidentielle française parus depuis octobre 2006. Bon, Flash, c'est pas le meilleur format pour récupérer automatiquement les données... mais l'ergonomie permettait quand même une bonne récupération manuelle. Toutes ces données sont donc disponibles dans ce fichier Excel (ou OpenOffice), voici quelques graphiques qu'on peut en extraire et analyser, maintenant que des résultats définitifs ont été publiés.

L'interface du Monde permet de visualiser pour chaque institut l'ensemble des sondages qu'il a publiés : résultat, on obtient des courbes assez irrégulières dont les tendances générales n'apparaissent pas vraiment. Superposer tous les résultats donne un nuage de points beaucoup plus parlant (regardez ce que ça donne pour Bush chez le "Professor Pollkatz") :

Ceci dit, tout ça n'est pas vraiment parlant si on veut visualiser les 12 candidats (ou comparer plusieurs indices), pour cela il vaut mieux effectuer une moyenne, qui aura pour effet de fournir une courbe un peu plus lissée. C'est donc ce que j'ai fait, en calculant pour chaque jour la moyenne obtenue d'après le dernier sondage paru pour chaque institut (ça se fait très bien avec les formules Excel/OpenOffice, et franchement, c'est plus joli/lisible/rigoureux que les courbes du CEVIPOF, non ?).

Présidentielles sondages premier tourEvidemment l'extrémité droite de la courbe correspond aux résultats réels. On remarque que les trois principaux candidats avaient été généralement sous-évalués, et Jean-Marie Le Pen sur-évalué, et supposé assez haut par les électeurs pour motiver un vote "utile" pour Ségolène Royal au premier tour visiblement. La montée de François Bayrou commence à la mi-janvier, mais il décroît un mois avant la date fatidique. Tiens, ce serait intéressant de les superposer précisément avec sa courbe de Presse2007, j'ai l'impression à l'oeil nu que celle des sondages précède légèrement la popularité dans la presse (sachant que la courbe des sondages présente un retard intrinsèque lié au délai de publication, et à une sorte de délai d'harmonisation des 6 instituts puisque c'est une moyenne...).

Au passage, on peut s'amuser des approximations faites par les différents instituts, dont la somme des intentions de votes publiées n'atteint pas toujours 100%. Puisque les nombres ne sont pas "bruts" et sont issus d'une petite cuisine secrète, ils pourraient quand même s'arranger pour les arrondir dans ce sens. Ceci dit, ce cas arrive assez rarement, et ceux qui mettaient à jour le document Flash du site du Monde auraient pu tester à chaque fois la somme, pour vérifier leurs chiffres (qui font apparaître quelques petites erreurs... bah, au moins, ils les corrigent rapidement).

Et maintenant voyons quels instituts avaient le mieux deviné les résultats. Pour ça, on peut calculer une distance (je n'indique pas l'échelle qui ne veut pas dire grand chose, il suffit de retenir que plus c'est haut, plus l'erreur est grande, voir le fichier Excel pour les détails ou essayer d'autres distances) entre les résultats prévus (dernier sondage paru vendredi dernier ou avant), et ceux réellement obtenus : bravo à Ipsos (labosonic m'alerte en commentaires sur le fait qu'il existait des données pour vendredi pour BVA aussi, qui fait alors mieux que Ipsos) ! J'ai ajouté aussi la moyenne des sondages des 6 instituts et le dernier sondage du site Votez2007.com. Avec ce dernier, on se rend compte que publier des sondages sérieux nécessite une expérience que ces professionnels revendiquent et détaillent quand ils sont mis en cause. Il peut sembler contre-intuitif que la moyenne donne de moins bons résultats que 4 sondages parmi 6. En fait on découvre en apprentissage automatique que combiner de bons outils pour en faire un meilleur ne se fait pas vraiment naïvement (par une moyenne), mais avec des techniques un peu sophistiquées.
Voir aussi : une excellente analyse, plus détaillée, des taux d'erreur des sondeurs.

On peut donc faire totalement confiance à nos chers sondeurs pour nous prévoir le résultat du second tour... Ou pas. Vous avez entendu les sondages à la sortie des urnes ? Pour ça il ne fallait pas lire les blogs, mais écouter la radio suisse romande : vers 18h30, on apprenait que Royal et Sarkozy étaient à 26%, Le Pen à 17 et Bayrou à 16 ! Quelques minutes plus tard heureusement, les premières estimations tombaient, un peu plus conformes à la réalité.

La suite ici (bilan des sondages de 2002)...

6 commentaires:

Anonyme a dit…

Bonjour, j'ai fait à peu près les mêmes calculs et je ne trouve pas du tout les mêmes choses.
Je me suis donc penché sur ton fichier Excel et j'ai noté que quatre de nos jeux de données différent à J-2 (ce qui explique tout).

Pour BVA, Ifop et CSA, sauf erreur de ma part, ta source n'était pas à jour des dernières informations parues et de nouvelles études avaient été réalisées (sourcées en lien chez moi).
Pour LH2, a priori, c'est de mon côté qu'il y a souci, je me suis arrêté à la vague 12.
Tu aurais un lien vers un document officiel LH2 de cette vague 13 que je n'aurais pas trouvé sur leur site ?

Philippe a dit…

Non non pour LH2 c'est une erreur de ma part lors de la saisie des données. Merci de me l'avoir fait remarquer, c'est une bonne illustration de l'intérêt de publier ses fichiers source...

Et pour les autres instituts en effet je me suis contenté du récapitulatif fait sur le site du Monde. Dommage qu'ils n'aient pas indiqué ces derniers sondages. On peut aussi s'interroger sur leur article de commentaire sur les sondeurs, qui est plus un catalogue qu'une synthèse (http://www.lemonde.fr/web/article/0,1-0@2-823448,36-900277,0.html). Bravo pour le tien (notamment le graphique des sur-estimations et sous-estimations) !

Anonyme a dit…

"C'est une bonne illustration de l'intérêt de publier ses fichiers source..."

Oui mais mon fichier est crade et je n'y avais pas pensé ... :-S Je ferais, si j'ai le temps ...

Les derniers sondages officiels sont parfois parus très tard (entre 23h30 et minuit pour CSA et Ipsos) et l'interdiction de publication de commentaires sur ceux-ci commençait à 0h00 pile) je pense qu'il y a eu cet obstacle pour le Monde.

Pour le cas CSA, il me semble avoir entendu Roland Cayrol dire lors d'une causerie que le modèle d'évaluation du Front National avait été totalement retravaillé par son institut et n'était plus conforme à ce que proposaient ses concurrents, ça expliquerait sa divergence.

Les "sur-estimations/sous-estimations" sont surtout très intéressantes pour analyser les 4 "gros" candidats sous forme de binômes.
En sommant chaque candidat deux à deux, on peut effectuer le même genre d'opération et visualiser les mêmes choses mais aussi la "cohérence éventuelle" de la paire étudiée via un calcul de type (Maximale - Minimale).

Jean Véronis a dit…

Tiens, ce serait intéressant de les superposer précisément avec sa courbe de Presse2007, j'ai l'impression à l'oeil nu que celle des sondages précède légèrement la popularité dans la presse

-- j'ai fait la même constatation (contrairement aux autres candidats)

(sachant que la courbe des sondages présente un retard intrinsèque lié au délai de publication, et à une sorte de délai d'harmonisation des 6 instituts puisque c'est une moyenne...).

-- mes courbes ont également un retard, puisqu'il s'agit d'une moyenne lissée sur 7 jours, non centrée : au jour j à 24h, j'affiche la moyenne des jours j - 7 à j. Donc, je pense qu'on a un décalage à peu près du même ordre dans les deux cas, non ?

Anonyme a dit…

Bonjour,
j'avais étudié le décalage entre sondages et couverture médias de la candidature Bayrou, média par média (en reprenant le chiffre Presse 2007 pour la presse écrite) et la conclusion était la même : les médias ont suivi les sondages, avec un décalage significatif. J'ai publié le graphique mais je ne le retrouve plus. je vous l'envoie par mail !

Philippe a dit…

Hum, FrédéricLN, ça m'intéresse beaucoup, puisque je suis assez dubitatif sur la façon de décider si une courbe précède ou suit une autre. Regardez par exemple cette image. La courbe bleue précède la noire qui précède la rouge ? En fait la bleue et la rouge sont identiques à étirement vertical près. Bref, en présence seulement d'une montée et pas de plusieurs pics, je vois mal comment conclure, à cause de ce problème de normalisation verticale des courbes...