2 mai 2007

Bilan des sondages de 2002

Après mon bilan sur les sondages du premier tour, Jean Véronis m'avait demandé si des données similaires existaient pour 2002. Grâce à la base de données du site france-politique.fr, voici des graphiques similaires : nuage de points pour les quatre candidats arrivés en tête, et moyenne des intentions de vote pour l'ensemble des cinq instituts (et document source Excel et OpenOffice).
Pour mémoire, la gifle de Bayrou, c'était le 8 avril, appréciez l'effet mesuré par les sondeurs... Mon rasoir d'Occam à 16 lames m'incite à penser que ça n'est pas étranger à la symétrie des courbes de Chirac et Bayrou dans les derniers jours. Remarquez aussi la jolie symétrie pendant les dernières semaines des courbes de Laguillet et Besancenot. A moins que certains de ces électeurs contestataires soient passés d'un extrême à l'autre... La chute brutale de Pasqua, c'est simplement qu'il a abandonné la course. N'hésitez pas à commenter les chutes et les pics, j'avoue qu'ils ne m'évoquent pas grand chose, moi qui étais encore mineur en ce temps-là... C'est bien dommage puisqu'on y voit des chassés-croisés et des dépassements plus jolis qu'en 2007.

Et pour calculer les distances entre les prévisions et les résultats, prenons la racine de la moyenne des carrés des écarts (entre le dernier sondage publié à J-2 et le résultat final), pour obtenir cet histogramme :
La proximité des erreurs moyennes en 2002 et en 2007 laisse songeur : les sondages n'étaient finalement pas si mauvais en 2002 ? Pas si bons en 2007 ? Ou bien la distance choisie pour le calcul d'erreur n'est pas assez expressive ? Il est vrai qu'on considère un sondage comme réussi plutôt quand l'ordre prédit est le bon, et pas vraiment quand le score des petits candidats est correct à la virgule près... Ca mériterait peut-être que je me renseigne sur les distances d'ordre un de ces jours.

4 commentaires:

Jean Véronis a dit…

Non, ça n'était pas vraiment plus mauvais en 2002, ça confirme mon sentiment. Il y avait sous-estimation de Le Pen de l'ordre de 4 points et sur-estimation du même ordre cette fois-ci...

Le problème c'est que l'impact psychologique a été gigantesque l'autre fois parce que 1) ça a changé l'ordre des finalistes 2) Le Pen n'est pas n'importe qui... Sur ce deuxième point s'il y avait eu erreur cette fois-ci et que les finalistes aient été Sarko/Bayrou le choix aurait été moins violent.

Alors, s'il l'on veut juger de l'impact psychologique de l'erreur, il faut peut être prendre en compte l'ordre non pas des 12 (de tête comme ça qui se rappelle si Laguiller était devant Bové en 2007 ou l'inverse ?), mais des 2 premiers, ou peut-être du top 4...

Philippe a dit…

En effet, comparer simplement les deux permutations n'est pas très expressif.

Et pondérer la moyenne des carrés des écarts en fonction des résultats réels ? C'est "naturel" comme approche ? Ca aurait des biais ?

Philippe a dit…

Après test, ça ne change pas grand chose en fait de calculer une sorte d'"écart type pondéré" (puisque c'est par exemple très sensible aux sous-estimations de Sarkozy en 2007 qui n'étaient pas vraiment ressenties comme importantes).

Anonyme a dit…

Pour comparer les moyennes quadratiques des écarts, il faut sans doute prendre un même nombre de candidats (c'est peut-être le cas ici) ; ajouter des candidats proches de 0 dans les sondages comme dans la réalité ferait baisser "artificiellement" la moyenne.