L'actualité m'a incité à un petit rappel sur la nature des sondages. Je leur ai consacré par le passé quelques billets plus fournis (sur le biais systémique dans les sondages politiques, sur les sondages dans le débat public, et pour Emmanuel, 9 ans, celui-ci).


Pourquoi les instituts ne publient-ils pas la marge d'erreur de leurs sondages ?

Ipsos répond en substance : "1) la technique des quotas dispense de tirer les répondants au hasard (sondage aléatoire), 2) cette technique ne permet pas de calculer la marge d'erreur, mais celle-ci est plus faible que celle des sondages aléatoires".

Cette réponse, bien que très partagée dans la profession, est totalement fausse[1].

1) Si les sondages ont une validité, c'est parce que les répondants sont tirés au hasard, fût-ce avec certaines contraintes comme les quotas[2].

2) La façon dont les quotas permettent de réduire la marge d'erreur (améliorer la précision) par rapport à un sondage aléatoire a été quantifiée de façon précise par Jean-Claude Deville, Unité Méthodes de l'INSEE, il y a déjà 20 ans, voir ce résumé[3]. En fait, l'amélioration de précision est modeste : Ipsos et les autres pourraient donc bien publier les marges d'erreur en se basant sur la théorie aléatoire : par exemple, +-4 points pour 500 répondants effectifs à une question.

3) Mais ... la vérité est ailleurs ;-) ...

Quand on a un effectif suffisant (disons 500 et plus[4]) l'erreur de sondage ne vient plus principalement de l'aléa, mais des biais provoqués par la technique de sondage.

Que signifie "biais provoqués par la technique de sondage" ? Cela signifie que, même si on appliquait cette technique à des dizaines de milliers de répondants, ils resteraient différents de la moyenne de la population. Parce qu'ils sont dans l'annuaire, ou parce qu'ils ont internet, ou parce qu'ils ont la bonne volonté et le temps de répondre à des sondages, etc.

À mon avis le principal intérêt des quotas est de réduire certains de ces biais, en forçant les sondeurs à chercher des publics qui ne répondent pas facilement aux sondages.

Plus généralement, les sondeurs connaissent bien sûr l'existence des biais et essayent de les minimiser (sous contrainte de coût et objectif de rentabilité ...!). Mais il est d'autant plus difficile de les chiffrer qu'ils dépendent de chaque question des questionnaires.

"Pour plus d'info", des éléments de théorie des biais sur mon blog professionnel.

Notes

[1] PS. Oups : l'adverbe est de trop. Il y a un peu de vrai sur la fin de la phrase. La suite du billet va le montrer.

[2] Si le sondeur était totalement libre du choix des répondants, il pourrait s'amuser à prendre un jour 1000 bayrouistes et le lendemain 1000 cohn-bendistes. Il serait évidemment impossible d'attribuer la moindre notion de précision aux résultats ainsi produits.

[3] PS : pour les non-matheux, allez directement en haut de la page 4 (paginée 85).

[4] Cela dépend de la question posée, et plus exactement, du niveau d'imprécision avant l'enquête. Disons 500 pour des intentions de vote à une élection qui n'aurait encore fait l'objet d'aucun sondage. Inversement, pour mesurer des variations d'un jour sur l'autre des intentions de vote, il faudrait des échantillons de dizaines de milliers de répondants ... que personne ne peut actuellement financer. Les baromètres existants, sur des échantillons plus petits, sont nécessairement "corrigés" à la main, sinon ils donneraient des fluctuations qui sembleraient aberrantes aux lecteurs ; cf. l'analyse statistique de Tom Roud. Autre solution pour mesurer des variations : un panel (échantillon constant) de milliers de personnes, comme celui d'OpinionWay. Mais avec des facteurs de biais, voir la suite du billet.