Il ne faut jamais croire les policiers, et les élèves
By arthur charpentier on Sunday, May 29 2011, 10:03 - Statistics - Permalink
ou de la difficulté d'estimer une moyenne.... En statistique, la
moyenne est l'outil le plus simple et le plus universel qui soit.
Pourtant, estimer une moyenne peut conduire à des situations un peu
paradoxales. Supposons que l'on souhaite connaître la vitesse moyenne
des véhicules se rendant de Montréal à Québec (on va supposer que les
conducteurs conduisent à une vitesse constante sur tout le trajet pour
simplifier le problème). Rien de plus simple me diriez-vous ! Il suffit
de mettre un radar n'importe où sur le trajet, pendant une heure ou
deux, puis de mesurer la vitesse de toutes les voitures qui passent,
puis de faire la moyenne...
Est-ce
vraiment si simple que ça ? Pour illustrer le problème, supposons qu'il
y a deux types de voitures, les rapides, et les lentes (formellement on
mettra une distribution sur la vitesse de véhicule), et supposons
qu'une voiture de chaque type part, de manière alternée, toutes les
minutes.
Sur la petite animation ci-dessous, on voit que le nombre de voitures
sportives qui passe devant le radar n'est pas représentatif du nombre
de voitures sportives globalement. Autrement dit, il y a de fortes chances pour que la vitesse moyenne soit sur-estimée car on a un biais de sélection important.

En fait, ce paradoxe est relativement bien connu... Un autre exemple est lui suivant: on essaye de connaître le nombre d'élèves par classes. Pour ça on va dans la cours de récréation et on fait un sondage. On demande aux enfants interrogés combien ils sont par classe.
Par exemple sur l'exemple ci-dessous, on a trois classes: 2 avec 12 élèves, et un 1 avec 24. En moyenne cela fait 16 éleves par classes.


En fait, ce problème fait penser au fait est que le ratio moyen n'est pas la moyenne des ratios (qui avait été mentionné ici).
Essayons de formaliser ça. Faisons le sur l'exemple de la classe car c'est plus simple qu'introduire des processus temporels (mais l'idée et la même).
Supposons que le nombre d’élèves par classe soit une variable aléatoire
, de loi
au sens où

d'élèves dans une classe
, tirée au hasard, et en notant que, par la loi des grands nombres,
le nombre d'élèves dans la classe de l'élève
. Soit
la loi de
, au sens où



. Aussi 
On notera qu'une autre manière de montrer ce résultat est que l'on peut obtenir facilement


.
Et de la même manière que la moyenne obtenue en questionnant les élèves excédera la moyenne réelle (en moyenne, car c'est un biais que l'on mesure ici), la vitesse moyenne calculée en mettant un radar et en prenant la vitesse moyenne des véhicules va toujours surestimer la vitesse moyenne réelle.







Comments
Bonjour Arthur,
ll y a, sur votre blog, beaucoup de choses passionnantes. Il faut, souvent, des pré-requis importants en statistiques. J'aimerais savoir quels sont pour vous le/les meilleurs livres pour aborder ce domaine.
merci pour votre réponse.
REPONSE: ouh là, il faut un billet entier pour répondre à ça...