ou de la difficulté d'estimer une moyenne.... En statistique, la moyenne est l'outil le plus simple et le plus universel qui soit. Pourtant, estimer une moyenne peut conduire à des situations un peu paradoxales. Supposons que l'on souhaite connaître la vitesse moyenne des véhicules se rendant de Montréal à Québec (on va supposer que les conducteurs conduisent à une vitesse constante sur tout le trajet pour simplifier le problème). Rien de plus simple me diriez-vous ! Il suffit de mettre un radar n'importe où sur le trajet, pendant une heure ou deux, puis de mesurer la vitesse de toutes les voitures qui passent, puis de faire la moyenne...
Est-ce vraiment si simple que ça ? Pour illustrer le problème, supposons qu'il y a deux types de voitures, les rapides, et les lentes (formellement on mettra une distribution sur la vitesse de véhicule), et supposons qu'une voiture de chaque type part, de manière alternée, toutes les minutes.
Sur la petite animation ci-dessous, on voit que le nombre de voitures sportives qui passe devant le radar n'est pas représentatif du nombre de voitures sportives globalement. Autrement dit, il y a de fortes chances pour que la vitesse moyenne soit sur-estimée car on a un biais de sélection important.

http://freakonometrics.blog.free.fr/public/perso3/animationradar.gif
En fait, si les voitures rapides vont deux fois plus vite que les voitures lentes, il en passera deux fois plus dans un même intervalle de temps, si les proportions (réelles) sont 50-50. Et bien que la proportion des voitures présentes soit 50-50, on voit qu'il y a trop de voitures rapides, i.e. les policiers vont sur-estimer la vitesse moyenne des véhicules qui circulent à ce moment là.
En fait, ce paradoxe est relativement bien connu... Un autre exemple est lui suivant: on essaye de connaître le nombre d'élèves par classes. Pour ça on va dans la cours de récréation et on fait un sondage. On demande aux enfants interrogés combien ils sont par classe.
Par exemple sur l'exemple ci-dessous, on a trois classes: 2 avec 12 élèves, et un 1 avec 24. En moyenne cela fait 16 éleves par classes.

Faisons un sondage rapide en interrogeant 6 élèves: 3 sont dans une classe de 24, et 3 dans une classes de 12. En moyenne, cela fait 18 élèves par classe.

Là encore on surestime la moyenne à cause d'une sur-représentation de la grande classe dans la cour de récréation (de la même façon que nous avions trop de voiture rapide.... car elles vont plus vite !) Moralité ? Ça ne sert à rien d'interroger les élèves pour savoir combien ils sont par classe... même s'ils sont de bonne foi, la moyenne du sondage (même si on fait une questionnaire exhaustif d'ailleurs) ne donnera par la taille moyenne des classes.
En fait, ce problème fait penser au fait est que le ratio moyen n'est pas la moyenne des ratios (qui avait été mentionné ici).
Essayons de formaliser ça. Faisons le sur l'exemple de la classe car c'est plus simple qu'introduire des processus temporels (mais l'idée et la même).
Supposons que le nombre d’élèves par classe soit une variable aléatoire http://freakonometrics.blog.free.fr/public/perso3/police-01.gif, de loi http://freakonometrics.blog.free.fr/public/perso3/police-02.gif au sens où
http://freakonometrics.blog.free.fr/public/perso3/police-03.gif
On cherche ici à connaître le nombre moyen d'élèves par classes, i.e.
http://freakonometrics.blog.free.fr/public/perso3/police-04.gif
On peut estimer cette quantité en utilisant le nombre http://freakonometrics.blog.free.fr/public/perso3/police-05.gif d'élèves dans une classe http://freakonometrics.blog.free.fr/public/perso3/police-07.gif, tirée au hasard, et en notant que, par la loi des grands nombres,
http://freakonometrics.blog.free.fr/public/perso3/police-06.gif
Or avec la méthode proposée, on ne tire pas une classe au hasard, mais un élève. Soit http://freakonometrics.blog.free.fr/public/perso3/police-08.gif le nombre d'élèves dans la classe de l'élève http://freakonometrics.blog.free.fr/public/perso3/police-09.gif. Soit http://freakonometrics.blog.free.fr/public/perso3/police-10.gif la loi de http://freakonometrics.blog.free.fr/public/perso3/police-08.gif, au sens où
http://freakonometrics.blog.free.fr/public/perso3/police-11.gif
Or si on raisonne rapidement, sur un nombre infini de classe, une proportion p(k) est composée de k élèves, donc
http://freakonometrics.blog.free.fr/public/perso3/police-12.gif
et en normalisant
http://freakonometrics.blog.free.fr/public/perso3/police-13.gif
On en déduit alors que
http://freakonometrics.blog.free.fr/public/perso3/police-14.gif
http://freakonometrics.blog.free.fr/public/perso3/police-15.gif. Aussi
http://freakonometrics.blog.free.fr/public/perso3/police-16.gif
Autrement dit, cette méthode là va toujours surestimer le nombre moyen d'élèves par classes,
On notera qu'une autre manière de montrer ce résultat est que l'on peut obtenir facilement
http://freakonometrics.blog.free.fr/public/perso3/police-17.gif
Autrement dit
http://freakonometrics.blog.free.fr/public/perso3/police-18.gif
Or pour les valeurs positive la fonction inverse est strictement convexe, et donc l'inégalité de Jensen garantie que http://freakonometrics.blog.free.fr/public/perso3/police-16.gif.
Mais on a plus ! En fait
http://freakonometrics.blog.free.fr/public/perso3/police-19.gif
signifie que le nombre moyen d'élèves par classes est en fait la moyenne harmonique (et non pas arithmétique comme d'habitude) du sondage fait sur les élèves.
Et de la même manière que la moyenne obtenue en questionnant les élèves excédera la moyenne réelle (en moyenne, car c'est un biais que l'on mesure ici), la vitesse moyenne calculée en mettant un radar et en prenant la vitesse moyenne des véhicules va toujours surestimer la vitesse moyenne réelle.