Paradoxe de Simpson et corrélations entre variables explicatives
By arthur charpentier on Friday, June 19 2009, 14:38 - mathematics - Permalink
Suite au commentaire de Jean-Edouard (ici), et à la réponse que j'ai tenté de faire, j'ai voulu faire un tout petit complément sur le paradoxe de Simpson,
que j'aime interpréter comme un problème de multicolinéarité (et de
variables explicatives corrélées, et qui ne peuvent donc être traitées indépendamment*). Prenons
un exemple simple pour comprendre le problème. On a deux hôpitaux dans
une ville; avec les statistiques suivantes,| hôpital | total | survivants | décès | taux de survie | |
| hopital A | 1000 | 800 | 200 | 80% | |
| hopital B | 1000 | 900 | 100 | 90% | x |
Le jour où on tombe malade, on a tout intérêt à aller dans l'hôpital B, non ?
En fait, on a un peu plus d'information. Certaines personnes vont à l'hôpital pour un contrôle et peuvent être considérées comme "en bonne santé". D'autres non. On a en fait les statistiques suivante. Pour les personnes "saines",
| hôpital | total | survivants | décès | taux de survie | |
| hopital A | 600 | 590 | 10 | 98% | x |
| hopital B | 900 | 870 | 30 | 97% |
Et pour les personnes "malades" (on suppose vraiment que le critère est identique pour les deux hopitaux)
| hôpital | total | survivants | décès | taux de survie | |
| hopital A | 400 | 210 | 190 | 53% | x |
| hopital B | 100 | 30 | 70 | 30% |
Autrement dit, peu importe son état de santé, on a toujours intérêt à choisir l'hopital A. D'où le paradoxe.
En fait, la réponse est simple: l'état de santé et le choix de l'hopital ne sont pas du tout des variables indépendantes, loin de là ! Manifestement l'hopital B accepte très peu de personnes malades, afin précisément de faire gonfler artificiellement les statistiques, mais manifestement, l'hopital A est bien meilleur !
Ce paradoxe est très connu, et on remonte souvent à des admissions dans des master à Berkley pour expliquer l'idée de la discrimination positive. Considérons 4 master (notés A, B, C et D), et regardons le taux d'admission en fonction du sexe.
| sexe | postulants | admis | taux d' admission | |
| Hommes | 2074 | 1018 | 48% | x |
| Fennes | 849 | 261 | 30% |
Là encore, un raisonnement un peu simpliste pousserait à dire que les filles sont peu admises en Master, il faudrait alors les soutenir en mettant en place des quotas, etc. Bref, mettre en place une espèce de discrimination positive pour aider les filles à entrer. Mais si on distingue suivant les Master, on a les résultats suivants. Pour les Hommes,
| master | postulants | admis | taux d' admission | |
| Master A | 825 | 511 | 62% | |
| Master B | 560 | 353 | 63% | |
| Master C | 417 | 138 | 33% | |
| Master D | 272 | 16 | 6% |
et pour les Femmes,
| master | postulants | admis | taux d' admission | |
| Master A | 108 | 89 | 82% | x |
| Master B | 25 | 17 | 68% | x |
| Master C | 375 | 131 | 35% | x |
| Master D | 341 | 24 | 7% | x |
Damned, en fait ce sont les hommes qu'il faut soutenir par des mesures de discrimination positives ! Et là encore, la raison est la même: les variables sexe et master ne sont pas indépendantes. En particulier, les filles déposent peu de dossiers dans les master faciles, mais déposent beaucoup de dossiers dans les master les plus sélectif !
Et plein d'exemples existent dans la littérature, en particulier sur les tests médicaux et les procédures de tests. Moralité, il faut vraiment faire attention aux variables cachées et aux corrélations qui existent entre les variables.
* C'est l'hypothèse fondamentale quand on interprète une valeur en terme d'élasticité, avec le fameux "toutes choses étant égales par ailleurs": on ne peut souvent pas faire varier une variable en supposant que les autres ne bougent pas !






