Suite au commentaire de Jean-Edouard (ici), et à la réponse que j'ai tenté de faire, j'ai voulu faire un tout petit complément sur le paradoxe de Simpson, que j'aime interpréter comme un problème de multicolinéarité (et de variables explicatives corrélées, et qui ne peuvent donc être traitées indépendamment*). Prenons un exemple simple pour comprendre le problème. On a deux hôpitaux dans une ville; avec les statistiques suivantes,
hôpital total survivantsdécèstaux de
survie

hopital A 1000 80020080%
hopital B 1000 90010090% x

Le jour où on tombe malade, on a tout intérêt à aller dans l'hôpital B, non ?
En fait, on a un peu plus d'information. Certaines personnes vont à l'hôpital pour un contrôle et peuvent être considérées comme "en bonne santé". D'autres non. On a en fait les statistiques suivante. Pour les personnes "saines",

hôpital total survivantsdécèstaux de
survie

hopital A 600 5901098% x
hopital B 900 8703097% 

Et pour les personnes "malades" (on suppose vraiment que le critère est identique pour les deux hopitaux)

hôpital total survivantsdécèstaux de
survie

hopital A 400 21019053% x
hopital B 100 307030% 

Autrement dit, peu importe son état de santé, on a toujours intérêt à choisir l'hopital A. D'où le paradoxe.
En fait, la réponse est simple: l'état de santé et le choix de l'hopital ne sont pas du tout des variables indépendantes, loin de là ! Manifestement l'hopital B accepte très peu de personnes malades, afin précisément de faire gonfler artificiellement les statistiques, mais manifestement, l'hopital A est bien meilleur !
Ce paradoxe est très connu, et on remonte souvent à des admissions dans des master à Berkley pour expliquer l'idée de la discrimination positive. Considérons 4 master (notés A, B, C et D), et regardons le taux d'admission en fonction du sexe.

sexe postulants admistaux d'
admission

Hommes 2074 101848% x
Fennes 849 26130% 

Là encore, un raisonnement un peu simpliste pousserait à dire que les filles sont peu admises en Master, il faudrait alors les soutenir en mettant en place des quotas, etc. Bref, mettre en place une espèce de discrimination positive  pour aider les filles à entrer. Mais si on distingue suivant les Master, on a les résultats suivants. Pour les Hommes,

master postulants admistaux d'
admission

Master A 825 51162% 
Master B 560 35363% 
Master C41713833%
Master D272166% 

et pour les Femmes

master postulants admistaux d'
admission

Master A 108 8982% x
Master B 25 1768% x
Master C37513135% x
Master D341247% x

Damned, en fait ce sont les hommes qu'il faut soutenir par des mesures de discrimination positives ! Et là encore, la raison est la même: les variables sexe et master ne sont pas indépendantes. En particulier, les filles déposent peu de dossiers dans les master faciles, mais déposent beaucoup de dossiers dans les master les plus sélectif !
Et plein d'exemples existent dans la littérature, en particulier sur les tests médicaux et les procédures de tests. Moralité, il faut vraiment faire attention aux variables cachées et aux corrélations qui existent entre les variables.

* C'est l'hypothèse fondamentale quand on interprète une valeur en terme d'élasticité, avec le fameux "toutes choses étant égales par ailleurs": on ne peut souvent pas faire varier une variable en supposant que les autres ne bougent pas !