Ce matin, Valérie m'a posé par mail une "question naïve" (ce sont ses termes). Et j'aime les "questions naïves" ! Tout d'abord parce que les personnes qui les posent montrent ainsi qu'elles ont vraiment envie de comprendre ! Et il n'y a rien de mieux pour flatter l'égo d'un enseignant que de lui demander d'expliquer des choses ! En plus, ce sont souvent des questions simples, mais qui traduisent derrières des choses plus fondamentales. Et donc que l'on peut souvent interpréter de manière plus complexe. 

Mais je m’égare. La question portait sur les liens entre "normalité des résidus" et "normalité de la variable explicative dans le modèle linéaire". Selon ses termes, "les hypothèses fondamentales sur les résidus peuvent être transférées sur la variable à expliquer" en particulier sur la normalité. Par exemple, Valérie voulait savoir si avoir des résidus Gaussiens rendait la variable explicative Gaussienne.

Pour faire les choses dans l'ordre, effectivement, il y a des liens très étroits entre les résidus et la variable à expliquer. C'est ce que dit Frees (2009) dans deux tableaux, lorsqu'il propose des hypothèses sur les résidus

et en face, des hypothèses sur la variable explicative,

avec quelque part la phrase suivante

Ça semble bien, et j'ai dit des choses proches en cours. Sauf que je ne suis pas (vraiment) d'accord avec l'expression

http://freakonometrics.blog.free.fr/public/perso5/Capture_d_ecran_2012-03-16_a_15.20.14.png

(ni vraiment avec d'autres ponts dans cette seconde table, mais la question de Valérie était sur la normalité). J'aurais plutôt envie de dire que c'est conditionnellement aux variables explicatives que la variable à expliquer est Gaussienne. Plus précisément, je traduirais la première hypothèse sous la forme

la troisième sous la forme

et enfin la cinquième sous la forme

Oui mais comme le note la seconde hypothèse, ça veut dire quoi de conditionner par une constante ? J'avoue que j'ai encore du mal à bien voir comment formaliser ce point, mais j'ai toujours du mal ce qui pourrait légitimer

http://freakonometrics.blog.free.fr/public/perso5/Capture_d_ecran_2012-03-16_a_15.20.14.png

Pour illustrer mon propos, construisons un modèle très simple, où la variable explicative (on va en prendre une seule) prend deux modalités,

n=1000
X=sample(c(0,1,1),size=n,replace=TRUE)
E=rnorm(n)
Y=-1+5*X+E

Les résidus sont Gaussien (je les ai choisis comme tels),

reg=lm(Y~X)
hist(residuals(reg),probability=TRUE,col="light blue") u=seq(-5,10,by=.025) v=dnorm(u,0,1) lines(u,v,lwd=2,col="red")

Par contre, dans ce cas, la loi de  n'est pas une loi Gaussienne: c'est un mélange de lois Gaussiennes,

hist(Y,probability=TRUE,col="light green")
u=seq(-5,10,by=.025)
v=dnorm(u,-1,1)/3+2*dnorm(u,5-1,1)/3
lines(u,v,lwd=2,col="red")

Bref, dire que la variable à expliquer est Gaussienne est une chose à éviter (ça restera vrai d'ailleurs avec les GLM, où, par exemple, dans une régression de Poisson: les comptages ne suivent pas des lois de Poisson). La loi conditionnelle en revanche est Gaussienne. Sauf qu'avec cette seconde hypothèse, il devient délicat de conditionner... A suivre probablement dans les commentaires si certains souhaitent réagir.