
Mercredi, pour le dernier cours, nous allons revenir sur l'estimation,
les tests, et plus généralement sur la modélisation statistique. Pour
cela, j'avais pensé travailler sur les nombres de buts marqués, par
match, lors de différentes coupes du monde de soccer (1982, 1998 et
2010). Je ne mets pas l'intégralité du code aujourd'hui, l'idée est
pour l'instant de mettre en ligne des données qui serviront à répondre
aux questions qui seront posées mercredi. Le code (accompagné -
éventuellement - d'explications théoriques) sera posté par la suite.
soccer1982=read.table("http://freakonometrics.free.fr/soccer1982")
S82=(soccer1982$V1+soccer1982$V2)
soccer1998=read.table("http://freakonometrics.free.fr/soccer1998")
S98=(soccer1998$V1+soccer1998$V2)
soccer2010=read.table("http://freakonometrics.free.fr/soccer2010")
S10=(soccer2010$V1+soccer2010$V3)
Les
boxplot associés à ces
trois échantillons sont les suivants,

On va se poser des questions autour de ces données, par exemple voir
s'il est
vraisemblance (ou
pas) que le nombre moyen de but dans un match (avant prolongation, s'il
y en a eu). On peut commencé par essayer de se demander quel modèle
utiliser. Classiquement, la loi de Poisson est la plus utilisée (en
plus, c'est la seule loi qui est autorisée lorsqu'on publie un billet
le 1er avril). Les histogrammes sont les suivants
boxplot(S82,S98,S10,col=c("red","yellow","blue"),
label=("1982","1998","2010"))
hist(S82,breaks=0:11,col="red")
hist(S98,breaks=0:11,col="yellow")
hist(S10,breaks=0:11,col="blue")
Si on compare les fonctions de répartition empiriques à celles de lois
de Poisson ajustées par maximum de vraisemblance, on obtient, pour la
coupe du monde de 1982

et pour celle de 2010,

Visuellement, l'ajustement semble relativement bon, surtout en 2010. On
peut aussi faire un test du chi-deux,
> library(vcd)
> (GF=goodfit(S10,type="poisson"))
Observed and fitted values for poisson distribution
with parameters estimated by ML
count observed fitted
0 7 6.6409703
1 17 15.0459484
2 13 17.0442384
3 14 12.8719508
4 7 7.2907534
5 5 3.3036226
6 0 1.2474617
7 1 0.4037543
> summary(GF)
Goodness-of-fit test for poisson distribution
X^2 df P(> X^2)
Likelihood Ratio 5.586765 5 0.3485255
On voit que l'on accepte l'ajustement par une loi de Poisson. Pour ceux
qui veulent une visualisation, sur la figure ci-dessous, on a la
densité d'une loi du chi-deux. Le premier trait vertical est la valeur
observée, et l'
aire
jaune est alors la
p-value
(qui excède largement 5%). En
rouge on a 5%, donc le second trait
vertical est la borne de la région critique associé au test pour une
erreur de première espèce valant 5%,

On peut ensuite faire plein de tests. On suppose que

. On va
pouvoir tester
contre une hypothèse alternative
Comme on a une hypothèse sur la loi des observations qui semble
robuste, on peut utiliser un test de type rapport de vraisemblance.
On peut aussi faire un test de la forme
contre
(histoire de tester des hypothèses simples - qui ont une
interprétation). Sinon, comme ce qui nous intéresse, c'est de savoir si
on a plus de trois buts par matchs, on peut définir la variable
binomiale

, en notant que
est une proportion - donc facile à tester - qui nous intéresse ici
compte tenu du problème que l'on cherchera à résoudre. On pourra alors
tester, par exemple
contre
Ces derniers tests sont alors facile à mettre en œuvre,
> Z=(S10>=3)*1
> prop.test(sum(Z),length(Z),p=1/2,alternative="less")
1-sample proportions test with continuity correction
data: sum(Z) out of length(Z), null probability 1/2
X-squared = 1.2656, df = 1, p-value = 0.1303
alternative hypothesis: true p is less than 0.5
95 percent confidence interval:
0.0000000 0.5322764
sample estimates:
p
0.421875
On peut aussi faire des tests de moyenne sur
Un test de l'hypothèse
contre une hypothèse alternative
s'écrit alors
> t.test(S10,mu=3,alternative ="less")
One Sample t-test
data: S10
t = -3.7763, df = 63, p-value = 0.0001775
alternative hypothesis: true mean is less than 3
95 percent confidence interval:
-Inf 2.590273
sample estimates:
mean of x
2.265625
Mais on l'aura l'occasion de revoir tous
les points du cours, y compris
aller peut être un peu plus loin, par exemple sur la comparaison de
moyenne entre échantillons,
> t.test(S82,S98,var.equal=FALSE)
Welch Two Sample t-test
data: S82 and S98
t = 0.427, df = 85.266, p-value = 0.6704
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.5503669 0.8514658
sample estimates:
mean of x mean of y
2.807692 2.657143