
> library(foreign)
> base=read.dta("http://www.ats.ucla.edu/stat/stata/examples/long/couart2.dta")
> head(base)
art fem mar kid5 phd ment
1 0 Men Married 0 2.52 7
2 0 Women Single 0 2.05 6
3 0 Women Single 0 3.75 6
4 0 Men Married 1 1.18 3
5 0 Women Single 0 3.75 26
6 0 Women Married 2 3.59 2
- le nombre de publications au cours des 3 dernières années de leur doctorat,
- le sexe du docteur,
- son statut marital (marié(e) ou célibataire), a priori à la fin du doctorat,
- le nombre d'enfant(s) du docteur agé(s) de moins de 5 ans, là encore à la fin du doctorat
- le nombre de publications du directeur de thèse (appelé ici mentor) au cours des 3 dernières années
> n=nrow(base)
> lambda=mean(base$art)
> compte=table(base$art)
> N=as.numeric(names(compte))
> empirique=as.numeric(compte[as.character(0:19)])/n
> theorique=dpois(0:19,lambda)
> cbind(0:19,empirique,theorique)
empirique theorique
[1,] 0 0.3005 0.1839
[2,] 1 0.2688 0.3114
[3,] 2 0.1945 0.2636
[4,] 3 0.0918 0.1487
[5,] 4 0.0732 0.0629
[6,] 5 0.0295 0.0213
[7,] 6 0.0185 0.0060
[8,] 7 0.0131 0.0014
[9,] 8 0.0010 0.0003
[10,] 9 0.0021 0.0000
[11,] 10 0.0010 0.0000
[12,] 11 0.0010 0.0000
[13,] 12 0.0021 0.0000
[14,] 13 NA 0.0000
[15,] 14 NA 0.0000
[16,] 15 NA 0.0000
[17,] 16 0.0010 0.0000
[18,] 17 NA 0.0000
[19,] 18 NA 0.0000
[20,] 19 0.0010 0.0000
> plot(0:19,theorique,col="red",type="p")
> lines(0:19,empirique,type="p",col="blue")

Un test rapide permettra de convaincre les sceptiques,
> library(vcd)
> summary(goodfit(base$art,type="poisson"))
Goodness-of-fit test for poisson distribution
X^2 df P(> X^2)
Likelihood Ratio 296.3715 13 1.381259e-55
- Le sexe et le nombre de publications


Là encore, on peut faire un test rapide de comparaison de moyennes
> t.test(base$art~base$fem)
Welch Two Sample t-test
data: base$art by base$fem
t = 3.3298, df = 885.945, p-value = 0.0009049
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.1692780 0.6552866
sample estimates:
mean in group Men mean in group Women
1.882591 1.470309
Maintenant, notons que le critère retenu est le nombre de publications. La stratégie des personnes de sexe féminin peut être de viser moins de publications, mais dans de meilleures revues. En tous les cas, le sexe pourrait expliquer en partie (et en partie seulement) l'hétérogénéité observée.
- Le statut marital et le nombre de publications


> t.test(base$art~base$mar)
Welch Two Sample t-test
data: base$art by base$mar
t = -1.1869, df = 710.307, p-value = 0.2356
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.4033993 0.0994165
sample estimates:
mean in group Single mean in group Married
1.592233 1.744224
- Les enfants et le nombre de publications


> base$kid=base$kid5>0
> t.test(base$art~base$kid)
Welch Two Sample t-test
data: base$art by base$kid
t = 0.6136, df = 646.359, p-value = 0.5397
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.1803154 0.3442384
sample estimates:
mean in group FALSE mean in group TRUE
1.721202 1.639241
> baseH=base[base$fem=="Men",]
> baseF=base[base$fem=="Women",]
> t.test(baseH$art~baseH$kid)
Welch Two Sample t-test
data: baseH$art by baseH$kid
t = 1.3831, df = 491.989, p-value = 0.1673
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.1136025 0.6538074
sample estimates:
mean in group FALSE mean in group TRUE
2.011628 1.741525
> t.test(baseF$art~baseF$kid)
Welch Two Sample t-test
data: baseF$art by baseF$kid
t = 0.9525, df = 137.906, p-value = 0.3425
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.1764049 0.5043375
sample estimates:
mean in group FALSE mean in group TRUE
1.501466 1.337500
- Impact du directeur de thèse sur le nombre de publications


> base$publis=base$ment>=9
> t.test(base$art~base$publis)
Welch Two Sample t-test
data: base$art by base$publis
t = -6.7568, df = 497.017, p-value = 3.96e-11
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.2506429 -0.6871632
sample estimates:
mean in group FALSE mean in group TRUE
1.341338 2.310241
- Régression de Poisson et nombre de publications
> var(base$art)/mean(base$art)
[1] 2.191358
> summary(glm(art~1,data=base,family=quasipoisson))
Call:
glm(formula = art ~ 1, family = quasipoisson, data = base)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8401 -1.8401 -0.5770 0.2294 7.5677
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.52644 0.03761 14.00 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasipoisson family taken to be 2.191389)
Null deviance: 1817.4 on 914 degrees of freedom
Residual deviance: 1817.4 on 914 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 5
> summary(glm(art~mar+fem+I(kid5>0)+ment,data=base,family=quasipoisson))
Call:
glm(formula = art ~ mar + fem + I(kid5 > 0) + ment, family = quasipoisson,
data = base)
Deviance Residuals:
Min 1Q Median 3Q Max
-3.5080 -1.5615 -0.3626 0.5614 5.4494
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.338732 0.081482 4.157 3.53e-05 ***
marMarried 0.149527 0.085110 1.757 0.07928 .
femWomen -0.218643 0.074151 -2.949 0.00327 **
I(kid5 > 0)TRUE -0.250286 0.085834 -2.916 0.00363 **
ment 0.026000 0.002656 9.788 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasipoisson family taken to be 1.837376)
Null deviance: 1817.4 on 914 degrees of freedom
Residual deviance: 1641.1 on 910 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 5

On peut aussi regarder rapidement qui ne publie pas pendant sa thèse,
> summary(glm((art==0)~mar+fem+I(kid5>0)+ment,data=base,family=binomial))
Call:
glm(formula = (art == 0) ~ mar + fem + I(kid5 > 0) + ment, family = binomial,
data = base)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.1609 -0.9043 -0.7019 1.2697 2.5221
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.28843 0.18591 -1.551 0.1208
marMarried -0.33565 0.18800 -1.785 0.0742 .
femWomen 0.23697 0.15829 1.497 0.1344
I(kid5 > 0)TRUE 0.42957 0.19032 2.257 0.0240 *
ment -0.08141 0.01261 -6.455 1.08e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1118.7 on 914 degrees of freedom
Residual deviance: 1052.0 on 910 degrees of freedom
AIC: 1062.0
Number of Fisher Scoring iterations: 5
Pour reprendre l'interprétation sur l'analyse du nombre de publications, par exemple, le fait d’être marié, ou pas, a peu d'influence sur le nombre de publications. Par contre les femmes - toutes choses étant égales par ailleurs - publient 20% de moins que les hommes,
> exp(glm(art~mar+fem+I(kid5>0)+ment,data=base,
+ family=quasipoisson)$coefficients[3])
femWomen
0.8036087
> exp(glm(art~mar+fem+I(kid5>0)+ment,data=base,
+ family=quasipoisson)$coefficients[4])
I(kid5 > 0)TRUE
0.7785778
- Toutes
choses étant égales par ailleurs ?
Si on regarde le nombre de publications du directeur de thèse versus le sexe de l'étudiant,
> t.test(base$ment~base$fem)
Welch Two Sample t-test
data: base$ment by base$fem
t = 2.7101, df = 901.2, p-value = 0.006854
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.4587075 2.8673525
sample estimates:
mean in group Men mean in group Women
9.532389 7.869359
> t.test(base$ment~base$kid)
Welch Two Sample t-test
data: base$ment by base$kid
t = -1.5626, df = 499.06, p-value = 0.1188
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.5485856 0.2905184
sample estimates:
mean in group FALSE mean in group TRUE
8.377295 9.506329





























Depuis quelques jours, nous faisons la
présentation de la petite dernière à la famille et aux amis, et nous
étions surpris du nombres de familles n'ayant que des filles (nous ne
nous étions pas fait la réflexion jusqu'alors). La première piste était
de remettre en cause l'indépendance des sexes entre enfants d'une même
famille. La second théorie était de dire que les familles avec déjà
deux petits gars devaient capituler rapidement, contrairement aux
familles qui avaient des filles, qui pouvaient continuer... En gros, "





