On célèbre cette année les 35 ans d'un livre qui a révolutionné la
statistique, tant sur les aspects computationnels que graphiques: Exploratory Data Analysis par John Tukey. La légende prétend (on pourra relire a brief history of S par Richard Becker) que ce livre a inspiré ce qui allait devenir R, "Commercial software did not fit well into our research environment. It often used a ‘‘shotgun’’ approach — print out everything that might be relevant to the problem at hand because it could be several hours before the statistician could get another set of output. This was reasonable when computing was done in a batch mode. However, we wanted to be able to interact with our data, using Exploratory Data Analysis (Tukey, 1971) techniques. In addition, commercial statistical software usually didn’t compute what we wanted and was not set up to be modified."
|
|
|


> set.seed(1) > X=rlnorm(99)

(on est ici en échelle logarithmique). Pour commencer, on peut faire une boite à moustache avec une visualisation du minimum (à gauche) et du maximum (à droite)
> boxplot(X,horizontal=TRUE,log="x",range="0")

Et effectivement, on retrouve facilement tous les paramètres: ceux de la boite (en rouge)
> abline(v=median(X),lty=2,col="red") > abline(v=quantile(X,.25),lty=2,col="red") > abline(v=quantile(X,.75),lty=2,col="red")et ceux de la moustache (en bleu)
> abline(v=min(X),lty=2,col="blue") > abline(v=max(X),lty=2,col="blue")Mais ce n'est pas la version standard de la boite à moustaches, qui est - sous R - la suivante
> boxplot(X,horizontal=TRUE,log="x")

Si la borne inférieure de la moutache est toujours le minimum (en tous cas ici), pour la partie supérieure... c'est plus compliqué. Malheureusement ce n'est pas un quantile standard (ceux à 90% et 95% sont représentés ci-dessus en mauve). Pour comprendre ce que c'est, il faut regarder le code: ici, on rajoute au quartile supérieur (la partie de droite de la boite) un pourcentage de la distance inter-quartile (la longueur de la boite), et ce pourcentage est le suivant
> M=boxplot(X)$stats > (M[5]-M[4])/(M[4]-M[2]) [1] 1.350628 > 2*qnorm(.75) [1] 1.34898Plusieurs sites ou ouvrages suggèrent d'utiliser 1.5 fois la longueur interquartile, mais sous R, on utilise
> abline(v=quantile(X,.75)+2*qnorm(3/4)*IQR(X),lty=2,col="blue") > abline(v=min(X),lty=2,col="blue")et je laisse les quantiles pour montrer que (malheureusement) ce n'est pas ce qui est utilisé ici,
> abline(v=quantile(X,.9),lty=2,col="purple") > abline(v=quantile(X,.95),lty=2,col="purple")Cela dit, comme je l'évoquais lors de la formation (ici), beaucoup de monde laisse planer une réelle ambiguité sur ce qui est représenté par ces boites à moustaches... Et le fait que ce ne soit pas un quantile me gene un peu... Par exemple, ici on avait la boite à moustaches suivante

Si je prends les 25 plus petites observations, et que je les divise par 4, on obtient

La partie de gauche bouge (c'est normal, c'est la partie qu'on a modifiée), et la médiane reste identique, ainsi que la partie droite de la boite (ce qui est normal, ce sont des quantiles au delà de 25%). Mais de manière un peu génante, la borne supérieure de la moustache s'est ralongée... C'est normal, car on utilise une distance inter-quartile. Mais on n'a pas touché aux grandes observations, c'est donc génant de la voir bouger ainsi... non ?

















This afternoon, I will be giving a two-hour talk at McGill on quantiles, quantile regressions, confidence regions, bagplots and outliers. Before defining (properly) quantile regressions, we will mention regression on (local) quantiles, as on the graph below, on hurricanes,










(either the company defaults, or not), so that













, a Generalized Pareto Distribution will fit nicely, then we can use it to derive an estimator of the quantile function (for percentages such that the quantile is larger than the threshold)

, i.e. we keep the
largest observations to fit a GPD, then this estimator can be written








, where
is a slowly varying function. Then, for all
,









exceed the threshold out of a sample of size
, the estimator of the quantile

. Then


L'autre jour, le Docteur 
mesures,
et que l'on s'intéresse à un dépassement de seuil
tel que
(comme sur le graphique ci-dessus).


est l'erreur (qu'on pourrait appeler erreur de mesure, ou
idosyncratique) qui serait supposée indépendante d'une mesure sur
l'autre.
est la vraie valeur du taux de sucre, ou de la tension moyenne de l'individu.
et
ne dépend pas des indices.





(et que mon véhicule de secours peut faire demi-tour quand il le souhaite). Un
accident survient à une localisation
, qui est aléatoire. On pourrait
supposer que les accidents se produisent de manière uniforme sur la
route, i.e. sur
la distribution de
la localisation de l'ambulance (ou de la voiture des pompiers)
qui viendra aider. Dans la première stratégie, il est optimal de ce
mettre en 0 (qui est l'endroit moyen
où surviennent les accidents), i.e.
. C'est ma stratégie "ne rien faire": on attend que l'accident survienne avant de bouger.
, on peut supposer que la voiture tourne, à vitesse constante,
et donc
dans le premier cas, et
dans le second.
.
) alors certaines pathologies ne sont
plus curables, i.e. la distance trop longue (que l'on notera
). On peut alors souhaiter
que
.

















It is common to look at best
time at the Marathon. Or perhaps the distribution of the top100, as
done by John Myles White on his blog 



A standard idea in extreme value theory (see e.g. 




given
,
based on observations
's,
but all
observations such that
for
some
are
missing. More precisely,
I have the following sample (here half of the observations are missing),


with
correlation
(here 0.6).
Un billet rapide pour répondre à un commentaire de Claire (
tel que






Pour obtenir le quantile empirique, c'est un tout petit peu plus compliqué que la moyenne, mais la fonction 







