Freakonometrics

To content | To menu | To search

Teaching › économetrie 1 - M1-08/09

Entries feed - Comments feed

Tuesday, May 26 2009

La normalité (en économétrie)

L'étude de la normalité (au sens de la loi normale, de la loi de Gauss) est un problème ancien - et important - en statistique. Il est assez légitime de le voir arriver en économétrie car historiquement la loi normale a été introduite afin de modéliser les erreurs de mesures - que l'on pourrait aussi voir comme des erreurs de modèles dans une version statistique. Et je l'avais promis ici, donc chose promise, chose due, je vais parler un peu de normalité...

  • Normalité et régression (linéaire)
L'hypothèse de normalité n'est pas (forcément) fondamentale en économétrie, tout du moins si on regarde la construction de l'estimateur par moindre carrés. L'estimateur par mco ne repose sur aucune hypothèse de loi. Ses propriétés asymptotiques non plus (du moins tant qu'on suppose avoir homoscéasticité). En fait, pour tous les tests par exemple, il faut soit pouvoir invoquer des théorèmes asymptotiques (et donc avec beaucoup beaucoup d'observations), soit supposer - et donc tester ensuite - la normalité des résidus.Je renvois à mon cours pour plus de détails (ici) car je ne vais pas tout refaire ici. Mais pour finir ce paragraphe, si on se place dans une perspective de type GLM (Generalized Linear Models, cf ici), on notera que le modèle linéaire doit être lié à une fonction de lien de type identité, ce qui est la fonction de lien canonique du modèle Gaussien. Bref, le modèle linéaire est étroitement lié à une modélisation Gaussienne des résidus.
Remarque: j'ai évoqué plusieurs fois (ici par exemple) la transformé de Box-Cox. Si on reprend l'article original, on notera que la question à laquelle souhaitent répondre George Box et David Cox est de trouver une transformation des variables afin d'avoir des résidus Gaussiens. La normalité des résidus était véritablement l'objectif central de leur transformation.
  • Visualiser la loi des résidus
Avant de rentrer dans les tests statistiques, je rappelle qu'on peut toujours faire des petits dessins pour visualiser la loi des résidus. L'histogramme peut être intéressant, mais avec peu de points (100 est souvent considéré comme petit, je reviendrais un jour sur la notion d'asymptotique en statistique), il est difficile de trancher,
  • Tester la normalité, quelques idées générales
Il existe un paquet de tests de normalité. Il existe aussi plusieurs tests utilisés parfois comme des tests de normalité, mais qui n'en sont pas. Le test de Kolmogorov-Smirnov par exemple est un test d'ajustement de loi, mais pas d'appartenance à une famille de lois. On peut tester avec Kolmogorov-Smirnov si les résidus suivent une loi normale centrée réduite, mais si le test rejette cette hypothèse, ils peuvent toujours suivre une loi normale avec d'autres paramètres. Sous R, la library(nortest) est dédié à ce problème de tests de normalité, avec plusieurs fonctions existant.
  • Tester la normalité, le test de Shapiro-Wilk
Ce test a été proposé en 1965 par Samuel Shapiro et Martin Wilk. On pose
W = {\left(\sum_{i=1}^n a_i x_{(i)}
ight)^2 \over \sum_{i=1}^n (x_i-\overline{x})^2}
où - comme souvent - les parenthèses correspondent à la statistique d'ordre, et où
(a_1,\dots,a_n) = {m^\top V^{-1} \over (m^\top V^{-1}V^{-1}m)^{1/2}}
m1, ..., mn sont les espérances des statistiques d'ordres d'un échantillon i.i.d. tiré suivant une loi normale centrée réduite, et où V est la matrice de variance-covariance de ces statistiques d'ordre. On rejette l'hypothèse de normalité si cette statistique est trop petite. Sous R, on peut utiliser la p-value donnée par la fonction shapiro.test de library(nortest),
> X=rnorm(100)
> shapiro.test(X)
        Shapiro-Wilk normality test
data:  X
W = 0.985, p-value = 0.3175
> Z=rlnorm(100)
> shapiro.test(Z)
        Shapiro-Wilk normality test
data:  Z
W = 0.6339, p-value = 1.989e-14
  • Tester la normalité, le test d'Anderson-Darling
Ce test a été proposé en 1952 par Theodore Anderson et Donald Darling. On commence par centrer et réduire les observations
Y_i=\frac{X_i-\bar{X}}{s}
En supposant que  \{Y_1<\cdots <Y_n\}, on pose alors
A^2 = -n -\frac{1}{n} \sum_{i=1}^n (2i-1)(\ln \Phi(Y_i)+ \ln(1-\Phi(Y_{n+1-i}))).
On peut utiliser une version un peu modifiée, à savoir
A^2 = -n -\frac{1}{n} \sum_{i=1}^n\left[(2i-1)\ln\Phi(Y_i)+(2(n-i)+1)\ln(1-\Phi(Y_i))
ight].
On peut faire également un ajustement afin de prendre en compte la taille de l'échantillon,
A^{*2}=A^2\left(1+\frac{4}{n}-\frac{25}{n^2}
ight) .
Si cette grandeur est trop grande (souvent 0,751), on rejette l'hypothèse de normalité. Sous R, on peut utiliser la p-value donnée par la fonction ad.test de library(nortest),
> ad.test(X)
        Anderson-Darling normality test
data:  X
A = 0.4754, p-value = 0.2348
> ad.test(Z)
        Anderson-Darling normality test
data:  Z
A = 10.1804, p-value < 2.2e-16

  • Tester la normalité, le test de Jarque-Bera
Ce test a été proposé en 1980 par Carlos Jarque et Anil Bera. On calcule
\mathit{JB} = \frac{n}{6} \left( S^2 + \frac{(K-3)^2}{4}
ight),

qui repose sur l'utilisation de la skewness et de la kurtosis empiriques,

S = \frac{ \mu_3 }{ \sigma^3 } = \frac{ \mu_3 }{ \left( \sigma^2
ight)^{3/2} } = \frac{ \frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x}
ight)^3}{ \left( \frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x}
ight)^2
ight)^{3/2}}
K = \frac{ \mu_4 }{ \sigma^4 } = \frac{ \mu_4 }{ \left( \sigma^2
ight)^{2} } = \frac{\frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x}
ight)^4}{\left( \frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x}
ight)^2
ight)^2}
Asymptotiquement, cette statistique suit (sous l'hypothèse de normalité) une loi du chi-deux à 2 degrés de liberté. Sous R, on peut utiliser la p-value donnée par la fonction jarque.bera.test de library(tseries),
> library(tseries)
> jarque.bera.test(X)
        Jarque Bera Test
data:  X
X-squared = 1.6992, df = 2, p-value = 0.4276
> jarque.bera.test(Z)
        Jarque Bera Test
data:  Z
X-squared = 1027.933, df = 2, p-value < 2.2e-16
  • Tester la normalité, le test graphique du QQ-plot
On parle parfois de "droite de Henry" dans certains livres (un peu anciens). On utilise alors deux choses: le QQ plot pour tester (graphiquement) l'ajustement à une loi, et le fait que les lois normales sont liées entre elles par des transformations affines.  Sous R, on utilise la fonction qqnorm.La loi théorique est ici la loi normale centrée réduite. Si les points sont alignés suivant une droite, alors on accepte l'hypothèse de normalité (les paramètres de la loi correspondant à la constante et à la pente de cette droite).
  • Tester la normalité, autres tests (qui existent sous R)
On peut trouver plusieurs autres tests programmés sous R. En particulier, en 1973 D’Agostino et Pearson ont proposé un test intéressant (et simple), ou sinon il existe des tests de Lilliefors, qui reposent sur l'utilisation du test de Kolmogorov-Smirnov (quand les paramètres sont inconnus).
> cvm.test(X)
        Cramer-von Mises normality test
data:  X
W = 0.0604, p-value = 0.3704
> lillie.test(X)
        Lilliefors (Kolmogorov-Smirnov) normality test
data:  X
D = 0.0656, p-value = 0.3609
> sf.test(X)
        Shapiro-Francia normality test
data:  X
W = 0.9818, p-value = 0.1584
> pearson.test(X)
        Pearson chi-square normality test
data:  X
P = 12.58, p-value = 0.2481
Tout ça peut s'utiliser en regardant un peu la documentation de R qui traine en ligne...
  • Tester une normalité en dimension plus grande
Je m'écarte  un peu du sujet, mais c'est un point que j'avais évoqué ici. On peut parfois s'intéresser à de la normalité en dimension plus grande que le cas univarié évoqué dans les paragraphes précédants. Il existe sous R plusieurs fonctions, dont mvnorm.etest dans library(energy), mvnorm.kur.test ou mvnorm.skew.test dans library(ICS), dans mshapiro.testlibrary(mvnormtest), ou enfin mardia dans library(dprep). Je prendrais peut être un peu de temps un jour pour revenir sur ces tests.
  • et maintenant je fais quoi si mes résidus ne sont pas Gaussiens ?
En fait, de mon point de vue, la non-normalité est souvent interprétable de deux manières (au moins).
Soit on a oublié une variable qui crée de l'hétérogénéité (et comme je l'ai dit plusieurs fois, ici par exemple, l'hétérogénéité augemente la variance).Si je reprends une base de données traitée en cours, liant la taille et le poids, on peut noter que les résidus ne sont pas Gaussiens, ou tout du moins tous les tests rejettent assez clairement cette hypothèse,
>  epsilon = lm(weight ~ height)$residuals
>  ad.test(epsilon)
        Anderson-Darling normality test
data:  epsilon
A = 0.7906, p-value = 0.03974
> shapiro.test(epsilon)
        Shapiro-Wilk normality test
data:  epsilon
W = 0.9658, p-value = 8.866e-05
>  jarque.bera.test(epsilon)
        Jarque Bera Test
data:  epsilon
X-squared = 79.3565, df = 2, p-value < 2.2e-16
On peut d'ailleurs regarder graphiquement l'allure de la distribution,Si on ne prend pas en compte l'hétérogénéité indiuite en particulier par le sexe des individus, on ajuste un mauvais modèle...
Une autre possibilité - mais qui reste du même ordre - est que le modèle ne soit pas linéaire.
> data(cars)
> epsilon = lm(dist ~ speed,data=cars)$residuals
>   ad.test(epsilon)
        Anderson-Darling normality test
data:  epsilon
A = 0.7941, p-value = 0.0369
> shapiro.test(epsilon)
        Shapiro-Wilk normality test
data:  epsilon
W = 0.9451, p-value = 0.02153
> jarque.bera.test(epsilon)
        Jarque Bera Test
data:  epsilon
X-squared = 8.1888, df = 2, p-value = 0.01667
On note que les p-value sont toutes inférieures à 5%, c'est à dire que l'on rejette l'hypothèse H0, qui correspond à l'hypothèse de normalité.Je renverrais ici à ce que j'ai fait en cours pour montrer qu'effectivement, un modèle quadratique donne de meilleurs résultats.

Wednesday, May 6 2009

Effets individuels avec R

Toujours pour répondre à une question d'élève, je vais parler un peu des modèles sur variables qualitatives (lorsque la variable à expliquer est binomiale). Par exemple, pour poursuivre un peu des exemples traités dans des billets récents (ici ou ), je vais définir une variable décrivant un "prestige élevé" pour une profession.
> prestige<-read.table("http://perso.univ-rennes1.fr/arthur.charpentier/Prestige.txt",header=TRUE)
> seuil= 50; prestige$PE =as.factor
(prestige$prestige > seuil)
Les modèles classiques en économétrie des variables qualitatives (probit ou logit) sont des cas particuliers des modèles linéaires généralisés, avec comme loi une loi binomiale. La fonction de lien canonique est la fonction de répartition de la loi logistique (ce qui donne un modèle logit), mais on peut prendre une fonction de répartition de la loi normale centrée réduite (ce qui donne un modèle probit)
 > REG=glm(Y~X1+X2,data=base,family=binomial(link = "logit"))
> REG=glm(Y~X1+X2,data=base,family=binomial(link = "probit"))
Formellement, on suppose que
F est une fonction de répartition, soit d'une loi normale dans le cas probit, soit d'une loi logistique dans le cas logit. L'utilisation de R peut s'avérer compliqué au premier abord car ces méthodes sont vues comme de simples cas particuliers de modèles beaucoup plus généraux, où la loi de Y appartient à la famille exponentielle (comme la loi normale, la loi binomiale ou la loi de Poisson, pour les plus connues). Le principal avantage est que la syntaxe et l'analyse des sorties est très proche de la régression classique (la plupart des outils de la fonction lm() se retrouvent sur la fonction glm())
Remarque: Pour construire un modèle où Y est binomiale, on change de famille de modèle (on passe de lm à glm), mais pour le cas où une des variables explicatives X est binomiale (ou prenant plus de modalités, comme des classes d'âge, ou des classes de revenu), il suffit de la définir "proprement", c'est à dire en tant que facteur. Je renvoie à la discussion sur les modèles GAM (ici) où la date de survenance est prise en tant que facteur dans les modèles GLM (via la commande as.factor()) mais en tant que valeur numérique dans les modèles GAM.
Voilà pour l'introduction. Mais la question portait plus précisément sur l'étude des effets individuels, oc'est à dire que l'on s'intéresse à
de manière générale dans un modèle linéaire généralisé (par exemple probit).
La moyenne des effets marginaux s'estime alors en considérant
Sous R, on peut les récupérer facilement. Par exemple pour un modèle probit, la fonction lien est la fonction de réparition d'une loi normale centrée réduite, i.e. dnorm(), aussi, on utilise
> REG=glm(PE~income+education,data=prestige,family=binomial(link = "logit"))
> mean(dnorm(predict(REG,type="link"))) * coef(REG)
  (Intercept)        income     education
-1.247750e+00  4.685419e-05  8.488106e-02

On peut aussi faire sommairement une étude graphique,
 > require(vcd)
> spine(PE~income,  data = prestige,  breaks = quantile(prestige$income)

Pour information, ce type de graphique est parfois appelé spinogram dans la littérature.
Si on veut étudier plus d'effets, John Fox a développé la library(effects) qui est dédiée à ce problème. 
Sinon, pour aller plus loin, je renvoie à plusieurs livres, dont Micro-Econometrics for Policy, Program, and Treatment Effects de Myoung-Jae Lee, ou encore Modern Applied Statistics with S.

Tuesday, January 20 2009

Econométrie: monte carlo et bootstrap

Un dernier commentaire sur le cours d'économétrie, toujours pour reprendre des erreurs commises dans les projets. Une partie du cours était dédiée à l'utilisation des méthodes de Monte Carlo (cf également un ancien billet).

Si on cherche à calculer le biais d'un estimateur, au lieu d'un calcul numérique de l'espérance (qui n'est parfois pas possible analytiquement), il est possible de simuler des échantillons, puis d'approcher l'espérance par une moyenne empirique (via la loi des grands nombres). L'idée n'est donc pas de simuler un échantillon tel que les résidus soient gaussiens, mais plusieurs centaines, puis de regarder le comportement moyen sur ces scénarios.

Pour aller un peu plus loin, je renvoie vers des notes de cours sur internet, en particulier celles de Jean-Marie Dufour,

    1. "General considerations on finite-sample inference in econometrics and statistics", 2002. Slides: PS; PDF
    2. "Finite-sample inference and bounds methods in econometrics and statistics", 2002. Slides: PS; PDF
    3. "Finite-sample inference in econometrics and statistics", 2006. Slides: PS; PDF
    4. "Finite-sample inference, weak identification and macroeconometrics", 2006. Slides: PS; PDF

Sinon Bernard Salanié évoque aussi l'utilisation des méthodes de simulations en théorie des tests, en notant que les propriétés à distances finies (petits échantillons) peuvent être sensiblement différentes des théories asymptotiques de la plupart des tests usuels.

Sunday, January 18 2009

Econométrie: utilisation de Box-Cox

Je radote sûrement, mais sur la transformation de Box-Cox, il existe beaucoup de documents sur internet, en particulier les notes de cours de Pengfei Li, ou encore le papier de Sakia dans Statistician "The Box-Cox transformation technique : a review". Formellement, on teste une transformation sur Y, que l'on va interpréter comme une transformation (inverse) des variables explicatives. A la lecture des copies, j'aurais aussi voulu rajouter une ligne sur la lecture du graphique obtenu sous R, qui a souvent été mal interprété...

Par exemple sur la Figure ci-contre, le trait horizontal permet de construire l'intervalle de confiance pour la valeur optimal du paramètre de puissance, autour précisément de l'optimum. Ici l'optimum est proche de 0.3, et 1 n'est pas dans l'intervalle de confiance. On ne peut donc pas retenir un modèle linéaire. Notons également cette valeur proche de 1/3 (qui est dans l'intervalle de confiance), c'est à dire que l'on pourrait tester un modèle en puissance 3 (sur X). La fonction de Box-Cox permet de donner des idées quant à d'éventuelles transformations des variables

Saturday, January 17 2009

Econométrie: utilisation de la régression robuste

Visiblement un certain nombre d'élèves n'ont pas compris l'intérêt des méthodes robustes, que j'avais expliqué oralement, mais sans insister dans les slides. Dans la présentation que j'ai faite, le seul intérêt de la régression robuste est de tester la robustesse d'un modèle obtenu par moindre carrés. Autrement dit, il convient de comparer les valeurs des estimateurs obtenus: si les régressions donnent des résultats similaires, alors la régression est robuste, au sens où elle ne dépend pas (trop) du choix de la distance quand on minimise la somme des distances entre les valeurs observées et les valeurs prédites.

Sunday, January 4 2009

Econométrie: linéaire ou nonlinéaire, paramétrique ou nonparamétrique ?

Je voulais poster un petit billet pour répondre un peu plus précisément à des questions qui m'avaient été posées... Le modèle linéaire (ou plutôt affine, et donc paramétrique) de base est

Plusieurs distinctions sont possibles, entre
  • linéaire et nonlinéaire
  • paramétrique et nonparamétrique
En fait, formellement, il n'y a que trois choix possibles,
  • linéaire et paramétrique: c'est le modèle de base
  • nonlinéaire et paramétrique
  • nonlinéaire et nonparamétrique
Le deuxième cas est évoqué très brièvement dans les slides, car c'est simplement un problème d'optimisation: on donne une forme paramétrique, et on estime les paramètres. On se donne une forme fonctionnelle a priori et on estime (par maximum de vraisemblance, par moindres carrés) les quelques paramètres. Par exemple l'approche de Box-Cox.
Dans l'approche nonparamétrique, au contraire, on ne fait aucune hypothèse sur la forme de la liaison fonctionnelle. D'un point de vue pratique, néanmoins, on estime un nombre plus grand de "paramètre" car formellement, en économétrie nonparamétrique, on projette la fonction dans une base fonctionnelle (cf les fonctions splines).
Sans vouloir entrer dans un débat épistémiologique, l'économétrie nonparamétrique a mis beaucoup de temps à se développer. Historiquement, l'économétrie s'est énormément développé sous l'impulsion de Ragnar Frish puis Irving Fisher, qui fondère la société d'économétrie et surtout la revue Econometrica. Financièrement, l'économétrie fut soutenue par la Cowles Commission for research in economics (groupe de recherche créé en 1932 à l'université du Colorado, qui s'installe à l'université de Chicago puis à l'université de Yale) visant à tester statistiquement les théories économiques. Cette prestigieuse institution a ainsi valorisé l'économétrie en tant qu'outil de validation de théories (ou de modèles) économiques. On part alors avec un cadre - ou une équation - a priori. Naturellement, ce sont donc les modèles paramétriques qui sont le plus étudiés en économétrie. L'approche nonparamétrique, au contraire, ne suppose aucun modèle a priori, et pourrait être définie comme model free.

Saturday, January 3 2009

Projet économétrie: le mémoire

Pour reprendre ce qui avait été annoncé dans un message envoyé fin novembre, le mémoire pour le projet d'économétrie 1 est à rendre lundi 5 janvier mercredi 7 janvier (au plus tard). Nous vous demandons d'envoyer une version du "rapport" (avec les noms de tous les participants du groupes mentionnés sur la 1ère page) soit à Nathalie Colombier, soit à moi, ainsi qu'une copie envoyée à Régine Chivot. Le rapport doit faire 15 pages maximum.
Sur le fond, il s'agit de mettre en oeuvre les méthodes présentées en cours, et en TD, sur une problématique (et un jeu de données) que vous avez choisi.
Ce que nous attendons,
  • une présentation (succincte) de la problématique et de la base de données, ainsi qu'une proposition de modèle économétrique.
  • un peu de statistique descriptive, sur la variable à expliquer (Y) et les variables explicatives (Xi)
  • une proposition d'un ou plusieurs modèles permettant d'expliquer Y en fonction des Xi. Nous souhaitons en particulier avoir une discussion (critique) sur ce qui vous a amené à trouver ce modèle et à le retenir, ainsi qu'une analyse fine de la validité du modèle (i.e. des tests de validation des hypothèses)
  • quelques sorties statistiques ainsi que des graphiques commentés.
Pour ma part (projet sous R autour des limites du modèle linéaire), je vous renvoie aux messages que j'ai pu envoyer par le biais de la messagerie, mais aussi aux discussions que nous avons pu avoir (en fin de cours, en TD, ou dans mon bureau pour ceux qui sont passés). N'ayant pas reçu beaucoup de mails, je ne sais pas trop comment aider ceux qui se posent encore des questions... éventuellement reprenez ce qui était fait dans l'examen écrit: comme je l'avais précisé dans l'introduction, il s'agissait de l'étude d'un projet d'élèves.

Thursday, January 1 2009

Prévision, ou prédiction, en économétrie

Dans le cours, j'ai essentiellement présenté la prédiction dans le cas d'une unique variable explicative. En pratique, en présence de plusieurs variables explicatives, c'est un peu plus compliqué. Je parle ici de prédiction au sens où on utilise la fonction predict sous R. En aucun cas je ne fais de test de causalité....

  1. la visualisation graphique est simple en dimension 2 (Y et X): on cherche une droite, ou plus généralement une fonction de régression. En dimension 3 (Y, X1 et X2), on cherche on plan ou une surface de régression.
  2. mais les variables X1 et X2 n'ont - a priori - aucune raison d'être indépendantes. Il est donc délicat de parler de prédiction lorsque l'on fixe arbitrairement deux variables qu'on ne peut souvent pas fixer indépendement. Ceci renvoie aux discussions que j'ai pu avoir sur l'interprétation (souvent fallacieuse) d'un coefficient en terme d'élasticité (cf également le paradoxe de Simpson)

Thursday, December 18 2008

Econométrie (appliquée) avec R


Le cours d'économétrie de Master 1 est malheureusement terminé, Christian Kleiber et Achim Zeileis sortent chez Springer un très beau "Applied Econometrics with R". Le livre va beaucoup plus loin que ce qui a été abordé dans le cours, en particulier avec les séries temporelles, mais une (très) bonne introduction au modèle linéaire est donné dans le chapitre 3, et surtout les élèves retrouveront dans le chapitre 4 un grand nombre de points abordés dans le cours.
Des billets devraient arriver en 2009 sur les livres d'application de R, en économétrie et autres.

Wednesday, December 3 2008

économétrie 1, examen

Comme annoncé dans un billet précédant, l'examen resposera sur de l'analyse de sorties de régression. Suite au sondage fait au dernier cours, je mets à votre diposition la base qui est utilisée dans l'examen, afin de ne pas pénaliser ceux qui n'ont pas beaucoup utilisé R. La base de données qui sera utilisée est diponible en R, en utilisant la commande read.table("http://perso.univ-rennes1.fr/arthur.charpentier/examen-M1.txt"). Sinon, pour ceux qui veulent manipuler la base avec un autre logiciel statistique peuvent récupérer les donnérs sous Excel.

Friday, November 21 2008

Econométrie, cours Master 1, un mot sur l'examen

Suite à un cafouillage administratif, il y aura 2 examens, un pour chacun des deux cours d'économétrie 1 (comme annoncé via l'ENT, et non pas comme je l'avais annoncé prématurément en TD). En ce qui concerne le premier examen, portant sur mon cours, il s'agira essentiellement de commenter des sorties (informatiques) de régressions. Le but n'est donc pas de comprendre les démonstrations mathématiques qui soutendent ce qui a été présenté en cours, mais plutôt de comprendre pourquoi certains concepts ont été introduits. Ceux qui souhaitent consolider leurs bases, je leur recommande d'aller feuilleter les références indiquées dans les billets précédants, mais pour préparer l'examen, je suggère davantage d'avancer le projet, de reprendre éventuellement les bases de données et les codes vus en cours (dans les slides), et d'essayer de refaire ce qui a été présenté au tableau.

L'examen durera 2 heures, et non pas 1 comme promis, mais encore une fois, 2 heures ne veut pas dur "2 fois plus dur qu'en une heure", mais que quasiment tous les points vus en cours seront évoqués.

Econométrie, cours Master 1, régression nonlinéaire: petit complément

Quelques slides complémentaires pour finir le cours d'économétrie 1. Dans tous le cours, seule la modélisation de la tendance moyenne a été considérée, en écartant les soucis (éventuels) d'hétéroscédasticité. Ces quelques slides évoquent des méthodes plus avancées afin de prendre en compte ces problèmes, en quittant (définitivement) les modèles linéaires gaussiens, et en considérant des modèles plus généraux, i.e. les GLM. Cette classe de modèle englobe en particulier les régression binomiale (traitées dans le cours d'économétrie des variables qualitatives) et la régression poissonnienne, qui sera vue abondament en statistique de l'actuariat en M2 (pour ceux qui suivent le cours).

Sinon en guise de complément au dernier cours, je mettrais un lien vers les slides de John Fox.

Thursday, November 13 2008

Econométrie, cours Master 1, régression nonlinéaire et nonparamétrique

Cours d'économétrie: le modèle linéaire, et au delà (slides cours 3). Pour cette partie, la bilbilographie est infinie. On pourra cite quelques livres de base, dont l'ouvrage de Wolfgam Härdle, Applied Nonparametric Regression. Sinon encore une fois, quelques références existent dans la collection SAGE, en particulier le nonparametric simple regression de John Fox qui présente de très belles applications (en partie reprise dans ce cours).

Sous R, plusieurs packages peuvent être utilisés. Les principales fonctions sont locfit, lowess, gam, boxcox, smooth.splines... etc. Pour ceux qui souhaitent aller plus loins sur la régression nonlinéaire (tout en restant dans le cadre des régressions paramétriques), il y a l'ouvrage d'Anestis Antoniadis, Jacques Burruyer et René Carmona. Sur la transformée de Box-Cox, on pourra consulter les slides de Pengfei Li sur le sujet.

Thursday, November 6 2008

Econométrie, cours Master 1, régression robuste et régression quantile

Cours d'économétrie: le modèle linéaire, et au delà (slides cours 2). Le second cours est inspiré de l'ouvrage de Koenker, Quantile Regression. La page de Roger Koenker contient énormément d'information, y compris bon nombre de codes R.


Pour des compléments informatiques, le package quantreg de R implémente la régression quantile. Sinon dans la collection SAGE, il y a un ouvrage traitant de la régression quantile. Sinon parmi les notes de courts, il y a quelques pages tirées du livre de Statistiques avec S+, de Benny Yakir. Parmi les autres références sur le net, il y a le livre de David J. Olive, Applied Robust Statistics (dont toutes les données sont disponibles sur sa page), ou sinon plusieurs références sont listées sur http://statlink.tripod.com/.

Monday, November 3 2008

Simulation et monte carlo

Le second cours d'économétrie proposait d'utiliser des méthodes de simulation ou de Monte Carlo pour obtenir numériquement des intervalles de confiance, sans avoir à expliciter de loi. Les méthodes nonparamétriques de rééchantillonnage, ou bootstrap, permettent en particulier de s'affranchir de l'hypothèse de normalité des résidus.

Pour un peu d'histoire, le papier de Nicholas Metropolis est très intéressant (d'un point de vue culturel). Le polycopié de Bernard Ycart Méthodes de Monte-Carlo est probablement le document technique le plus clair sur le sujet des méthodes de Monte Carlo (et les aspects algorithmiques). Sinon la référence incontournable sur les aspects théoriques de génération de nombres aléatoires est l'ouvrage Non-Uniform Random Variate Generation, de Luc Devroye, malheureusement épuisé, mais que Luc a eu la gentillesse de mettre à disposition suite au refus des éditeurs d'imprimer une nouvelle version. Sur le bootstrap, la référence papier est le livre d'Anthony Davison et David Hinkley, Bootstrap Methods and Their Application, chez Cambridge University Press. Sinon Russell Davidson met à disposition un certain nombre de documents,. En complément, je citerais aussi quelques notes de cours, dont celles d'Irène Buvat et de Catherine Huber (en français).

Sinon pour ceux qui continuent à croire que les méthodes de simulations sont une élucubration de matheux, je recommande les slides de Loïc Ponger, présentant le boostrap (avec R) au Muséum d'Histoire Naturelle. Sur les applications économétriques, je recommande à nouveau les notes de cours d'Emmanuel Flachaire, à Paris 1 (mais il va plus loin que ce que nous avons vu en cours)

- page 1 of 2