Freakonometrics

To content | To menu | To search

Sunday, December 9 2012

Blog migration

The blog is currently migrating, from

http://freakonometrics.blog.free.fr/

to the  hypotheses.org plateform to

http://freakonometrics.hypotheses.org/

The IT is working on it, and if I still publish on the two blogs until the end of this session, from 2013, no more posts on this blog. Please, update your bookmarks...

Wednesday, November 28 2012

D.I.Y. strategy, and why academics should blog!

Last week, I went to the Econometrics seminar of Montréal, at UdM, where Alfred Galichon was giving a great talk on marriage market. Alfred is a former colleague (from France), a co-author, an amazing researcher, and above all, a friend of mine. And he has always be supportive about my blogging activities. So while we were having lunch, after the seminar, Alfred mentioned my blogging activity to the other researchers. I should say researchers in Econometrics (yes, with a capital E, since it is a Science, as mention in an old paper by David Hendry by the end of the 70's). Usually, when I am involved in this kind of meeting, I start with some apologies, explaining that I do like theoretical econometrics (if not, I would not come to the seminar), but I do like my freakonometrics activity. I do like to use econometrics (or statistical techniques) to figure out (at least to try) why some things works the way they do. I try to find data, and then try to briefly analyze them to answer some simple questions. Or sometime, I just run simulations to answer more theoretical questions (or at least to give clues).

But above all, I like the fact that blogging gives me the opportunity to interact with people I would never meet without this activity. For instance, last May, I was discussing (on Twitter) with @coulmont, @joelgombin and @imparibus about elections in France. Then @coulmont asked me "yes, everyone knows that there should be some ecological fallacies behind my interpretation, but I am not so sure since I have data with a small granularity. As an econometrician, what do you think ?" Usually, I hate having a label, like "... I ask you since you're a mathematician", or "as an economist, what do you think of...". Usually, when people ask me economic questions, I just claim being a mathematician, and vice-versa. But here, I even put on the front of my blog the word "econometrics" (more or less). So here, I could not escape... And the truth is, that while I was a student, I never heard anything about this "ecological fallacy". Neither did I as a researcher (even if I have been reading hundreds of econometric articles, theoretical and applied). Neither did I as a professor (even if I have been teaching econometrics for almost ten years, and I have read dozens textbooks to write notes and handouts). How comes ? How come researchers in sociology and in political sciences know things in econometrics that I have never heard about ?

The main reason - from my understanding - is the following: if everyone talks about "interdisciplinarity" no one (perhaps a few) is really willing to pay the price of working on different (not to say many) areas. I tried, and trust me, I found it difficult. It is difficult to publish a paper in a climate journal when you're not specialist in climate (and you just want to give your opinion as a statistician). It is difficult to assume that you might waste weeks (not to say months) reading articles in geophysics if you want to know more about earthquakes risks, going to seminars, etc. Research is clearly a club ("club" as defined in Buchanan (1965)) story.

This week, I planned to go to some journal club in biology and physics, at McGill (kindly, a colleague there invited me, but we got a time misunderstanding)... this has nothing to do with my teaching, nor with my research activities. But I might learn something ! Yes, I do claim that I am paid just to have fun, to read stuff that I do find interesting, trying to understand the details of a proof, trying to understand how data were obtained. In most cases, it might (and should) be a complete waste of time, since I will not publish anything (anything serious, published in some peer reviewed journal) on that topic... but should I really care ? As I explained earlier (in French), I do also claim that I have a moral obligation to return everything I have seen, heard, read. And since I am not a big fan of lectures (and that I do not think I have skills for that) I cannot give my opinion, neither on economics facts (as @adelaigue or @obouba might do on their blogs) or on science results (as @tomroud does). But I think I can help on modeling and computational issues. My point being: never trust what you read (even on my blog) but please, try to do it yourself! You read that "90% of French executive think about expatriation" (as mentioned here)? Then try to find some data that should confront that statement. And see if you come up with the same conclusion... And since it might be a bit technical sometimes, here are some lines of code, to do it on your own... Academics have a legitimacy when they give their opinions on technical issues. At least they can provide with a list of reference everyone should read to get an overview of the topic. But academics can also help people read graphs, or data. To give them "numeracy" (or a culture in numbers) necessary to understand complex issues.

To conclude, I should mention that I understood what this "ecological fallacy" was from  Thomsen (1987) and many more documents could be found on Soren Thomsen's page http://www.mit.ps.au.dk/srt/. But I got most of the information I was looking for from a great statistician, who happens to be also an amazing blogger: Andrew Gelman (see http://andrewgelman.com/). I will probably write a post someday about this, since I found the question extremely interesting, and important.

Friday, October 5 2012

La recherche, l'enseignement et les élèves

Depuis quelques temps, lorsqu'on me demande ce que je fais dans la vie, je réponds "enseignant-chercheur" et je trouve que le terme me convient bien...

I.− Part. prés. de enseigner*: a) [L'obj. désigne le destinataire] Transmettre un savoir à. Synon.
Prononc. et Orth. : [ʃ ε ʀ ʃ œ:ʀ], fém. [-ø:z]. Ds Ac. 1694-1932. Étymol. et Hist. 1. le plus souvent avec compl. introduit par de a) 1538 cercheur « personne qui cherche, qui s'informe » (Est., s.v. conquisitores); 1636 chercheur (Monet); b) 1840 adj. « qui cherche (qqc.) » (Proudhon, Qu'est-ce que la propriété, p. 133); 2. emploi abs. 1835 adj. chercheuse « avide de connaissances, qui essaie de découvrir » (Balzac, loc. cit.);

Si on regarde les définitions, on voit qu'un chercheur s'informe (et reçoit du savoir) alors que l'enseignant le transmet (et communique son savoir). D'aucuns prétendront que le chercheur aussi transmet, mais quand on voit l'impact des articles académiques, on peut se demander à qui on transmet. Sans chercher à polémiquer, je trouve d'ailleurs surprenant qu'en France on ait pu séparer les deux, en créant des postes de chercheurs qui n'étaient pas tenu de partager leur savoir (mais j'ouvre une parenthèse que je ne tiens pas à ouvrir davantage).... Bref, je suis très content d'enseigner car c'est cette activité qui me donne une utilité sociale.
Sauf que comme tous les enseignants, je déteste faire des examens. Pire encore, les corriger...
Lors de mon dernier examen, j'avais fait un questionnaire, avec des choix multiples (4 réponses, une seule bonne). Ça demande un temps fou à préparer, mais la correction est beaucoup plus rapide que lire des dizaines de pages (activité que je me laisse pour les heures à venir, car en plus des questionnaires, il y avait deux gros devoirs sur des bases de données). Et en plus, avec les choix multiples la correction est impartiale !
Dans un monde idéal, j'aimerais pouvoir dire "si vous pensez avoir réussi, passez au cours suivant, sinon reprenez le..." Alors j'ai tenté l'expérience. J'ai demandé aux étudiants d'écrire sur la copie le nombre de bonnes réponses qu'ils pensaient avoir. L'exercice était libre, et sans influence sur la note finale. Enfin, presque. Suite à une suggestion, j'ai accepté de donner des points à toute personne qui prédirait exactement son score !
> ACT6420=read.table("ACT6420-H2012.csv",
> base=ACT6420[ACT6420$obs>0,]
> attach(base)

Tout d'abord, comme l'exercice n'était pas obligatoire, certains (plusieurs) n'ont pas fait de prédiction... et comme souvent, la "non-réponse" est (très) informative,

> reponse=(is.na(pred)==FALSE)
> boxplot(obs~reponse,horizontal=TRUE)

Ceux qui n'ont pas répondu ont moins bien réussi que ceux qui ont répondu. Et sans vouloir revenir sur un point vu en cours (corrélation n'est pas causalité), je suis toujours surpris de fait que les personnes qui ne répondent pas aient un comportement aussi clairement différent de ceux qui répondent.

Maintenant regardons ce qui a été répondu par ceux qui ont joué le jeu, et qui ont fait une prédiction,

> plot(pred,obs,xlim=c(0,40),ylim=c(0,40),
+ xlab="Nombre de bonne réponses prédit",
+ ylab="Nombre de bonne réponses observé")
> abline(a=0,b=1,lty=1,col="red")
> abline(lm(obs~pred),lty=2)

En abscisse la prédiction, et en ordonnée, la valeur observée (un peu comme dans le cours de prévision justement). La courbe en rouge est une prédiction parfaite. Et la courbe en pointillé, la droite de régression. Les meilleurs se sous-estiment (en moyenne), alors que les moins bons se surestiment. Comme le note @ on voit que les moins bons sont en fait un peu meilleurs qu'ils ne le pensent, alors que les meilleurs se surestiment ! Un effet Dunning-Kruger inversé, pour reprendre la terminologie proposée par @. Damned, je ne pourrais donc pas demander aux étudiants de s'auto-évaluer, il va falloir que je continue à corriger mes copies ! (et je vais renouveler l'expérience, pour voir sur plus de copies ce que ça donne !)

Friday, June 22 2012

Les députés sont-ils à l'image de la population

Beaucoup de choses ont été écrites sur le fait que les députés ne sont pas vraiment le reflet de la population, que ce soit en terme de profession, de sexe, d'origine, d'age, etc. La liste pourrait être longue. Il y a plusieurs mois, j'avais commencé à regarder le profil des députés, par age. En effet, le site http://www.assemblee-nationale.fr/ permet d'accéder à des données sur tous les députés, depuis la Révolution. Y compris leur date de naissance. En croisant ces données avec des données de population, par exemple via http://www.mortality.org/, on peut comparer la répartition des ages des députés, avec la répartition des ages de la population.

Pour les amateurs, le code pour récupérer les données (ou au moins les dates de naissance des députés) ressemble à

N=2002
URL=paste("http://www.assemblee-nationale.fr/
sycomore/result.asp?radio_dept=tous_departements&
regle_nom=est&Nom=&departement=&
choixdate=intervalle&D%C3%A9butMin=01%2F01%2F",
N,"&FinMin=31%2F12%2F",N,"&Dateau=&legislature=",
s,"&choixordre=chrono&Rechercher=
Lancer+la+recherche",sep="")
HTML=scan(URL,what="character")
 
k=which(HTML=="class=\"titre\">Né")
vHTML=HTML[k:length(HTML)]
vk=which(substr(vHTML,1,7)=="> ")
liste=vHTML[vk]
naissance=liste[seq(1,length(liste),by=2)]
NAISSANCE=as.Date(substr(naissance,8,17),
"%d/%m/%Y")

Maintenant, pour être tout à fait honnête, je ne suis pas certain de ce qui est vraiment renvoyé, et j'ai des doutes que cela correspondent réellement à la requête faite. En effet, même si je demande à avoir la liste des députés après l'élection, j'ai trop de monde... mais peut-être est-ce du aux décès éventuels, et il est possible que l’ensemble des députés qui ont siégé pendant la mandature apparaissent dans le résultat de la requête.

Sur la figure suivante on voit, sur plusieurs élections depuis plus de 100 ans, comment les deux distributions se déforment, avec en rouge la distribution de l'age des députés, et en bleu, la distribution de la population française, dans son ensemble (population de plus de 18 ans)

Si on veut tout suivre sur un graphique, au lieu de se regarder une animation, on peut représenter les différents quantiles (10%, 25%, 75% et 90%, retenus sur la population de plus de 18 ans, et l'age médian, au centre), avec la population française l'année de l'élection, 

et l'ensemble des élus au parlement,

Si on veut faciliter la comparaison, on peut se contenter de visualiser l'évolution des ages moyens, 

ou encore, du ratio (en % de différence) entre l'age moyen des députés, et celui de l'ensemble de la population.

Sur ce graphique, on voit que depuis 30 ans, l’age moyen des députés croit plus vite que celui de la population: la population français vieilli, mais moins que ses députés... La gérontocratie perdure donc en France. En espérant que cela ne débouche pas sur le clash générationnel que l'on semble observer ces temps-ci au Québec...

Tuesday, April 24 2012

Licornes, philosophes, vieux cons, peer-review et instituts de sondages

oui, vaste programme... Lorsque les enfants étaient petits, je me souviens avoir été maintes fois étonné par la profondeur des questions qu'ils pouvaient poser,

- dis papa, comment tu sais tout ça ?

ou

- dis papa, si j'étais pas né comment ça serait ?

Toutes ces questions sont embarrassantes, car elles sont assez fondamentales quand on y pense. Car le problème est qu'après, les enfants grandissent, et pensent avoir des réponses à ces mêmes questions,

- t'es sûre, tu ne veux pas une licorne pour ton anniversaire ?

- mais non papa, ça n'existe pas les licornes

- bien sûr que si que ça existe, n'oublie pas que les papas ça sait tout ! Et comment tu sais que ça existe pas d'abord ?

- ben j'en ai jamais vu...

- et alors... tu n'as jamais vu de crocodiles, et pourtant ça existe...

- oui mais j'en ai vu à la télé

- et moi à la télé j'ai vu des wookies et des ewoks dans Star Wars, et des dragons dans Harry Potter, et..

- oui mais à la télé ça existe pas ! Les licornes personne n'en a jamais vu d'abord

- et ça suffit pour dire que ça n'existe pas, tu penses ?

(en fait, on peut avoir ce même genre de dialogue avec dieu, ou mieux, le père Noël). Bref, suite à cette discussion je me demandais ce qui faisait qu'on y croyait ou qu'on n'y croyait plus. Par exemple en sciences: l'opposition classique entre sciences et religion est basée sur le fait que la religion repose sur la foi, et alors que la science non, on doit avoir une preuve de ce qu'on avance. Un peu comme le personnage de Gorgias (de Platon), le précurseur de tous nos hommes (et femmes) politiques: on a raison parce qu'on a eu le dernier mot. Et non parce qu'on l'a prouvé. Mais il faut être lucide. La science devient de plus en plus une histoire de foi et de croyance. Par exemple en cours, la très grande majorité de mes élèves me croient si je leur dit qu'une méthode ne marche pas, rares sont ceux qui penseraient à me demander de leur justifier, ou au mois de trouver des éléments étayant mon propos (car la tendance est de faire de moins de moins de démonstration en cours, surtout quand on fait de la statistique appliquée). Par exemple en séries temporelles: lorsque je faisais cours il y a 10 ans à l'université Paris Dauphine, on passait des heures sur les choix des ordres d'autorégression (faut-il un retard à l'ordre 4, ou 12 ?). Maintenant, tous les logiciels font ça automatiquement. Un peu comme le choix de la fenêtre quand on fait de l'estimation à noyau... sous R, on a un choix optimal de fenêtre... et souvent, quand on est pressé, on y croit.

Oui, en sciences, on utilise beaucoup cet argument de foi. Le plus classique étant de dire que ça a été publié dans une grande revue... Et c'est le principe du peer-review: on délègue à d'autres chercheurs la responsabilité de regarder en détails un papier, qui souvent dépasse nos propres compétences, afin de se reposer sur leur jugement les yeux fermés. C'est bien entendu stupide, et c'est pour ça qu'on demande aux étudiants de maîtrise de creuser les papiers en détails, de relire et comprendre les démonstrations, et de faire des simulations pour vérifier si ça marche ! Et je serais bien le premier à dire qu'il ne faut jamais croire ce qui est écrit dans mes livres ou mes papiers ! ou sur le blog ! Quoi que... sur le blog, je mets autant que possible l'intégralité des codes, afin de permettre aux personnes de vérifier plus facilement ce que j'ai fait. Et c'est le gros intérêt du blog pour les chercheurs, par rapport aux articles publiés: on n'est pas là pour épater la galerie (je renvoie d'ailleurs à un très bon article expliquant comment écrire un article scientifique). Sur le blog, on peut davantage lancer des discussions, et être beaucoup plus transparents, et modestes !

Soit dit en passant, cette histoire de foi se retrouve largement dans cette mise en abyme des sondages, évoquée dans un précédant billet, sur le fait que plus personne ne croit aux sondages. Pourtant des grands sociologues et des grands statisticiens ont travaillé depuis des dizaines d'années sur la théorie des sondages. Des centaines d'articles (parus dans des articles relus par d'autres grands scientifiques) justifient certaines méthodes d'analyse. Et pourtant la foi n'est pas là. Peut-être serait-il temps que les instituts soient plus transparents, qu'ils donnent accès aux données brutes. Car je suis convaincu que la transparence est la clé de tout. Enfin presque... pour l'existence du père Noël, je vais me battre autant que possible pour maintenir le doute !

Friday, March 30 2012

Maths can be cool (to impress your kids)

Just imagine that your kids need some help, to prepare fishes for April 1st, like

Her: "please, Daddy, help us to draw some fishes"

Me: "Sure, Daddy is a champion, actually, I do that everyday at work: drawing fishes - and more generally nice stuff - is exactly Daddy's job".

OK, no need to talk neither about Talbot's curves, ellipse negative pedal curve nor Burleigh's ovals, unless you don't want to scare them, e.g.

t=seq(0,2*pi,length=100) 
b=.8
c=sqrt(1-b^2)
x=cos(t)-c*sin(t)^2
y=(1-2*c^2+c*cos(t))*sin(t)/b
plot(x,y)

From now on, it is rather simple to draw fishes,

t=seq(0,2*pi,length=100)
y=cos(t)-sin(t)^2/sqrt(2)
x=cos(t)*sin(t)
plot(x,y,type="l",axes=FALSE,xlab="",ylab="")
polygon(c(-2,-2,2,2),
c(-2,2,2,-2),col="light blue",border=NA)
polygon(x,y,col="red",border=NA)
axis(1)
axis(2)
lines(x,y,type="l")

so we can easily get nice fishes,

Sunday, January 22 2012

before the FBI shut down internet

Saturday, June 25 2011

Let's have a break

I will be in NYC and Boston for the next three weeks...

http://freakonometrics.blog.free.fr/public/perso3/tumblr_lgk6fhC5ht1qe6mn3o1_500.gif

Saturday, May 28 2011

Oui, je suis fâché avec les chiffres

On a tous des secrets plus ou moins difficiles à révéler... Enfin, quand je dis secret c'est un bien grand mot (c'est un peu au sens que pourrait utiliser ma fille quand elle me dit "papa j'ai un secret: ce midi, j'ai mangé deux fois du dessert "). Par exemple, quand un collègue me dit "tu pourrais m'envoyer les transparents de ta présentation", et que je dois lui répondre "tu sais, ils sont sur mon blog": je dévoile un faux secret... Oui, tous les profs qui tiennent un blog en parlent un jour ou l'autre: avouer à des collègues qu'on tient un blog, c'est un secret que l'on révèle encore péniblement... Péniblement n'est peut être pas le mot car si une fois sur deux cela provoque une espèce de réaction condescendante, une fois sur deux cela permet au contraire d'entamer des discussions intéressantes car les interlocuteurs peuvent être curieux...
Non, en l’occurrence, je pensais plutôt aux conversations que j'ai au moins une fois par semaine, quand il faut récupérer un enfant chez un(e) ami(e) à lui (ou à elle). On discute alors avec les parents, et invariablement arrive la question "et vous faites quoi dans la vie ?". J'aimerais bien pouvoir dire "je suis astronaute" ou "je suis constructeur de robots" ou "je suis dompteur de lions", enfin un truc qui fait rêver. Mais non, je dois me contenter d'un "je suis prof de maths". "Pardon ?". "Je suis prof de maths". "Ahhhhhhh". Oui, il y a toujours une espèce de déception que je peux lire dans le regard qui commence soudain à se dérober, comme gêné (genre il aurait espéré "je suis chirurgien cardiaque, et j'ai encore sauvé deux enfants de la mort aujourd'hui", qui aurait donné lieu à un autre type de "ahhhhhhh"). Et là, arrive inéluctablement une phrase qui me place dans l’embarrât: au choix "moi j'ai jamais rien compris aux chiffres" ou "ben vous devez aimer les chiffres alors"...
Et là j'avoue que je ne sais jamais quoi dire... car non, je n'aime pas le chiffres ! C'est d'ailleurs troublant que mathématique soit associé dans l'imaginaire populaire à calculs ou arithmétique. Au XVIIIème siècle, les gens qui faisaient des mathématiques étaient des géomètres. Et, en fait je préférerais qu'on me dise "ben vous devez aimer les dessins alors"... Ou à la rigueur des lettres, car si on regarde deux minutes le blog, mes papiers ou mes notes de cours, on voit des nombres d'accidents qui s'appellent http://freakonometrics.blog.free.fr/public/perso3/mm02.gif, des coûts qui s'appellent http://freakonometrics.blog.free.fr/public/perso3/mm01.gif, des tailles des gens qui s'appellent http://freakonometrics.blog.free.fr/public/perso3/mm04.gif, des choses inconnues qui s'appellent http://freakonometrics.blog.free.fr/public/perso3/mm03.gif ou http://freakonometrics.blog.free.fr/public/perso3/mm05.gif suivant le problème... bref, j'aime les lettres mais surtout pas les chiffres (sauf peut être quelques uns, je ne tiens pas à me brouiller avec tout le monde) !
Je me faisais cette réflexion ce matin, en lisant l'histoire d'une autre monsieur qui était accusé d'être fâché avec les chiffres, ici

Car il était annoncé que «  les deux tiers des échecs scolaires, c'est l'échec d'enfants d'immigrés ». Loin de moi l'idée de commenter l'utilisation de ces chiffres, surtout que je pense que ce monsieur et moi n'avons en commun que le fait d'être tous deux fâchés avec les chiffres. A la lecture de l'article, nous explique ensuite que  "la France compte 13% d'élèves de familles immigrées, soit 87% d'élèves de familles autochtones" selon des sources OCDE. On nous montre alors un graphique expliquant que "18% (des 87%) des enfants d'autochtones et 38% des enfants d'immigrés sont sous le niveau 2 qui correspond, selon le ministre, à une situation d'échec scolaire."

Vient alors une explication "la France compte donc 15,7% (18% de 87%) d'enfants de 15 ans issus de familles autochtones sous le niveau 2 et 4,9% d'enfants de 15 ans issus de familles immigrés (38% de 13%) sous le niveau 2. Donc sur les 20,6% de « sous-niveau 2 » nous n'avons pas deux tiers mais plutôt un quart d'enfants d'immigrés."

Je sais pas vous, mais c'était au réveil, j'avais encore mon café dans la main, et je relisais cette phrase sans rien comprendre... et j'avais beau relire, impossible de comprendre qui disait n'importe quoi... Car personnellement, tant qu'on n'utilise pas un peu de formalisme, je suis perdu...
On peut par exemple faire un dessin... j'ai toute ma population schématisée par le grand rectangle. Dedans j'ai mes "enfant d'immigré" en rouge et "d'autochtones" en vert, et les enfants en échec en bleu, et ceux qui ne le sont pas en violet. Et la question c'est: au sein de la population bleue, quelle est la proportion qui sont bleu et rouge (qui est en jaune en bas à droite) ?
Si on note http://freakonometrics.blog.free.fr/public/perso3/mm06.gif le fait d'être en échec scolaire (population bleue) et http://freakonometrics.blog.free.fr/public/perso3/mm07.gif le fait d'être "enfant d'immigré" (population rouge, je ne discuterais pas la définition, mais les calculs), et que l'on suppose que http://freakonometrics.blog.free.fr/public/perso3/mm08.gif ce sont les enfants "d'autochtones" (population verte), alors on cherche http://freakonometrics.blog.free.fr/public/perso3/mm09.gif, et le monsieur prétend que ça doit être 2/3.
Bon, on sait que http://freakonometrics.blog.free.fr/public/perso3/mm10.gif et http://freakonometrics.blog.free.fr/public/perso3/mm11.gif, et que http://freakonometrics.blog.free.fr/public/perso3/mm12.gif et http://freakonometrics.blog.free.fr/public/perso3/mm13.gif.
Lançons nous dans les calculs: d'après la formule de Bayes,
http://freakonometrics.blog.free.fr/public/perso3/mm14.gif
L'astuce est de noter que
http://freakonometrics.blog.free.fr/public/perso3/mm15.gif
d'où la formule
http://freakonometrics.blog.free.fr/public/perso3/mm16.gif
et ici tout est connu... on a alors
http://freakonometrics.blog.free.fr/public/perso3/mm17.gif
Aussi on retrouve les 24% évoqués dans l'article...
Ce qui est bien quand on formalise, c'est que l'on est certain des chiffres qu'on avance... mais aussi, cela permettrait d'aller plus loin (conditionnellement aux chiffres à notre disposition...). Par exemple, on peut faire un tableau de contingence. On connaît les probabilités marginales
http://freakonometrics.blog.free.fr/public/perso3/mm18.gif
http://freakonometrics.blog.free.fr/public/perso3/mm19.gif
(on a fait le calcul au dessus pour écrire le dénominateur)
contenant les probabilités jointes,
http://freakonometrics.blog.free.fr/public/perso3/mm20.gif
http://freakonometrics.blog.free.fr/public/perso3/mm21.gif
http://freakonometrics.blog.free.fr/public/perso3/mm22.gif
http://freakonometrics.blog.free.fr/public/perso3/mm23.gif
Bref, on pourrait alors faire des tests du chi-deux si on savait sur combien d'élèves les tests ont été fait pour avoir de tels chiffres...
> M=matrix(c(.38*.13,.18*.87,
+ (1-.38)*.13,(1-.18)*.87),2,2)
> n=1000
> f=function(n){chisq.test(n*M)$p.value}
> F=Vectorize(f)
> P=seq(10,1000,by=10)
> plot(P,F(P),type="l",ylim=c(0,.4))
> abline(h=.05,lty=2)

i.e. on a graphiquement en fonction de la taille de l’échantillon (en abscisse) la p-value (en ordonnée) du test d'indépendance du chi-deux.

Autrement dit, sauf si ces statistiques sont tirés d'un échantillon de 200 élèves, on rejette l'hypothèse d'indépendance entre les résultats scolaires et l'origine des élèves. Mais j'avais dit que je ne commenterais pas...
Bref, mon point est qu'il me semble qu'en formalisant un peu, au lieu de s'embrouiller dans un discours rempli de chiffres, on fait moins d'erreurs.

Friday, December 17 2010

Ma vie et les bases de données

Ayant remarqué que les bloggeurs avaient souvent, un jour, envie de parler d'eux dans un billet, je vais faire pareil (oui, je sais Igor prétend que je ne fais déjà que ca ici). Je vais donc parler un peu de ma vie en tant que bloggeur.
Ce blog a été créée après un transfert du blog que je tenais à Rennes 1, qui avait été lancé voilà bientôt un peu plus de 2 ans, et je dois avouer (maintenant il y prescription) que j'ai honteusement volé le nom à un extrait de conversation que j'avais avec Francis Kramarz à l'X (reprenant le nom inventé par Stephen Dubner et Steven Levitt, i.e. freakonomics). L'idée du blog était de parler de choses qui m'amusent dans ma vie d'enseignant-chercheur. L'économie mathématique n'est pas très sexy, et n'intéresse que peu de monde, donc j'évite d'en mettre trop... par contre, j'aime aussi beaucoup les maths appliqués, les statistiques, et l'économétrie. Et l'avantage quand on travaille sur la modélisation, y compris en tant qu'enseignant, c'est qu'on peut illustrer un peu comme on veut. Personnellement je comprends mieux la notion d'optimum de Pareto quand on me parle de se servir de l'eau à la cantine (comme ici), plutôt que de me donner une définition abstraite.
Et il s'avère que ça a plutôt tendance à réveiller les élèves quand on dit que les processus VAR permettent de suivre les mensurations des demoiselles de playboy (comme ici), en tous les cas plus que la modélisation des taux d'intérêt dans la zone euro. Les processus aléatoires, comme  je m'efforce à le dire (ici ou ), c'est beaucoup plus marrant appliqué à des problèmes d'alcooliques qu'appliqué à la valorisation d'options financières. Et les chaînes de Markov appliquées à l'analyse de la pluie en Bretagne (comme ici), ça intéresse tous les élèves qui viennent à la fac en vélo, ou sinon je peux aussi parler de consommation de papier toilette dans les toilettes publique (comme ).
Bref, peu importe le sujet, autant que ce soit amusant, l'idée étant d'illustrer une méthode, une technique, un concept abstrait...
Donc pour amuser mes étudiants (et mes lecteurs) je traîne beaucoup sur internet à la recherche de bases de données, afin d'illustrer des méthodes d'estimation. Alors pour ceux qui n'en ont jamais manipulé, les données, c'est un truc assez incroyable.... Vu de loin, ça ne ressemble pas à grand chose, genre ça peut ressembler à ça,

Mais il y a quelques années, on a vu arriver le datamining, et "les gens" ont commencé à retenir une idée un peu générale du genre "vos données valent de l'or", et depuis, certains refusent de communiquer leurs données. Je ne parle pas de chercheurs qui ont collecté des données, et qui n'ont pas fini de publier dessus (je comprends qu'il puisse exister une relative compétition entre chercheurs), mais je parle de base qui existent.... mais que personne n'exploite. En fait "les gens" ont oublié que s'ils avaient de l'or, il faut peut être des mineurs pour aller le chercher, puis des joaillers pour le retravailler, et enfin des bijoutiers pour rendre ça présentable. Et c'est souvent agaçant de faire face à un refus, de voir ces belles données qui existent, mais qu'on ne peut avoir....
Bref, aujourd'hui je vais faire un billet sur les billets que j'aurais rêvé de faire, mais que je ne fais pas, faute de données....
  • L'argument (magique) de la CNIL pour les bases informatiques
Parmi les arguments qui ressortent sans cesse quand on demande des données, c'est "il faut avoir l'accord de la CNIL". Bon, c'est l'argument de mauvaise foi par excellence.... On m'a sorti cet argument dans un hôpital, ou je voulais avoir des données sur les accouchements, connaitre la durée de la grossesse en fonction de caractéristiques de la mère (et du nombre d'enfants déjà eu, par exemple). Un hôpital m'a aussi dit "on peut vous ouvrir nos armoires, et vous pourrez noter vous même car ca n'est pas informatisé" (oui oui, j'ai eu ca... et j'ai pu vérifier avec la naissance de ma troisième: tout était sur papier... oups, j'ai dit de quel hôpital il s'agissait).
  • On veut la conclusion de l'étude avant de fournir les études
Toujours sur mes études sur la durée des grossesses, j'ai appris que l'Inserm constituait une grosse base de données. J'ai demande à y avoir accès, et fort gentiment, on m'a demande de déposer un dossier de recherche. J'ai donc mis l'objet de l'étude, le nom des étudiants qui auraient travaille sur la base, une biblio pour expliquer que je ne partais pas à l'aveugle, et la liste des variables qui m'auraient intéressées. Et la, par téléphone, on m'a dit que c'était très bien, mais "on a besoin d'avoir vos conclusions avant de vous donner accès aux données". La trouve la démarche (supposée scientifique) surprenante. L'argument m'a un peu dépassé, et je n'ai pas donne suite.
  • L'invention d'arguments (farfelus, parfois)
Toujours sur mon étude sur les naissances, j'ai voulu avoir l'information à la source, c'est à dire dans les CAF. Elles connaissent le terme prévu, le terme réel entre autres, elles disposent de tout plein de variables explicatives. Bref, la source de données idéale. J'ai donc contacté une vingtaine de CAF (car les CAF sont départementales), et j'ai eu une vingtaine de réponses différentes allant du "on n'a pas ce genre de données", "on n'as pas le temps",  "c'est la Caisse Nationale qui a ces données", "il faut l'accord de la Caisse Nationale "... Bref, assez souvent, on botte en touche... Un peu comme "mais vous savez, on ne vend pas de fleurs" que m'a sorti Interflora (je voulais savoir si on commandait plus de fleurs a la Saint Valentin ou a la fête des mères, en vain).
  • Nous on fait dans le qualitatif, pas le quantitatif
Il y a quelques années, j'avais vu passer une étude sur l'évolution des mensurations de miss America (et les données sont en ligne ici). Trouvant l'analyse intéressante, j'ai contacte le comité Miss France pour avoir les mensurations des miss (et si possible des prétendantes), et Madame de Fontenay (oui oui, elle m'a écrit) m'a répondu "nous n'avons pas ces informations, les miss ne sont pas choisies pour leurs mensurations mais pour leur personnalité" (je n'invente presque pas - la seule invention vient de la retranscription car j'ai perdu le mail avec tous mes transferts de boites, mais c'est ce qui était dit en substance). Finalement j'ai ressorti mes vieux playboy, ce qui a permis d'avoir encore plus d'observations d'ailleurs....
  • Ah oui, je vois très bien, mais demandez au service ETDDHRC qui s'en occupe
L'argument magique du "c'est pas moi c'est mon frère" pour reprendre La Fontaine (ou ma fille, je ne sais plus trop). Je l'ai eu sur des demandes anciennes, faites à plusieurs reprises (et liées à des sujets qui ont beaucoup fait parler dans la blogosphere)
  • il y a 4 ou 5 ans, j'ai eu accès à un très gros fichier d'expertises de véhicules, consécutives à des accidents de la route, plusieurs centaines de milliers d'accidents analysés... on avait voulu travailler avec des étudiants sur l'impact des radars automatiques, mais surtout sur la fraude à l'assurance... Sauf qu'avoir les accidents c'est bien, mais il fallait normer par le nombre de véhicules en circulation... j'ai donc demande à plusieurs reprises un accès au fichier des cartes grises pour savoir combien de véhicules étant en circulation (marque, modèle)... tous les services se sont renvoyés la balle... Et je n'ai jamais eu la base...
  • j'ai eu la même discussion il y a quelques mois sur les nouvelles plaques... le Ministère de l'Intérieur affiche (ici) les départements les plus demande (car on a maintenant le choix du numéro que l'on pose sur la plaque), mais on ne peut pas croiser le département de résidence et le département de la plaque.... Étude qui m'aurait amusé car j'ai un joli modèle à tester derrière...
  • sinon à la même période, je souhaite analyser l'impact de la taille des classes sur la réussite scolaire (j'ai fait 4 billets sur le sujets, ici ou , mais sur des données israéliennes): j'ai demande au Ministère de l'Éducation Nationale à avoir accès aux résultats individuels (mais anonymes) d'échantillons du test national de CE1. En particulier, j'étais aussi intéresse par la réussite des enfants nés en janvier par rapport à ceux nés en décembre... Tous les services se renvoyaient la balle, et je n'ai jamais eu les données.
J'oublie de préciser, mais a chaque fois, je précise qu'il s'agit d'une étude académique, et que peux m'engager a ne pas diffuser les données.
  • Le service juridique veut que vous signez 10 pages de "disclosure"
Alors ça c'est le pire... c'est arrivé l'autre jour avec un copain actuaire. Je l'avais sollicité pour quelques données, des triangles de liquidation comme on dit. Bon, ce sont des données un peu sensibles, mais je ne demandais pas les montants de provisions constitues, juste des paiements. J'ai un "c'est bon de notre cote, par contre il faudra que tu signes le document joint", à savoir un document juridique de 10 pages, qui devaient être signées par les présidents de l'Université de Rennes 1 et de l'Université de Montréal (car c'était pour donner un projet à mes étudiants). Ne voulant pas prendre de risques, j'ai laissé tombé....
  • Allez vous servir sur le site (en faisant 5346  requêtes)
Cet argument m'a été sorti par le Ministère de l'Écologie:. Je voulais connaître la liste de toutes les communes touchées par une catastrophe naturelle (et qui ont bénéficié d'un arrêté), "c'est sur le site internet, vous savez, on est moderne nous". Cette information est publique (parue au Journal Officiel) mais je voulais une base. J'ai fait un code l'autre jour pour aller faire plusieurs milliers de requetes (sur les matchs de tennis, mais ca prend du temps... et ca n'est pas toujours simple car il faut aller decoder des fichiers html) heureusement, il y a toujours des copains qui ont ces donnees et qui sont prêt à envoyer un fichier xls dans l'heure).
  • On veut bien donner des bases, mais à des journalistes, pas à des universitaires
Pour la première fois, on évoquait la discrétion, mais dans l'autre sens. Classiquement c'est "on vous donne des chiffres, mais faut pas le dire", mais là c'était "on veut bien les donner, mais faut que ça se sache...". Heureusement, Twitter est là, et on finira par trouver un point d'entrée.... à suivre donc...
Fort heureusement, certains ont compris leur intérêt, et n'hésite pas à m'envoyer des bases si je leur demande. Ca fait une étude gratuite pour eux, et moi je me serais amusé un peu (ou fait travaillé mes étudiants). Mais ce n'est pas la majorité. En attendant, je suis devenu voleur de données. Beaucoup de données traînent sur internet, et en bricolant un peu on peut les récupérer... L'autre jour un copain (que j'avais sollicité pour aller chercher des bases en faisant automatiquement des requêtes sur un site) me demandait "elles sont à qui ces données ?". Et je dois avouer que depuis je doute.... Moralité, je suis un peu surpris de l'étymologie du mot données, car rares sont ceux qui en donnent vraiment... et c'est dommage.

Wednesday, October 27 2010

Prétentieux, va !

Depuis quelques semaines, mes billets sont presque exclusivement en anglais... En fait, même si je fais cours en français, et que la plupart de mes collègues ici parlent français, je me rends compte qu'on parle naturellement anglais.... en tous les cas plus naturellement qu'en France. Les séminaires sont toujours en anglais, dès qu'on discute à plus de 3, la probabilité qu'une personne ne parle pas français est tellement grande qu'on parle le plus souvent en anglais....

Finalement, comme toujours quand je ne suis pas en France, je trouve naturel d'écrire en anglais... (ok, d'essayer d'écrire quelque chose qui ressemble à de l'anglais). Mais hier soir, ma femme m'a fait remarqué que c'était prétentieux d'écrire en anglais... Et effectivement, quand je traîne sur les blogs francophones, presque tous sont exclusivement en français.... Bref, je me remets à douter.
J'ai vu l'autre jour que David Monniaux s'en prenait sur son blog à un édito de Jacques Julliard (ici), et d'ailleurs David publie de plus en plus en anglais ces derniers temps (en tous les cas dès que l'on quitte les sujets franco-français). J'ai vu aussi que de plus en plus de doctorants blogueurs se lancent en anglais...
Le débat reste ouvert, et je suis preneur de toutes les remarques....

Monday, January 18 2010

Quand la formation continue se fourvoie

Le concept d’une formation professionnelle continue, i.e. "tout au long de la vie", remonte à Condorcet, qui partait de l'idée qu’"en continuant ainsi l'instruction pendant toute la durée de la vie, on empêchera les connaissances acquises dans les écoles de s'effacer trop promptement de la mémoire. On pourra montrer l'art de s'instruire par soi-même, comme à chercher des mots dans un dictionnaire, à se servir de la table d'un livre, à suivre sur une carte, sur un plan, sur un dessin, des narrations ou des descriptions, à faire des notes ou des extraits" (ici ou ). Mais pour être honnête, on retrouve des idées similaires chez Platon (ici par exemple). On retrouvera cette expression dans un certain nombre de références de la commission européenne en 2001, suivi d'une résolution du conseil européen en juin 2002. Bref, on y retrouve des idées que je ne peux que cautionner !
Mais forcément la vertue n'existe pas toujours, et c'est un peu ce que racontait Xavier Monnier il y a tout juste un mois dans Bakchich Hebdo, au sujet de la formation continue des avocats,

Il y a quelques jours, l'Institut des Actuaires a suivi le mouvement (même si l'idée était dans les têtes depuis quelques années), avec désormais l'obligation pour les actuaires de suivre l'équivalent de 3 jours de formation (ce qu'on peut rapprocher des 20 heures imposées aux avocats),   

Voilà quelques années que nous essayons avec Frédéric et Stéphane (ici) de monter des formations pour l'Institut.... Reste à espérer que l'effet pervers dénoncé dans l'article ne se retrouve pas chez les actuaires.

Sunday, December 6 2009

En français,... or in English ?

A few months ago, while I was visiting some colleagues in Brazil, I've been told that it was a shame that my blog was only in French. So for a couple of weeks, I have been writing some posts in English... until I came back in France actually. Some researchers have recently asked me (again) if it would be possible to write more posts in English. I'll try, I promise... But to be honnest, I have (at least) two reasons to be reluctant to write in English. The first one is that initially, this blog was dedicated to my student, who prefer explanations in French. The second one is that I would probably find it snobbish for a non fluent English speaker to write in English.I hardly understand why people in other countries would be interested in my posts (I aloread don't understand why so many French speaking people come to visit my blog).

Anyway, so far I have sent details in English about some posts (to some researchers having already some knowledge in French and mainly asked for additional information), but I should probably try to write more in English (all the more that I should probably be travelling more next year). As soon as I find some interesting material I'd like to share.

Tuesday, November 10 2009

Et si je me lançais des fleurs ?

(il parait que l'on n'est jamais mieux servi que par soi même). Bon, ce n'est pas tout à fait l'anniversaire du blog, mais c'est juste que ça fait un an, jour pour jour que j'ai installé un compteur google, le lundi 10 novembre 2008, dans la soirée (et 10 visiteurs avaient été enregistrés ce jour là...)

Depuis, pas mal d'eau est passée sous les ponts, et en plus, un an jour pour jour le 100,000ème visiteur vient de passer !...  et bientôt plus de 400,000 pages vues (à 5% près).
Je ne peux m'empêcher d'être surpris (et ravi) de la fréquentation sur ce blog, qui finalement ne fait qu'aborder des sujets techniques (comme le notaient plusieurs blogs que j'adore, dont ceux de mafeco (ici) ou de rationalité limitée ()) et qui a priori n'intéressent pas grand monde (en tous les cas pas autant que ce qu'indique mon compteur). Comme tous les autres bloggers, je note que l'on passe un temps considérable à se faire plaisir, alors que ce n'est pas le cœur de notre métier: on est jugé sur nos publications dans des revues à comité de lecture, payés pour les cours que l'on peut faire (que l'on doit faire), mais les activités connexes (comme maintenir un blog) n'est pas ce qui que l'on met en avant sur son CV... Mais tant pis ! A priori ce blog devrait continuer, sous une forme ou sous une autre (car la plateforme de Rennes 1 n'est pas sans poser des soucis techniques, et je comprends que Laurent ait quitté le blog de Rennes 1 pour un compte blogspot (ici)). Happy birthday to me !

Wednesday, April 22 2009

Bilan du blog, un an après

Bon visiblement mon blog fait partie de la blogosphère... ce qui apporte une certaine satisfaction, mais aussi une certaine appréhension. Bref, après un an (à peu près) d'existence, je voulais faire un court bilan.

Je trouvais l'idée du blog plus souple pour l'enseignement qu'une page perso classique, permettant de répondre aux questions au fur et à mesure (sans passer par des réponses individuelles par mail), et en mettant en ligne des compléments sur des choses que j'a vu trop rapidement en cours. Je ne sais pas si la solution est meilleure qu'un forum, mais pour ma part, ça me parait plus simple à gérer. Pour la recherche, j'ai longtemps été sceptique, et je crois que je le suis toujours. Le blog est moins clair qu'une page résumant l'ensemble des travaux de recherche (et offrant une certaine vue d'ensemble), même s'il offre la possibilité de compléter les papiers par des bases de données, ou des codes sources. Et parallèlement, je suis ravi par exemple de voir (ici) que Stéphane Loisel rebondi sur mon blog pour écrire un court article passionnant.

En revanche c'est incroyablement coûteux en temps, même si ce n'est pas du temps de perdu, car cela correspond soit au travail qui nous est demandé de faire en temps qu'enseignant chercheur.

Et sinon, pour reprendre un commentaire que j'avais lu sur http://www.mafeco.fr/, et que je partage assez "on a l’impression (en tout cas, c’est mon impression) de participer à ce qui ressemble aux prémices d’une révolution en ce qui concerne la production et la circulations d’idées et de connaissances scientifiques. Je ne sais pas dans quelle mesure les blogs économiques vont se développer en France, mais je suis de plus en plus convaincu que le modèle institutionnel sur lequel est construit la production et circulation d’idées économiques (le système des revues) est voué à évoluer avec internet et les blogs." Cette idée est d'ailleurs énormément développée en ce moment sur la toile, par exemple sur http://blogs.reuters.com/felix-salmon/, qui s'interroge sur le peu d'écoblogueurs (si le mot a un sens) en Allemagne (mais qui est parfois étendu au cas français sur internet, même si "économiste" est souvent réduit à des universitaires qui donnent leur avis sur la politique économique actuelle). En tous les cas, sur l'importance croissante des blogs, je retiendrais l'histoire racontée ici, qui - pour résumer - nous apprend que sur son blog (ici), Hal Turner a obtenu les résultats des stress-tests des banques américaines (qui ne devaient être publiées par les autorités américaines que fin mai) qui annonçait que 16 des 19 banques testées seraient techniquement insolvables et, pour traduire les propos de Hal, "pour le dire franchement, le système bancaire américain serait en train de s'effondrer totalement". Le lendemain matin, lundi, le Dow Jones chute de 3,56%, et les banques s'effondrent, en particulier Bank of America (-24% ), Citigroup (-20% ), JPMorgan (-11%), etc. Bref, pas mal de monde donne beaucoup d'importance à ce blog, même si certaines banques mentionnées ne font pas partie de la liste des banques qui doivent fournir les résultats de leurs stress tests (mentionnée ici). Bref, le trésor américain a démenti les informations officiellement (ici ou ) et donc donné une importance démesurée à ce blog. Bref, quand on fait un blog, on est forcément très narcissique, et on a envie de croire que ce qu'on peut faire va changer le monde...

- page 1 of 3