Freakonometrics

To content | To menu | To search

Personal › liens externes

Entries feed - Comments feed

Saturday, September 22 2012

OGM, ABC et mythologie scientifique

Une tentative de billet en cette fin de semaine pour revenir sur deux évènements scientifiques récents, que certains pourraient trouver surprenant de rapprocher. Mais les deux évènements sont liés à des publications (voire des prépublications) qui ont su faire le buzz, ces dernières semaines. Et si je les rapproche, c'est aussi probablement pour mieux les opposer.

  • d'un coté, l'exclusivité du Nouvel Observateur sur les OGM, et sur l'article de Séralini et al. (2012). Pour reprendre les premières phrases de l'article, "c’est une véritable bombe que lance, ce 19 septembre à 15 heures, la très sérieuse revue américaine "Food and Chemical Toxicology" - une référence en matière de toxicologie alimentaire - en publiant les résultats..." Je ne reviendrais pas sur l'article que je n'ai pas compris (y compris la partie statistique, et je renvoie aux articles parus dans Le Monde ou Libération sur le décryptage) mais sur la perception médiatique de la recherche scientifique... On gardera aussi en mémoire dans le titre de Rue89, "Les OGM dangereux pour la santé : l’étude qui le prouve" (mais les deux sites appartiennent à la même boutique, c'est probablement normal d'y lire la même chose).
  • de l'autre, les articles sur la conjecture d'Oesterlé-Masser, dite ABC, que Shinichi Mochizuki aurait démontré, dans Mochizuki (2012). Peu de journaux semblent en avoir parlé en France, mais le New York Times, par exemple, en parle, "with no fanfare, Shinichi Mochizuki, a mathematician at Kyoto University in Japan, dropped onto the Internet four papers.The papers, encompassing 500 pages and four years of effort, claim to solve an important problem in number theory known as the abc conjecture." Après les précautions d'usage de journalistes qui ne cherchent pas un scoop, on apprend qu'un chercheur aurait résolu (ou prétend avoir résolu) un important problème mathématique. Certains sites comme Business Insider ne s’embarrassent pas trop de précautions, et titrent "World's Most Complex Mathematical Theory 'Cracked'". Si les éditeurs de ce site lisaient le Nouvel Obs, ils auraient peut-être écrit que "c'est une véritable bombe que lance" Shinichi Mochizuki.
Les deux évènements sont radicalement opposés selon moi. L'un étant avec et l'autre sans fanfare, comme le note le New York Times. Mais ce qui me dérange dans ces deux évènements, c'est le mythe entretenu par certains journalistes sur le fonctionnement de la recherche. On se cache (autant que possible), et quand on est prêt (ou quand on pense l’être), on lance une "bombe" !
Je dois avouer que je rêve moi aussi d'écrire un article qui révolutionnerait le monde ! ou au moins mon monde, mon tout petit monde (pour reprendre le titre du livre de David Lodge)... Mais non, ce que je fais n'intéresse personne... 
Et je ne crois pas non plus en la culture du secret, au contraire: dès que j'écris un truc, que je le présente dans une conférence, que ma grand mère en parle à une de ses amies au téléphone, j'en parle sur mon blog, et je mets les documents (y compris les codes pour les reproduire) sur mon blog. Car je ne me fais même plus d'illusion sur la portée de mes recherches. 24 articles ont cité des travaux que j'avais fait sur les comportements limites des copules Archimédiennes (dans la queue inférieure), mais 1 seul cite ceux sur les mesures d'inégalité et de pauvreté. 
Ce qui est désolant, c'est cette vision du monde de la recherche; avec d'un coté, les chercheurs qui lancent des bombes, et de l'autre, ben.... les chercheurs qui admirent leurs collègues? qui les jalousent? qui se tournent les pouces? Ce n'est pas si simple que ça.... Par exemple, pour les travaux sur les OGM (ou sur le Roundup car je n'ai toujours pas compris si l'étude portait sur un OGM, ou sur un désherbant), les "les chercheurs français" ne sont probablement pas les seuls à publier sur le sujet ! 
Dans le cas d'ABC, Slate explique clairement les choses: "la démonstration du Japonais est détaillée dans quatre articles scientifiques (repris sur le site de Nature) qui reposent chacun sur d’autres longs articles". Oui, ce n'est pas un chercheur tout seul qui a fait la découverte. Shinichi Mochizuki s'appuie "sur d'autres longs articles", publiés par des chercheurs qui n'auront jamais leur heure de gloire, que l'histoire (y compris l'histoire des sciences) oubliera probablement... Mais ce n'est pas grave, car peu, très peu cherchent la gloire. Et tous fuient la médiatisation comme la peste !
Fort justement, The Telegraph posait l'autre jour la question suivante "How many scientists does it take to make a discovery?". Intéressante question, n'est-ce-pas ? (et j'ai été déçu que l'article soit aussi court). Car oui, derrière les articles qui font du buzz, il y a des chercheurs qui cherchent... L'article note d'ailleurs dès le début que "the era of the lone genius, as epitomised by Albert Einstein, has long gone"... "long gone" ? Pas si sur quand on voit la mythologie véhiculée par certains journalistes.... Il serait temps que ça change.

Saturday, April 28 2012

Open data and ecological fallacy

A couple of days ago, on Twitter, @alung mentioned an old post I did publish on this blog about open-data, explaining how difficult it was to get access to data in France (the post, published almost 18 months ago can be found here, in French). And  @alung was wondering if it was still that hard to access nice datasets. My first answer was that actually, people were more receptive, and I now have more people willing to share their data. And on the internet, amazing datasets can be found now very easily. For instance in France, some detailed informations can be found about qualitifications, houses and jobs, by small geographical areas, on http://www.recensement.insee.fr (thanks @coulmont for the link). And that is great for researchers (and anyone actually willing to check things by himself).

But one should be aware that those aggregate data might not be sufficient to build up econometric models, and to infere individual behaviors. Thinking that relationships observed for groups necessarily hold for individuals is a common fallacy (the so-called " ecological fallacy"). 

In a popular paper, Robinson (1950) discussed "ecological inference", stressing the difference between ecological correlations (on groups) and individual correlations (see also Thorndike (1937)) He considered two aggregated quantities, per american state: the percent of the population that was foreign-born, and the percent that was literate. One dataset used in the paper was the following

> library(eco)
> data(forgnlit30)
> tail(forgnlit30)
Y          X         W1          W2 ICPSR
43 0.076931986 0.03097168 0.06834300 0.077206504    66
44 0.006617641 0.11479052 0.03568792 0.002847920    67
45 0.006991899 0.11459207 0.04151310 0.002524065    68
46 0.012793782 0.18491515 0.05690731 0.002785916    71
47 0.007322475 0.13196654 0.03589512 0.002978594    72
48 0.007917342 0.18816461 0.02949187 0.002916866    73

The correlation between  foreign-born and literacy was

> cor(forgnlit30$X,1-forgnlit30$Y)
[1] 0.2069447

So it seems that there is a positive correlation, so a quick interpretation could be that in the 30's, amercians were iliterate, but hopefully, literate immigrants got the idea to come in the US. But here, it is like in Simpson's paradox, because actually, the sign should be negative, as obtained on individual studies. In the state-based-data study, correlation was positive mainly because foreign-born people tend to live in states where the native-born are relatively literate...

Hence, the problem is clearly how individuals were grouped. Consider the following set of individual observations,

> n=1000
> r=-.5
> Z=rmnorm(n,c(0,0),matrix(c(1,r,r,1),2,2))
> X=Z[,1]
> E=Z[,2]
> Y=3+2*X+E
> cor(X,Y)
[1] 0.8636764

Consider now some regrouping, e.g.

> I=cut(Z[,2],qnorm(seq(0,1,by=.05)))
> Yg=tapply(Y,I,mean)
> Xg=tapply(X,I,mean)

Then the correlation is rather different,

>  cor(Xg,Yg)
[1] 0.1476422

Here we have a strong positive individual correlation, and a small (positive correlation) on grouped data, but almost anything is possible.

Models with random coefficients have been used to make ecological inferences. But that is a long story, andI will probably come back with a more detailed post on that topic, since I am still working on this with @coulmont (following some comments by @frbonnet on his post on recent French elections on http://coulmont.com/blog/).

Wednesday, February 22 2012

C'est la grève

L'assemblée des étudiants de la Faculté de Sciences de l'UQAM semble s’être prononcé, ce soir, en faveur de la grève illimitée...Plus d'info sur http://www.mouvementetudiant.info/ ou http://www.aessuqam.org/ (pour le campus des sciences de l'UQAM).

Tuesday, March 8 2011

The 10 Best Jobs of 2011, 2. Mathematician 3. Actuary and 4. Statistician

There are a lot of interesting jobs, for sure.

Almost two years ago, I mentioned (see here) that "top" jobs in 2009 were 1. Mathematician  2. Actuary and 3. Statistician. This year, results are quite similar with 1. Software Engineer 2. Mathematician  3. Actuary and 4. Statistician (online here).


Wednesday, January 26 2011

Proud to be a geek (and to be recognized as statistician)

Recently, a blog (http://www.bschool.com/) mentioned that my blog was #5 among "40 Fascinating Blogs for the Ultimate Statistics Geek". Xian (here) and the Statisfaction team (there) are also mentioned. And I am glad to see that some people might think I am a statistician. And I am proud that some people consider me as a geek.... 'cause I think I am.

Sunday, January 2 2011

Psychological Pressure in Competitive Environments

Recently, in the American Economic Review (here) Ignacio Palacios-Huerta, who published Soccernomics, and Jose Apesteguia analyzed 265 shootouts between 1970 and 2008. And one of the result, is that the team to kick first has a 60 percent chance of winning while the opponent that goes second wins 40 percent of shootouts. Note that this difference is significant
> prop.test(157,265)
 
1-sample proportions test with continuity correction
 
data: 157 out of 265, null probability 0.5
X-squared = 8.6943, df = 1, p-value = 0.003192
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.5304782 0.6517017
sample estimates:
p
0.5924528
The study indicates that the advantage (ranging from 15 percent to 24 percent) exists across various types of competitions, international or domestic, neutral field or not and whether or not the first team is home or away. Further, note that the dataset can be downloaded here.


Wednesday, October 20 2010

World Statistics Day: no post today

Today is the World Statistics Day. Since on this blog I talk about statistics everyday, I thought it would be perfect to take a day off... At least, I can suggest to go and read some interesting blogs around, e.g;

By the way, you can read RSS feed of some blogs here, on the right... Have a nice day !

Sunday, October 17 2010

Translating a blog ? thanks Google Translate

As mentioned already several times on that blog (here or there), since some people who do not speak French might be interested in my blog, I started to write in English. Indeed, since I work now in a more internation enviromnent, I find it more natural to write in English (or at least something that might sound like English language). For older posts, actually, @Vicnent mentioned yesterday that it is possible to get a complete translation of a blog using google translate, e.g. here. That's simply amazing... now I can read in French some blogs writen in Portuguese, such as http://drunkeynesian.blogspot.com/... there.

Sunday, August 22 2010

La multiplication des blogs ?

Le transfert de blog suit son petit bonhomme de chemin... Le blog

est le plus complet, et celui qui sert désormais de référence, compte tenu des déconvenues sur le blog de Rennes 1. J'ai malgré tout souhaité maintenir
qui est le blog intial (sur la mise en page, les billets sont plus propres que sur les billets transférés). Ce blog continuera d'exister, mais ne contiendra que les billets de recherche et d'enseignement. Enfin, un nouveau né,
- hébergé chez Hypothèses, portail de carnets de recherche - je mettrai les billets de recherche uniquement.

Sunday, August 8 2010

Petit cours de sondage avant les vacances

Wednesday, June 2 2010

Arrêtez donc vos singeries !

Tout le monde connaît l'expérience où l'on compare les gains financiers obtenus par un traders expérimenté et un singe. Même si beaucoup de sites évoquent "la célèbre expérience", je n 'en ai pas trouvé beaucoup - en France - qui donnent une référence claire. Cette expérience  était née d'une théorie de Burton Malkiel dans son livre a random walk down wall street, qui affirmait "a blindfolded monkey throwing darts at a newspaper’s financial pages could select a portfolio that would do just as well as one carefully selected by experts". En 1988, le Wall Street Journal a pris Burton Malkiel au mot, et a tenté l'expérience.Mais ils n'utilisèrent pas des singes, et ce furent des journalistes qui tiraient au hasard les actions sur lesquelles ils investiraient (alors que parallèlement, les mêmes sommes étaient confiées à des vrais investisseurs). Après 6 mois d'expérience, ils firent le bilan. "On October 7, 1998 the Journal presented the results of the 100th dartboard contest. So who won the most contests and by how much? The pros won 61 of the 100 contests versus the darts. That’s better than the 50% that would be expected in an efficient market. On the other hand, the pros losing 39% of the time to a bunch of darts certainly could be viewed as somewhat of an embarrassment for the pros. Additionally, the performance of the pros versus the Dow Jones Industrial Average was less impressive. The pros barely edged the DJIA by a margin of 51 to 49 contests. In other words, simply investing passively in the Dow, an investor would have beaten the picks of the pros in roughly half the contests (that is, without even considering transactions costs or taxes for taxable investors). The pro’s picks look more impressive when the actual returns of their stocks are compared with the dartboard and DJIA returns. The pros average gain was 10.8% versus 4.5% for the darts and 6.8% for the DJIA." Il semble que l'Expansion en France ait aussi voulu tenter l'expérience.

La conclusion de cette expérience est qu'en moyenne, il est dur de battre le hasard ! Une autre conclusion peut aussi être qu'en mettant 500 singes dans une salle de marchés, au bout d'un certain temps on peut en trouver un qui sera aussi riche que Georges Soros, comme le disait Jean-Philippe Bouchaud. On peut parler de grandes déviations éventuellement...
Cette histoire peut prêter à sourire, effectivement, mais un think tank plutôt conservateur outre atlantique (le National Center for Public Policy Research) envisage de faire la même chose pour prédire les ouragans: au lieu d'écouter les climatologues, ils envisagent de faire appel à un singe (comme mentionné ici ou ).  Même si les prévisions des chercheurs ne sont pas toujours très fiables (en particulier sur les catastrophes comme les séismes ou les ouragans), elles reposent sur des éléments rationnels, avec souvent des intervalles de confiance.... Oui, je suis le premier à râler quand Météo France prévoit un beau week end et qu'au final il pleut, mais je suis agacé par ces démagogues qui critiquent le travail des scientifiques (surtout qu'en l'occurrence, je pense que le NCPPR confond  météo et climat, mais c'est un autre débat). Il y a un an, la communauté scientifique essayait de faire comprendre qu'elle n'était pas un parasite, voilà que maintenant il faut que l'on se batte pour faire comprendre qu'on fait des choses qu'un chimpanzé ne saurait pas faire ! On est décidément tombé bien bas...

Monday, April 19 2010

Les gens sur internet sont anormaux (enfin, les mecs surtout)

J'étais tombé l'autre jour, un peu par hasard, sur des jolies courbes sur ce que racontent les gens sur internet,

Ne faisant ni une, ni deux, j'ai fait ma propre étude pour prouvé de manière assez éloquente (je trouve) qu'internet est peuplé de gens anormaux....
  • Question intelligence, que des génies !
Pour faire des statistiques, rien de plus simple: je suis allé sous google, et j'ai demandé le nombre de personnes qui ont déclaré "my IQ is <x>" avec x prenant les valeurs 80, 81, etc, puis de compter le nombre de réponses (estimé) annoncé par google. Par exemple un QI de 100, j'ai tapé la phrase (entre guillemets), "my IQ is 100", puis je lis
Résultats 1 à 10 sur un total d'environ 112 000 pour "my IQ is 100" (0,23 sec.)
Afin de normer, j'ai aussi demandé combien de personnes montraient leur QI sur internet
Résultats 1 à 10 sur un total d'environ 1 050 000 pour "my IQ is" (0,23 secondes)
Les résultats sont assez éloquents, avec le nombre de réponses en ordonnée (en échelle logarithmique) et le QI en abscisse,

(j'ai mis la base en ligne ici, mais forcément, ça va changer dans le temps). Afin de comparer par rapport aux gens normaux, comme on l'apprend sur wikipedia (ici), « la moyenne du QI standard est fixée à 100 pour des raisons historiques. L'écart type à 15 est arbitraire, mais il correspond à un écart probable de 10, ce qui veut dire qu'entre un QI de 90 et de 110, il y a 50 % de la population. Pour les psychologues américains "un individu sur deux est normal", donc entre 90 et 110 se situe la zone de normalité ».  Bref, on peut rajouter sur le graphique la répartition que l'on devrait avoir sous hypothèse de normalité (qui est généralement supposée pour la distribution du QI). Bref, il semble qu'il y ait beaucoup de génies sur la toile, en particulier un peu trop de QI dépassant 140...
  • Question physique, rien à redire (enfin, presque) !
Mais si les internautes sont brillants, autant le dire tout de suite, les hommes qui sont sur internet sont en plus incroyablement bien dotés par la nature (à croire que le enlarge your penis marche). Si on tape la phrase "i have a <x> inch penis", on obtient la distribution suivante présentée ci-dessous. J'ai rajouté la distribution des gens normaux, que l'on trouve ici par exemple (et on apprend qu'un ajustement normal est là encore possible). Soit l'encyclopédie de médecine et des cas pathologiques est très bien référencée, soit des chevaux ont réussi à créer leurs propres pages ouebes !

Quant aux femmes, les résultats sont beaucoup moins aberrants. Comme dans l'exemple donné en haut, je me suis intéressé à la taille des bonnets, i.e." i have a <x> cup" où x prend les valeurs A, B, C, etc. Afin de corriger un peu, j'ai aussi rajouté le mot clé "breast" (afin d'éviter d'avoir des résultats sans rapport avec le problème étudié)

Les résultats sont assez troublants (?), puisque les femmes qui surfent (et qui évoquent la taille de leur poitrine sur internet) semblent assez conforme à la population normale (j'ai trouvé des statistiques ici). Même si sur google, certaines évoquent des bonnets F ou G, que je n'ai pas dans mes statistiques...

Moralité, faut jamais croire les mecs qui parlent d'eux sur internet ! Ils sont statistiquement anormaux....

Monday, March 1 2010

Regarder la télé rend idiot, c'est prouvé...

Bon, en fait je me suis contenté de reprendre un titre volé sur le site de TF1 (et d'en tirer peut-être des conclusions un peu rapidement), qui écrivait la semaine dernière

Si on regarde le papier sur lequel est tiré cette étude (ici), on y apprend effectivement que le QI sur des populations de fumeurs et de non-fumeurs est différentes1.

Un rapide test d'égalité de moyenne permet de le confirmer

Dans l'article, ils ont la présence d'esprit de décorréler la variable fumer d'éventuels effets socio-économiques (les fameux variables cachées qui créent de la spurious correlation). Bref, si on regarde la distribution de la moyenne du QI pour chacun des groupes (fumeurs en rouge, nonfumeurs en bleu)

De là à conclure qu'il existe une relation de causalité, certains n'hésite pas à sauter le pas ! Ah, ce fameux débat entre corrélation et causalité.... quand arrivera-t-il enfin en école de journalisme2 ?
1 j'admettrais ici qu'il existe là aussi un lien entre l'idiotie et la mesure du quotient intellectuel. Pour citer Alfred Binet, « je nomme intelligence ce que mesurent mes tests », de manière un peu tautologique (mais dont j'aime beaucoup la réponse !).
2 à supposer qu'il faille avoir fait une école de journalisme pour entrer chez TF1, mais je n'en sais rien, je n'ai pas la télé....

Thursday, November 19 2009

Peut on faire l'économie du formalisme quand on parle d'extrêmes ?

Tous les blogs économiques saluent la parution en poche du joli petit livre de Daniel Zajdenweber, Economie des Extrêmes. En particulier, beaucoup de monde salue ce livre qui explique simplement des choses complexes.... Par exemple Alexandre dès 2001 "Passé le premier chapitre, un peu ardu, et qui nécessite du lecteur des connaissances de base en statistique et probabilités (notion de lois de probabilité, d'espérance, de variance...) qui décrit en termes littéraires les caractéristiques de ces lois, l'auteur applique ces résultats à un grand nombre de phénomènes concrets, et en tire les conséquences". Mais peut-on parler d'économie des extrêmes sans être technique ?
Histoire que mon message ne soit pas déformé, je trouve passionnant ce petit livre introductif à la problématique des risques extrêmes (qui est un de mes dadas depuis quelques années) mais j'espère qu'il servira d'encouragement à une lecture d'ouvrages plus détaillés sur le sujet. Car la vulgarisation a des limites que l'on atteint vite quand on parle de sujets aussi complexes.

L'exemple que j'ai le plus étudié est celui des sinistres de perte d'exploitation (longuement évoqué par Daniel Zajdenweber dans son livre). Il y a quelques années j'avais utilisé cette partie du livre comme base pour faire un sujet d'examen pour le cours de "réassurance et grands risques" que je donnais alors à l'ENSAE1. Et malheureusement, mes compétences littéraires sont très limitées, donc je vais faire des maths. Dans le livre, la figure suivante est présentée,

qui correspond effectivement à la fonction tracée dès 1925 par Karl Gustav Hagstroem (j'avais souligné (ici) ses travaux précurseurs où l'intérêt de la loi de Pareto pour modéliser les très grands riques apparaissait pour la première fois). C'est en effet assez naturel: si on a une loi de Pareto, i.e.
http://perso.univ-rennes1.fr/arthur.charpentier/latex/z01.png
alors on pourrait écrire, en passant au logarithme
http://perso.univ-rennes1.fr/arthur.charpentier/latex/z02.png
Si on représente la version empirique, c'est à dire le nuage de points
http://perso.univ-rennes1.fr/arthur.charpentier/latex/z03.png
alors pour une loi de Pareto, les points devraient être alignés suivant une droite, et la pente doit correspondre au paramètre de la fonction puissance. C'est visiblement l'idée exploitée ici.

Autrement dit, les pointillés ne sont un intervalle de confiance, mais juste un outils graphique pour se demander si la pente vaut 1, ou pas. Daniel Zajdenweber affirme que la pente doit ici être -1.

Le fait que la valeur soit unitaire ou pas a en effet un impact très important en terme d'assurabilité du risque de perte d'exploitation. Rappelons que pour une variable positive (et c'est le cas ici). Et si on a une telle loi de Pareto (de puissance unitaire), alors la prime pure d'un traité de réassurance, couvrant entre m et M s'écrit
http://perso.univ-rennes1.fr/arthur.charpentier/latex/z06.png
soit
http://perso.univ-rennes1.fr/arthur.charpentier/latex/z07.png
ce qui correspond aux calculs de Daniel Zajdenweber... Mais encore une fois "l'absence d'espérance mathématique de la distribution des sinistres" est une conclusion très forte sur laquelle on peut essayer de revenir.
http://perso.univ-rennes1.fr/arthur.charpentier/latex/z04.png
aussi ici
http://perso.univ-rennes1.fr/arthur.charpentier/latex/z05.png
autrement dit, l'espérance est finie si la pente est strictement plus grande (en valeur absolue) que 1. Si la pente est inférieure (ou égale) à 1, le risque n'est pas assurable ! Ce qui est une conclusion très très forte pour les assureurs.
J'ai donc demandé à la FFSA la base de données utilisée ici, et pour éviter des problèmes d'inflation des coûts de sinistres entre 1992 et 2000. Si je prends tous les sinsitres, on obtient l'ajustement de Pareto suivant

soit une pente (en valeur absolue de 1.47). Mais encore une fois, l'ajustement de Pareto se fait sur les grands sinistres. Hill a proposé un estimateur très populaire pour estimer ce coefficient, où on ne prend en compte que les k observations les plus grandes, et on regarde l'estimation de la pente du graphique de Pareto pour ces quelques valeurs. On représente alors l'estimation en fonction du nombre de grands sinistres, ou du seuil définissant les graphs sinistres. Numériquement, en posant
http://perso.univ-rennes1.fr/arthur.charpentier/latex/z08.png
on peut écrire comme estimateur de la pente
http://perso.univ-rennes1.fr/arthur.charpentier/latex/z09.png
soit, en simplifiant le numérateur,
http://perso.univ-rennes1.fr/arthur.charpentier/latex/z10.png
tel que l'a construit Hill en 1975. Graphiquement, on a ici

Bref, la question est ce savoir si on atteint la valeur 1 pour les grands sinistres. Graphiquement, on a malgré tout envie de rejeter cette hypothèse.
Une solution peut être de faire un test statistique, basé sur de ratio de vraisemblance, comme le suggèrent Reiss & Thomas (2001) or Coles (2001). En fait, on peut même utiliser d'autres estimateurs que celui de Hill, comme celui obtenu en faisant un ajustement de loi GPD (Pareto généralisée) sur la loi des Excès, ou une loi GEV sur des maximas par blocs (Generalized Extreme Value). On introduit alors la statistique de test suivante
http://perso.univ-rennes1.fr/arthur.charpentier/latex/z12.png
et on regarde les p-value (ainsi que la correction de Bartlett à droite),

On peut aussi, plus simplement, estimer plusieurs coefficients de pentes pour des seuils différents, et regarder la borne supérieure de l'intervalle de confiance,

Bref, même si avec un des ajustements de loi GPD on hésite à retenir une pente unitaire, la plupart des tests rejettent cette hypothèse, et donc le risque de perte d'exploitation semble être assurable, d'espérance mathématique finie. Bref, les dessins c'est très bien pour faire passer une idée, mais ne retenir que ça pour en tirer des conclusions aussi fortes me laisser sceptique....

Monday, May 18 2009

Ah, les joies d'internet....

Bon, ce matin, je vais enfoncer des portes ouvertes.... mais il faut bien le faire de temps en temps ! Les étudiants savent qu'on peut tout trouver sur internet... y compris des choses fausses, ce qui peut avoir le don de m'irriter. J'avais déjà parlé ici de résultats faux que l'on pouvait trouver sur internet, dans ce que l'on appelle des prépublications. Comme le nom l'indique, il ne s'agit pas d'une publication, qui aurait subit une relecture critique de spécialistes du sujet. Il peut donc y avoir des fautes. Je rappellerais qu'il peut également y avoir des fautes des des articles publiés. C'est plus rare (en tous cas pour les très bonnes revues), mais c'est possible ! 

Mais dès qu'on quitte le monde académique - avec une révision par des pairs - ça commence à devenir beaucoup plus aléatoire. En particulier quand on commence à tomber sur les mémoires en ligne, comme sur ce site (ici). Il ne s'agit pas de mémoires qu'auraient mis en ligne les encadrants après relecture, mais bel et bien d'étudiants qui ont posté leur travaux, pensant agir pour le bien de la communauté !

Ce week end, j'ai reçu un mail d'un étudiant d'une formation en actuariat, qui voulait utiliser les copules, car c'est à la mode. L'étudiant pensait utiliser la copule de Frank pour avoir de la dépendance un peu extrême, de la tail dependence. C'est un sujet que j'ai abordé dans plusieurs exposés, et sur lequel on a écrit un papier avec Johan Segers dans le contexte des copules archimédiennes (ici ou ), et incontestablement, la dépendance dans le cas d'une copule de Frank est assez faible... L'argument était basé sur un résultat apparaissant sur ce site (ici, mais j'aurais la décence de ne pas citer le mémoire) qui écrivait la chose suivante,
Bref, à partir de cette remarque, l'étudiant pensait que l'utilisation de la copule de Frank était légitime. J'ai été un peu surpris, et je suis allé voir le papier cité comme Carpenter (2007). Il ne s'agit pas d'un monsieur s'appelant Carpenter, mais de l'intermédiaire de réassurance Guy Carpenter, faisant partie du groupe Marsh. Dans un "papier" très intéressant
est présenté le même graphique que celui que l'on retrouve en ligne,sauf que la légende (qui avait supprimée) indique clairement que la copule n'est pas celle de Frank mais de Student !

Bref, récupérer des documents en ligne peut être intéressant, mais il convient de relire plusieurs fois ce qui est raconté. Et encore, dans ce cas on a de la chance car la référence est indiquée, ce qui permet d'aller vérifier la source, mais généralement ce n'est pas le cas ! Ou alors c'est mal indiqué: dans le mémoire que je mentionne ici, on apprend en bibliographie que Laure Elie et Bernard Lapeyre auraient fait le cours de Monte Carlo à l'ENSAI ! Le (très bon) poly se trouve en ligne (ici), et pour information, le X signifie Ecole Polytechnique. Et accessoirement, Michel Denuit a travaillé avec Antoine Delwarde sur les tables de mortalité prospective, et c'est avec moi qu'il a publié ce livre de théorie du risque...
Bref, merci de ne pas prendre pour argent comptant ce qui traîne sur internet... et c'est d'ailleurs valable pour ce qui traîne sur ce blog !

REMARQUE: beaucoup (j'exagère un peu, ou beaucoup) d'étudiants ont tendance à recopier (via un simple copier/coller) des passages de documents trouvés en ligne. Je passe sur le fait que certains le font dans des documents que je mets en ligne alors que je suis éventuellement membre du jury (sans bien sûr citer la source). Mais pour information, c'est à cause de ce genre d'erreurs que l'on repère facilement le plagiat.
Le second point est qu'il est fondamental de citer correctement ses sources. Si l'argument de l'honnêteté intellectuelle ne fait pas mouche, il convient de le faire au moins pour se dédouaner (partiellement) de certaines erreurs.

- page 1 of 2