Freakonometrics

To content | To menu | To search

Tuesday, October 23 2012

Predictions and errors

There have been a lot of interesting papers about the "manslaughter trial" of six seismologists and a government official in Italy, where justice pointed out that there was a failure to warn the population before the deadly earthquake in 2009, see e.g. "Trial Over Earthquake in Italy Puts Focus on Probability and Panic" on nytimes.com, "Italian scientists convicted of manslaughter for earthquake risk report" on arstechnica.com, "Italian court ruling sends chill through science community" on reuters.com, "Scientists on trial: At fault?" on nature.com or (probably the most interesting one) "The Verdict of the l’Aquila Earthquake Trial Sends the Wrong Message" on wired.com.

First of all, I started less than 15 months ago to work on earthquake series and models, and I am still working on the second paper, but so far, what I've seen is that those series are very noisy. When working on a large scale (say http://latex.codecogs.com/gif.latex?\pm500km), it is still very difficult to estimate the probability that there will be a large earthquake on a large period of time (from one year to a decade). Even including covariate such as foreshocks. So I can imagine that it is almost impossible to predict something accurate on a smaller scale, and on a short time frame. A second point is that I did not have time to look carefully at what was said during the trial: I just have been through what can be find in articles mentioned above.

But as a statistician, I really believe, as claimed by Niels Bohr (among many others) that "prediction is very difficult, especially about the future". Especially with a 0/1 model (warning versus not warning). In that case, you have the usual type I and type II errors (see e.g. wikipedia.org for more details),

  • type I is "false positive error" when you issue a warning, for nothing. A "false alarm" error. With standard "test" words, it is like when a pregnancy tests predict that someone is pregnant, but she's not. 
  • type II is "false negative error" failing to assert something, what is present.Here, it is like when a pregnancy tests predict that someone is not pregnant, while she actually is.

The main problem is that statisticians wish to design a test with both errors as small as possible. But usually, you can't. You have to make a trade-off. The more you want to protect yourself against Type I errors (by choosing a low significance level), the greater the chance of a Type II error. This is actually the most important message in all Statistics 101 courses.

Another illustration can be from the course I am currently teaching this semester, precisely on prediction and forecasting techniques. Consider e.g. the following series

Here, we wish to make a forecast on this time series (involving a confidence interval, or region). Something like

The aim of the course is to be able to build up that kind of graph, to analyze it, and to know exactly what were the assumptions used to derive those confidence bands. But if you might go to jail for missing something, you can still make the following forecast

From this trial, we know that researchers can go to jail for making a type II error. So, if you do not want to go to jail, make frequent type I error (from this necessary trade-off). Because so far, you're more likely not to go to jail for that kind of error (the boy who cried wolf kind). Then, you're a shyster, a charlatan, but you shouldn't spend six years in jail ! As mentioned on Twitter, that might be a reason why economist keep announcing crisis ! That might actually be a coherent strategy...

Sunday, April 24 2011

De "too big to fail" à "too connected to fail"

J'avais évoqué la notion d'endogénéité en risk management en reprenant l'exemple du Millenium Bridge (tel qu'il avait été introduit par Jon Danielsson et Hyun Song Shin, ici). L'autre jour, en regardant Inside Job, j'ai vu passé une autre joli métaphore sur la notion de risque systématique (ou "systemic risk", que j'avais évoqué ici au sujet des variables annuities).

L'idée est que dans les supertankers, il n'y a pas un unique réservoir, mais plusieurs, bien compartimentés. Cette séparation est indispensable pour éviter que le bateau ne tangue... J'ai trouvé le parallèle assez parlant.
Mais sinon, au delà du « too big to fail » (dont j'avais parlé voilà presque deux ans, ici) il ne faut pas oublier le « too connected to fail ». Mary Weiss avait proposé une réflexion très intéressante sur le sujet lors de sa venue à Québec il y a une quinzaine de jours (les transparents sont en ligne ici) sur les connections existant entre assureurs, réassureurs, et institutions financières.

Tuesday, April 12 2011

Some stylized facts about large risk covers

A couple of weeks ago, David Cummins (here) was giving a talk in Laval University. And we've seen a series of extremely interesting graphs and figures about catastrophe reinsurance market, as well as Cat Bonds prices. The first one was the rate one line index for catastrophe reinsurance (the rate on line is the excess of loss premium expressed as a percentage of the reinsurance cover), from Guy Carpenter (2010, page 10 here).

Following hurricane Andrew in 1992, prices went up quite high. But following hurricane Katrina (which is, so far, the most costly insured disaster following the second World War, with a cost exceeding 70 billions US$ - 2008 $ - while Andrew was only 24 billions - again 2008 $), the bump is much smaller. I though cycles where much larger in the reinsurance industry.

Then there was a discussion about cat bond pricing, with a graph from Lane Financial (2010, page 13, here) with the ratio premium over expected loss

This is extremely interesting, even if it is only about cat bond, and not about reinsurance covers. Usually, when we introduce premium principles in actuarial courses, we start with the pure premium, i.e.

http://freakonometrics.blog.free.fr/public/perso2/chargement-PP-02.gif

Then we explain that with such a price, ruin probability is certain (with an infinite time horizon), so we need to add a safety margin, and a standard idea (but that can be criticized since the expected value has - usually - nothing to do with the variability) is to add a loading proportional to the pure premium. Then the premium is

http://freakonometrics.blog.free.fr/public/perso2/chargement-PP-01.gif

For small risks, like motor insurance, the loading is not huge. Actually, if risks have finite variance, it can be obtained simply using the central limit theorem (but I'll get back on that point in a couple of weeks). Here, we see that loading http://freakonometrics.blog.free.fr/public/perso2/thetaloading.gif can be large (up to 400% in 2009). 

An finally an updated graph with a comparison between BB corporate bonds coupon, and BB catastrophe bonds coupon,

(I guess the source is again Morton Lane). I found surprising the recent gap (following Katrina) between the two spreads. I guess financial market started to be scared and understood that catastrophes are not that rare.... I wonder what 2008 and 2009 prices looked like.

Friday, March 18 2011

Mort subite du nourrisson et statistiques

Suite au cours de statistique de ce matin (et après avoir fait un billet sur l'inutilité des statistiques, ici), un mot sur les dangers des statistiques. Tous ceux qui ont eu un enfant né dans les dix dernières années se sont entendu dire qu'il fallait coucher son enfant sur le dos, sinon on risquait de le tuer (la fameuse mort subite du nourrisson).

  • la mort subite du nourrisson
Quand mon fils est né, il hurlait le soir, et le seul moyen de l'endormir était de le faire dormir sur le ventre. Maintenant que la troisième est sur le point d'atteindre son premier anniversaire, je peux l'avouer: on a fait dormir les trois bébés sur le ventre...

Bon, je dois avouer que pour le premier, on ne faisait pas les fiers, et on a passé des nuits blanches à se réveiller au moindre bruit. Et je pense que mes premières insomnies remontent à cette époque. Où le moindre bruit suspect me faisait me réveiller... Le soucis avec son premier enfant est que tous les bruits sont suspects. Il commence à respirer un peu fort: on se réveille. Il rempli sa couche: on se réveille. Il ne fait pas un bruit suspect pendant 2 minutes d'affilé: on se réveille. Car je peux aussi avouer qu'en plus de dormir sur le ventre, les trois ont - plus ou moins - dormi dans le lit de leurs parents. Facteur aggravant disent les médecins ! Et depuis toutes ces années je me demande qui a décidé de ces critères, et surtout quels étaient les chiffres. Le nombre de décès est-il vraiment significativement différent quand les bébés dorment sur le ventre et sur le dos ? Car j'aimerais bien voir les statistiques, avec bien entendu des variables de contrôle... Ça peut paraître anecdotique (voir ressembler à une vengeance personnelle pour un paquet de nuits blanches) mais dans ces histoires de mort subite du nourrisson les statisticiens n'ont jamais été neutres.

  • Sally Clark et les probabilités
L'exemple le plus connu est probablement celui de Sally Clark. En novembre 1999, en Angleterre, Sally Clark a est accusée d’avoir tué ses deux enfants, Christopher  en décembre 1996 (âgé de 11 semaines) et Harry en janvier 1998 (âgé de 8 semaines). Faute de preuves, l’expert auprès du tribunal, le Professeur Meadow, a convaincu la cour à l'aide de statistique. Il a invoqué un rapport (le CESDI SUDI en ligne ici) qui indiquait que la mort subite du nourrisson touchait un bébé sur 8543, et donc, pour connaitre la probabilité qu'une mère ait deux enfants qui décède ainsi, il a expliqué que la méthodologie était la suivante : you have to multiply 1 in 8,543 times 1 in 8,543 and I think it gives that in the penultimate paragraph, its points out that it’s approximately a chance of 1 in 73 million”. Afin de convaincre la cour, il a utilisé la comparaison chevaline suivante… it’s the chance of backing that long odds outsider at the Grand National, you know; let’s say it’s a 80 to 1 chance, you back the winner last year, then the next year there’s another horse at 80 to 1 and it is still 80 to 1 and you back it again and it wins. Now here we’re in a situation that, you know, to get to these odds of 73 million you’ve got to back that 1 in 80 chance four years running, so yes, you might be very, very lucky because each time it’s just been a 1 in 80 chance and you know, you’ve happened to have won it, but the chance of it happening four years running we all know is extraordinarily unlikely. So it’s the same with these deaths. You have to say two unlikely events have happened and together it’s very, very, very unlikely.

Avec 650 000 naissances par an, avec mes yeux d'actuaire, je parlerais plutôt de période de retour centennale (73 millions sur 650 000 doit être proche de la centaine) pour évoquer ce double décès.

L'argument était relativement simple: si un tel accident (deux décès) est exceptionnellement rare, c'est que ce n'est peut-être pas un accident, et ce sont alors des infanticides. Sauf que pour évaluer - correctement - la probabilité qu'il s'agisse d'un accident, il faut chercher le nombre de fois qu’un événement rarissime se produit dans une population identique (celle de ceux qui ont subi deux décès) et non le nombre de fois qu’il se produit au sein de la population totale (on pourra lire l'article ici sur la récurrence des décès).

Malheureusement, ces deux accidents sont rarissimes, Il est donc difficile de calculer précisément cette probabilité. Et les auteurs du rapport mentionné initialement évoquaient ce point, “when a second SIDS death occurs in the same family, in addition to careful search fo inherited disorder, there must always be a very thorough investigation of the circumstances- though it would be inappropriate to assume maltreatment was always the cause”.

En fait, selon une étude publiée par Stephen Watkins dans le British Medical Journal, “Conviction by mathematical error”, en 2000, la période de retour d'un double décès dans une même famille serait plus proche de 18 mois que de 100 ans (ici). En octobre 2001, la Royal Statistical Society a publié également un communiqué en ce sens (ici).

Pour les amateurs d'open data, il serait agréable que de telles statistiques soient accessibles, non ? Qu'on puisse enfin se faire une idée...

Friday, January 21 2011

Quelques ordres de grandeurs sur les accidentés de la route

Hier soir, Benoît m'a posé une colle par courriel, et je dois avouer que j'ai horreur de ça... Il me demandait un ordre de grandeur des "coûts moyens en France (du point de vue de l'assureur) d'un blessé et d'un mort pour les sinistres automobiles". La colle m'a embarrassé parce que déteste ne pas avoir la moindre idée des ordres de grandeurs sur des sujets qui pourtant m'intéressent. En fait, je connais les coûts extrêmes, les plus gros accidents, mais pas les coûts moyens... Moralité je me suis mis au travail, et comme toujours sur ces sujets, Audrey m'a beaucoup aidé.Alors avant de commencer, il faut savoir que quand on parle de gravité d'un accident corporel (dans les précédant billets, ici ou , je ne parlais que des nombres) il faut parler de taux d'AIPP, atteinte permanente à l’intégrité physique et/ou psychique (anciennement appelées taux d'IPP, i.e. taux d'incapacité permanente partielle). Alors c'est très technique, c'est fixé par des docteurs, des caisses d'assurance maladie, des juges, bref, il y a tellement de paramètres que c'est dur de s'y retrouver. Sauf qu'il y a des espèces de grilles... Elles sont évoquées ici par exemple,

  • Perte, paralysie d'un doigt ou perte de l'odorat ou d'une partie de la voix =  1 à 5 %
  • Perte de l' ouie d'une oreille ou d'un orteil genou remplacé par une prothèse =  5 à 10 %
  • Perte de tous les orteils, perte de toutes les dents, perte de la voix =  10 à 15 %
(bref, un taux de 10% c'est pas très drôle.. mais ce n'est pas ce qui est retenu pour définir un accident grave)
  • Perte du pouce droit (pour un droitier) ou perte de la vision d'un œil =  20 à 25 %
  • Perte de la main droite (pour un droitier) ou perte du bras gauche =  40 à 50 %
Là on va franchir le cap des 50% qui correspondent à une classification particulière, à savoir les graves,
  • Perte du bras droit (pour un droitier), perte de la jambe ou perte totale de la vue ou de l'ouïe =  50 à 60 %
  • Para ou tétraplégie et  traumatisme crâniens =  60 à 100 %   
Voilà pour les ordres de grandeurs sur la gravité d'un accidenté.
En 2008, il y a eu de l'ordre de 7 millions de sinistres (avec une indemnisation de l'assureur). Près de la moitié concernent des bris de glaces, et environ 250 000 correspondaient à un accident corporel. Si on creuse un peu, parmi les accidentés, dans 75% des accidents, il s'agit de blessés légers, sans AIPP. 24% sont accidentés avec un AIPP, avec la répartition suivante: 19% ont un taux d'AIPP inférieur à 5%, et 2% dépassent 20%. Enfin, 1% décèdent. Voilà pour la répartition des nombres, regardons maintenant les coûts.
Ces 3% des sinistres (en nombres) représentent 30% du coût total des sinistres, soit 4,5 milliards d'euros (vu à la fin de la première année, selon la FFSA). Et ces milliards d'euros sont répartis de la manière suivante
  • 11% pour les blessés léger
  • 36% pour les AIPP compris entre 1% et 20%
  • 42% pour les AIPP supérieurs à 20%
  • 11% pour les décès
Si on regarde l'indemnité moyenne en 2008 (pour en venir à l'objet de mon billet)
  • les blessés avec AIPP ont été indemnisé à hauteur de 45,680 euros (dont 14,165 euros au titre des dépenses de santé, actuelles et projetées)
  • les ayants droits, en cas de décès, ont été indemnisé à hauteur de 89,800 euros,
Si l'on regarde les blessés légers (sans AIPP), ils ont touché en moyenne 1,500 euros (la médiane se situant plutôt vers 750 euros).
Pour les blessés avec AIPP
  • taux entre 1% et 5%, 9,195 euros
  • taux entre 6% et 9%, 30,828 euros
  • taux entre 10% et 14%, 53,295 euros,
  • taux entre 15% et 19%, 86,950 euros,
  • taux entre 20% et 29%, 130,585 euros,
  • taux entre 20% et 29%, 130,585 euros,
  • taux supérieur à 30%, 644,100 euros,
  • taux supérieur à 50%, 988,000 euros,
  • taux supérieur à 80%, 2,018,000 euros,
Si l'on regarde plus en détail les blessés graves (taux d'AIPP supérieur à 50%) l'indemnité total était proche du million d'euros, répartis de la manière suivante
  • 21% au titre du déficit fonctionnel permanent
  • 6% au titre de préjudices personnels,
  • 25% au titres des dépenses de santé (actuelles et projetées)
  • 5% au titre de pertes de gains professionnels
  • 35% au titre d'assistance par une tierce personne
(le reste étant d'autres frais). De plus, l'indemnité décroît avec l'âge
  • moins de 30 ans, 1,521,000 euros
  • entre 30 et 60 ans, 1,287,000 euros,
  • plus de 60 ans, 580,000 euros,
Comme le note la FFSA, l'évolution de l'indemnité moyenne croît régulièrement depuis 10 ans, avec une croissance annuelle de l'ordre de 9%.

Thursday, September 23 2010

Soccer, probabilité (et assurance) partie 3

La dernière fois (il y a quelques mois, ici) on avait évoqué le lien entre cote et probabilités risques neutres (induites). J'avais évoqué les cotes à un instant donné donné, et montré comment on pouvait construire la probabilité risque neutre associée. L'idée est ici de suivre l'évolution des probabilités pendant la coupe du monde, au fur et à mesure que les matchs révèlent de l'information sur le vrai niveau des équipes...
A l'aide des données "World Cup Group A Betting" ("Win Market") sur http://www.oddschecker.com/ (Vincent, alias @Vicnent, avait fait des sauvegarde régulières des pages html), on peut suivre les cotes toutes les 30 minutes, entre le 10 juin et le 22 juin, au sein du groupe de l'équipe de France.

Pour le premier site de pari (bet365), on a les probabilités suivantes, avec les probabilités associées à l'équipe de France (en bleu), à l'Afrique du Sud (en jaune), l'Uruguay (en rouge) et le Mexique (en vert),

On note que les probabilités sont stables en dehors des matchs, autrement dit seul le comportement sur le terrain semble intéresser les parieurs (les matchs ont lieu pendant les date où l'on observe des traits bleus clairs verticaux).
Pour le troisième, on observe quelque chose de très proche (les valeurs manquants signifient que le tableau en ligne était vide, ou que j'ai raté ma lecture du fichier html sous R), avec des variations du même ordre à la fin des matchs,

Pour le sixième on a

pour le neuvième,

et pour le douzième (je n'ai pas affiché tous les graphs)

On notera qu'à la fin, après les seconds matchs plus personnes ne semblait croire à l'équipe de France (en France en tous les cas), sa probabilité de gagner pour les parieurs est resté élevée, et ce, chez tous les sites de paris.... il aurait probablement été intéressant de parier à la fin sur le Mexique (même si je sais que rétrospectivement, il est toujours facile de dire ce qu'il fallait alors faire). Attendre le dernier moment pour faire des paris n'est pas forcément stupide...
La prochaine étape c'est de regarder non pas les pronostiques par poule, mais globalement, sur le futur vainqueur. Nous verrons en particulier comment les matchs des autres influences les probabilités d'une équipe....

Saturday, August 7 2010

Vitesse et comportement dangereux au volant (partie 3)

Après plusieurs billets sur les accidents de la route (ici et ), parlons un peu de vitesse des véhicules. J'ai pu récupérer des données via l'inrets, d'observations près de Saclay en région parisienne, sur une 2x2 limitée à 110 km/h.

http://blogperso.univ-rennes1.fr/arthur.charpentier/public/perso3/.n118-saclay2_m.jpg
J'ai ainsi le passage de plusieurs millions de véhicules, sur quelques jours, incluant tous les véhicules. Mais si j'ai signé des papiers quant à la confidentialité des données, je dois pouvoir mettre des dessins construits à partir de ces données...
  • A quelle vitesse roulent les conducteurs parisiens ?
Comme pour les accidents, distinguons semaine et week end. En semaine, on retrouve les pics du matin et du soir, qui poussent les gens à ralentir. La courbe en noir est la vitesse moyenne des véhicules qui passent sur ce tronçon, et la courbe en bleu, la vitesse des 5% des véhicules les plus rapides,

Ces pics sont légèrement atténués le week end,

avec ici un trafic très dense tout l'après midi, entre 15 et 20 heures.
  • Quelle proportion de véhicules dépasse la limite autorisée ?
Comme pour les accidents, distinguons semaine et week end. En semaine, on retrouve les pics du matin et du soir, avec en gras la proportion des véhicules qui dépasse 110 km/h, et en trait fin, la proportion qui dépasse 115 km/h (soit 5% de plus),

avec des choses finalement assez proches le week end,

Autrement dit, aux heures de pointe, peu de monde dépasse la vitesse autorisée, mais vers midi, ou surtout la nuit, environ un véhicule sur quatre dépasse la vitesse autorisée (mais seulement un sur six la dépasse de plus de 5%).
  • Vitesse et respect des distances de sécurité
La base est très complète, puisque j'ai tous les véhicules qui sont passés près de Saclay, avec l'heure d'observation, la vitesse, ce qui permet d'obtenir la distance entre deux véhicules qui se suivent (en supposant que le premier véhicule maintienne sa vitesse constante).
Rappelons qu'il existe un lien théorique entre la vitesse d'un véhicule et la distance de freinage (expliqué ici ou ). Pour faire simple, la distance de freinage http://perso.univ-rennes1.fr/arthur.charpentier/latex/frein02.png est la somme d'une distance parcourue avant de réagir http://perso.univ-rennes1.fr/arthur.charpentier/latex/frein04.png, et d'une distance de freinage proprement dite http://perso.univ-rennes1.fr/arthur.charpentier/latex/frein03.png,
http://perso.univ-rennes1.fr/arthur.charpentier/latex/frein01.png
Si on suppose que la personne met une seconde à réagir, la distance de réaction est simplement la vitesse http://perso.univ-rennes1.fr/arthur.charpentier/latex/frein05.png (exprimée en m/h), i.e.
http://perso.univ-rennes1.fr/arthur.charpentier/latex/frein06.png
Quant au freinage à prorement parler, rappelons que les équations qui charactérisent le mouvement d'un objet sont de la forme
http://perso.univ-rennes1.fr/arthur.charpentier/latex/frein10.png
http://perso.univ-rennes1.fr/arthur.charpentier/latex/frein11.png
http://perso.univ-rennes1.fr/arthur.charpentier/latex/frein12.png
Aussi, en mettant la deuxième au carré, et en combinant avec la troisième, on a
http://perso.univ-rennes1.fr/arthur.charpentier/latex/frein13.png
avec http://perso.univ-rennes1.fr/arthur.charpentier/latex/frein15.png (on cherche à arrêter le véhicule) et http://perso.univ-rennes1.fr/arthur.charpentier/latex/frein14.png, aussi, avec http://perso.univ-rennes1.fr/arthur.charpentier/latex/frein16.png, on obtient quelque chose qui peut s'écrire
http://perso.univ-rennes1.fr/arthur.charpentier/latex/frein17.png
à condition d'avoir des vitesses en km/h. Aussi en agglomération, il faut 23 m pour s'arrêter. Et sur notre route à Saclay, pour une personne qui roule à 110 km/h, il faut compter 110 m (ce qui correspond au message véhiculé par la sécurité routière).
Sur nos données, on peut représenter en rouge les individus qui ne respectent pas la distance de sécurité.

La courbe bleue est la distance moyenne des véhicule en fonction de la distance qui les sépare du véhicule qui les précède,
Aussi, en faisant une régression logistique (lissée), on obtient que 60% des conducteurs qui roulent entre 50 et 110 km/h ne respectent pas les distances de sécurité.


Saturday, July 24 2010

L'équipe de France de foot devrait jouer seulement en semaine (ça sauverait des vies)

Il y a quelques semaines, le service de centralisation des statistiques de l'assurance accidents LAA, par l'intermédiaire de Stefan Scholz Odermatt, a publié une étude sur la survenance d'accident automobile les jours de match de foot.

Selon l'étude (mentionnée ici ou ) le nombre d'accidents les jours où il y a match est supérieur aux jours sans match, 
Ayant réussi à récupérer une base presque exhaustive d'accidents corporels en France, je peux faire la même étude, entre janvier 2002 et décembre 2007. Les conclusions sont moins flagrantes que sur le cas suisse, en particulier les jours de semaine, où manifestement, personne ne s'intéresse aux matchs (où en tous les cas pas assez pour être moins vigilent au volant).
En revanche, le week end, l'effet devient plus prononcé
avec davantage d'accidents dans la journée où il y a un match de l'équipe de France.
Moralité, l'équipe de France de foot devrait jouer seulement en semaine, à chaque match, cela éviterait une vingtaine d'accidents de la route à chaque fois (et je ne parle que d'accidents corporels, ayant causé des blessures et ayant donné lieu à un constat de police) ! Comme le disait un copain à qui je racontais ça, "l'équipe de France devrait jouer, ça serait un début".... mais c'est un autre sujet.

Thursday, June 17 2010

Le paradoxe de Saint Pétersbourg, partie -2

(oui, je commence à numéroter comme les Donjons, ou comme lorsque je commence des sections ou des sous-sections quand je fais cours au tableau). J'avais fait l'autre jour un billet sur le paradoxe de Saint-Pétersbourg, expliquant que, bien que l'espérance de ce jeu soit infinie, ça reste un jeu qui s'achève très rapidement, car en moyenne, on n'a le droit de ne faire que deux lancers...
Mais avant d'aller plus loin, un petit retour en arrière s'impose. En fait, j'ai toujours présenté en cours la théorie de l'espérance de l'utilité comme une réponse à ce paradoxe. Je me rend compte, après avoir cherché un peu, que c'est un peu plus compliqué ça. Installons nous confortablement, je vais raconter la petite histoire....

En 1738, Daniel Bernoulli a publié un ouvrage intitulé Specimen theoriae novae de mensura sortis  (que nous pourrons traduire théorie sur la mesure du risque, dont la traduction est longuement commentée dans un document de Pierre Charles Pradier, ici, qui note que sortis est lié au sort, et donc au hasard, au risque). C'est dans cet ouvrage qu'il introduit le concept d'espérance morale.
Toute cette théorie a été reprise dans la théorie analytique des probabilités publiée par Laplace en 1812,


  • La construction de la fortune morale
Pour comprendre le cheminement de Daniel Bernoulli, supposons qu'une personne passe d'une somme de monnaie http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg01.png à une somme http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg02.png. Il pense que la valeur relative de cet incrément doit être proportionnel à l'incrément http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg03.png, mais inversement proportionnel à la richesse http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg01.png. Autrement dit, la variation de la valeur http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg04.png vérifie
http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg05.png
ou encore
http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg06.png
Pour reprendre la terminologie de Laplace, http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg01.png est la fortune physique et y la fortune morale. Dans la langue de Daniel Bernoulli, http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg04.png est appelé emolunmentum, et http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg19.png summa bonorum. Introduisons alors un peu d'aléa. La personne commence avec une dotation physique http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg19.png. Il peut alors gagner http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg07.png avec une probabilité http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg08.png. Daniel Bernoulli propose alors de poser
http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg09.png
Daniel appelle http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg10.png emolunmentum medium. En conservant une expression de la forme
http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg11.png
il convient de définir la fortune physique comme
http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg12.png
Pour reprendre la terminologie de Laplace, http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg13.png est "l'accroissement de la fortune physique qui procurerait à l'individu le même avantage moral qui résulte pour lui, de son expectative", ou encore, selon Daniel Bernoulli http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg13.png est le "lucurm legitime expectandum seu sors quoesita".
Il considère alors deux états possibles, http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg14.png de probabilités respectives http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg15.png. La fortune physique est alors
http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg16.png
On supposera que le jeu est juste, autrement dit http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg17.png, ou avec les notations de Laplace,
http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg18.png}
Daniel Bernoulli (puis plus tard Laplace) montrèrent que même si le jeu était juste, la fortune physique était toujours plus petite que http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg19.png. En fait, la démonstration est simple, car comme on a une mesure de probabilité, http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg20.png, et donc
http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg21.png
Autrement dit, on doit simplement montrer que
http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg22.png
L'astuce pour montrer ce dernier résultat consiste à noter que le terme de droite peut s'écrire
http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg23.png
ce que revient à comparer une moyenne géométrique et une moyenne arithmétique (ce que j'avais évoqué ici avec des dessins).
A partir de cette théorie, Daniel Bernoulli propose ensuite une application en assurance. Un armateur possède une fortune physique http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg19.png, et il espère toucher x si le bateau arrive à bon port (ce qui surviendra avec probabilité http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg24.png). S'il ne s'assure pas, sa fortune physique sera
http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg25.png
En invoquant encore une fois cette comparaison entre moyenne géométrique et moyenne arithmétique, on en déduit que
http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg26.png
Daniel Bernoulli en déduit que l'armateur a intérêt à s'assurer dès lors que la prime d'assurance ne dépasse pas http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg27.png (qui est la prime pure en terminologie actuarielle).
En notant e la prime d'assurance, Bernoulli montre qu'il faut chercher ce que nous appellerions un équivalent certain, solution de
http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg28.png
Il essaye alors de résoudre ce problème comme une équation en http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg19.png (la prime d'asssurance e étant supposée donnée). Mais je m'égare un peu....
  • Le paradoxe de Saint Petersbourg
Une fois présenté son problème d'assurance, Daniel Bernoulli reprend un problème qu'il avait soumis à Pierre Rémond de Montmort en septembre 1713 (ici).

Dans ce jeu,  un joueur lance un pièce en l'air. Si "face" apparaît au premier lancer, il touche 1 shilling.  S'il tombe sur "pile", il peut relancer la pièce. Si "face" apparaît au second lancer, il touche 2 shilling.  S'il tombe sur "pile", il peut relancer la pièce. Si "face" apparaît au troisième lancer, il touche 4 shilling.  S'il tombe sur "pile", il peut relancer la pièce, etc. A chaque fois qu'il fait "face", il double ses gains.
L'espérance de gain est alors
http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg30.png
qui est une somme infinie.
Pour résoudre le problème, Daniel Bernoulli calcule la fortune physique i.e.
http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg31.png
qui est finie dès lors que http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg19.png est finie. Par exemple avec http://perso.univ-rennes1.fr/arthur.charpentier/blog/stpg32.png, on obtient 2. Pour ceux qui veulent s'en convaincre (numériquement)
> x0=0
> prod((x0+2^(0:100))^(1/2^(1:101)))-x0
[1] 2

Pour une richesse initiale de 1000, Bernoulli montre que la fortune physique est alors de 6,
> x0=1000
> prod((x0+2^(0:100))^(1/2^(1:101)))-x0
[1] 5.972253

Bref, Daniel Bernoulli avait ainsi montré que ses calculs de fortune physique permettait d'expliquer pourquoi les personnes jouant à son jeu étaient près à jouer une somme assez faible (en tous les cas comparé à la valeur espérée de gain).
  • Montmort, Bernoulli(s) et Cramer
En fait, si Montmort avait évoqué ce paradoxe dès 1713, on peut retrouver également ce problème soulevé en 1728 par Gabriel Cramer, toujours dans des lettres échangées avec  Bernoulli, mais cette fois avec Nicolas, et pas Daniel, ici,

A la lecture de tout cela, on se rend compte que le paradoxe de Saint-Pétersbourg a été proposé à Bernoulli par Montmort et Cramer, que Cramer introduit également la notion d'espérance morale, bien avant Bernoulli.... L'histoire est souvent bien injuste dès qu'on se penche sur les héritages...

Wednesday, January 6 2010

Théorème central limite et facteur d'échelle

Les cours d'actuariat ont commencé aujourd'hui. Je voulais juste reprendre l'histoire du risque d'un assureur qui diminue avec la taille du portefeuille d'assurés.
On a N assurés, avec des risques identiques (et indépendants). Chaque assuré a 1 chance sur 10 d'avoir un sinistre de 1000€. La prime pure est de 100€, et on souhaite connaître le montant des fonds propres (exprimés en pourcentage des primes encaissées) pour que l'assureur soit solvable dans 99% des cas. Bref, le code est le suivant
> N=seq(100,10000,100)
> Q1=qnorm(.99,100*N,1000*sqrt(N*9/100))/(100*N)-1
> Q2=1000*qbinom(.99,size=N,prob=1/10)/(100*N)-1
> plot(N,Q2,type="l",col="red",lwd=1,ylim=c(0,.8))
> lines(N,Q1,col="blue",lwd=1)

Dans le premier cas, on utilise une approximation Gaussienne. Dans le second on utilise la vraie loi de la charge totale, i.e. une loi binomiale. On note qu'avec 100 assurés, il faut 80% du montant total des primes encaissées en fonds propres, pour éviter la ruine dans 99% des cas (en faisant une approximation Gaussienne, le risque aurait été sous-estimé, puisque les fonds propres seraient alors 70% des primes). Avec 2000 assurés, les fonds propres représentent 15% des primes. On retrouve ainsi numériquement l'idée que le risque diminue avec la taille du portefeuille.
En fait, si on raisonne non plus de manière relative mais en montant absolu, on a la "croissance en racine carrée" des fonds propres (qui est moins forte que la croissance du chiffre d'affaire, i.e. de la prime).

Maintenant le modèle est simpliste....Et histoire de se coucher moins bête ce soir, je recommande très chaudement la (re)lecture du papier de Paul Samuelson datant de 1964, intitulé Risk and uncertainty, a fallacy of large numbers (ici). L'idée est simple: considérons un jeu de pile ou face, on perd 100€ si face sort, et on gagne 200€ si pile sort. Combien de parties est-on prêt à jouer à ce jeu ?
A priori on devrait gagner... plus précisément, avec 100 lancers, il faudrait moins de 34 pile pour perdre de l'argent, ce qui devrait arriver avec une probabilité de 0,01%. Pourtant personne n'a été prêt à acheter 100 tickets de ce jeu. Car potentiellement on  peut perdre 10000€ !

Tuesday, October 27 2009

Ma fille et l'épidémie de grippe

http://blogperso.univ-rennes1.fr/arthur.charpentier/public/perso2/0910sp_H1N1.jpgLe magazine Science a publié un article intéressant le11 septembre dernier, The Transmissibility and Control of Pandemic Influenza A (H1N1) Virus, écrit par des biomathématiciens de l’école de santé publique de Seattle, sur les probabilités de transmission du virus de la grippe pandémique (ici).Cet article note que le "taux de reproduction moyen" de cette grippe pandémique est voisin de 2: une personne infectée par le virus contamine en moyenne deux cas secondaires (comme pour la grippe saisonnière finalement). Il passe à 3 pour les enfants fréquentant l’école.
Ceci donne à réfléchir sur les consignes placardée partout,  “portez un masque”, “lavez-vous les mains plusieurs fois par jour”, “éternuez dans un mouchoir en papier jetable”. Encore une fois, je ne m'intéresse qu'aux ordres de grandeurs probabilistes de cette grippe....
Et histoire de faire une parenthèse, ma fille (qui a 4 ans) a appris le jour de la rentrée à tousser et éternuer dans son pull (histoire de ne pas polluer ses mains je suppose), elle a appris qu'il fallait se laver les mains n+1 fois par jour... mais depuis 10 jours, voilà qu'elle profite de la garderie du soir pour faire des bisous à César ! On aura beau mette en place toutes les mesures d'hygiène de la terre, tant que César ne sera pas l'unique amoureux de ma fille, et réciproquement, je pense qu'on aura du mal à endiguer l'épidémie !

Thursday, May 7 2009

Cube COSO

En préparant mes slides pour la conférence ERM - enterprise risk management - pour la Banque de France (ici), je n'ai pu m'empêcher de chercher des références sur la formalisation du COSO (le fameux référentiel de contrôle interne du Committee Of Sponsoring Organizations of the Treadway Commission utilisé dans le cadre de la mise en place des dispositions relevant de la loi Sarbanes-Oxley aux Etats-Unis). On y trouve en particulier une description assez fournie des risques, avec
  •  l’identification des événements potientiels (tendances, événements passés)
  •  l’évaluation des risques (risque inhérent, risque résiduel) ,
  •  les réponses aux risques (catégorisation des types de réponses).
(que l'on retrouvait déjà évoqué dans un vieux billet, ici). De manière visuelle, on retrouve d'ailleurs souvent le fameux cube,
parfois plus connu dans sa version couleur,
Mais en cherchant un peu, j'ai retrouvé cette représentation dans un vieux papier de Matthias Haller dans les Geneva Papers on Risk and Insurance de 1976, dans un papier intitulé "les objectifs du risk management",

Sunday, May 3 2009

Grippe mexicaine (ou porcine) et pandémie

Depuis le retour du Mexique, voilà maintenant quinze jours, tout le monde se sent obligé de me poser une question sur mon état de santé... Il faut dire qu'en avril 2004, quelques jours après mon retour de Côte d'Ivoire (où je donnais un cours d'assurance dommage) avaient lieu des émeutes très violentes qui ont fait plusieurs morts. Deux an après, j'étais à Beyrouth (pour un cours de statistique) et quelques semaines après mon retour commençait la dernière Intifada. Bref, cette fois, moins d'une semaine après le retour du Mexique, les médias commençaient à parler de la grippe mexicaine.

En cette fin de semaine, vendredi, 15 morts étaient annoncés dans les médias, avec un intéressant changement syntaxique, puisque l'on est passé de victimes "possibles" à victimes "probables" avant d'arriver à des victimes "avérées". Il y avait en tout 300 infections au Mexique, 118 aux États-Unis, 35 au Canada, et un ou deux par-ci par-là.

Mais il faut noter que pour une "pandémie" (car c'est le mot qui est employé dans les médias), 15 morts c'est un peu léger... Enfin, pour comparer il faudrait avoir des statistiques de décès.
Les rapports de l'OMS notent qu'il est délicat de dénombrer précisément les nombres de décès par cause, en particulier pour  les différentes maladies. Malgré tout, si on regarde les statistiques de 2008, on peut trouver des ordres de grandeurs concernant la méningite. Le graphique ci-contre montre les cas suspectés de cas et de décès suite  une méningite, entre 1965 et 2008, extrait de World Health Statistics (2008). "During 2007, 54 676 suspected cases of meningitis and 4062 deaths were reported from the belt countries". On les loin des 15 cas mentionnés vendredi.

Pour poursuivre la comparaison, j'ai mis ci-dessous un graphique avec d'autres sources de décès. Par exemple en 2004, le nombre de personnes mortes sur les routes (accidents de la circulation) dépassé les 1,3 millions, et le nombre de morts à cause du virus HIV dépassait les 2,2 millions en 2008.


Les tableaux ci-dessous montrent les sources de décès, extraits de Global Burden of Disease and Risk Factors, par Alan D. Lopez, Colin D. Mathers, Majid Ezzati, et al., datant de 2001,

De même ci-dessous, "tables represent the numbers of data sets contributing to epidemiologically based estimates of deaths due to specific causes"

Comparés à ces chiffres, la "pandémie" décrite par les médias en ce moment est surprenante, car le nombre de décès est très faible. En comparaison, la grippe espagnole de 1918 a tué entre 30 et 100 millions de personnes (source H1N1), la grippe asiatique de 1957 en a tué un peu plus d'un million (source H2N2) et celle de Hong Kong de 1968 un peu moins d'un million (source H3N2).
Mais au delà du nombre de décès, c'est surtout la probabilité de décès pour une personne malade qui retiennent l'attention. Pour la grippe espagnole, le ratio était de 0,15%, soit 20 fois les chiffres d'une grippe "normale".
Pour ceux qui veulent plus de détails sur les statistique de santé, je renvoie ici à un fichier xls avec le nombre total de décès ('000), par cause et par pays en 2002. Ici traine un fichier mortality, contenant des statistiques d'ICD (International Classification of Diseases), mis à jour en avril 2009.
Remarque: certains media (je pense au Canard Enchaîné de la semaine dernière) évoque l'idée que la grippe peut être vue comme une opportunité pour certaines entreprises pharmaceutiques, en particulier Glaxo (qui produit le tamiflu), mais le prix des actions ne montre rien

de même pour Sanofi,

Bref, cette pandémie (et surtout la réaction des média) me laisse perplexe... même si tout cela est très révélateur sur la perception des risques extrêmes (et rares). Mais ça sera l'occasion d'un autre billet.

[04/05/2009] J'ai retrouvé dans Libé de ce matin une analyse assez proche de celle que j'avançais ce week-end.
J'espère de tout cœur que la grippe est aussi bénigne qu'une grippe "
classique" comme l'évoque un responsable de la santé aux Etats-Unis, et je suis d'accord que l'avenir seulement nous permettra de savoir si les mesures étaient nécessaires. Je n'insisterais pas sur le phénomène d'endogénéité (si l'épidémie fait aussi peu de victimes, c'est précisément parce que les mesures ont été prises à temps), mais je voulais revenir sur l'argument que l'on retrouve fréquemment "mieux vaut en faire trop que pas assez". D'un côté, je trouve effectivement qu'il est important d'avoir des exercices grandeurs natures de situation de crise, afin de se préparer correctement; mais de l'autre, je ne peux m'empêcher de penser à une histoire que j'ai récemment beaucoup lu le soir, d'enfants qui criaient au loup...

Friday, April 24 2009

Esscher transform: insurance, finance and economics


Esscher transform has been introduced in the context of insurance pricing, in Esscher (1936)*. Several applications have been proposed later on in insurance (see here for an example). Gerber and Shiu (1994, here) proved the interest of this transformation in financial derivative pricing to derive risk neutral probabilities. In standard models (Black-Scholes
option-pricing formula, the pure-jump option-pricing formula, and the binomial option-pricing formula), they prove - and the paper is extremely pedagogical - that standard changes of measure to obtain a risk neutral measure (so that prices are martingales) can be seen as an Esscher transform (see also the survey by Paul Embrechts).
Bühlmann (1980, here) proved that the Esscher transform can be obtained as the price in an equilibrium model. And wanted here to stress here this interpretation (this will be one part that I will discuss next week in Montpelier, see here). Note that the paper has been revised by Shaun Wang at the AFIR (Actuarial approach for Financial Risks) conference in Cancun in 2002 (here).

Consider agents with exponential utility functions  facing risk . Then the equilibrium premium for some risk is


where .

This can be related to some exponential tilting (as defined by Shaun Wang), i.e.

so that .

Remark if  where  is the systematic risk and  the diversifiable risk, then

Note that Hailiang Yang wrote a very nice survey on the Esscher transform in the Encyclopedia of Actuarial Science.

Esscher, Fredrik (1932). On the probability function in the collective theory of risk, Scandinavian Actuarial Journal 15, 175-195. If anyone has a pdf version of the original paper, I'd be glad to read it.

Wednesday, April 22 2009

Natural catastophes, from Sigma 2/2009

About natural catastrophes, I usually only mention insured (and overall) losses, and rarely the number of victims. In Swiss Re's new Sigma publication (here - in English - and there - in French) I found a very interesting graph, with the number of victims (on a log scale)
XXXIn particular, it reminds us that last summer was one of the most devastating year because of cyclone Nargis (that almost everyone in Europe forgot about). Another point mentioned is the (amazing) increase of the overall value at risk in several regions, as mentioned in my course in Maresias (here). I focused on Florida, but China (and more specifically Shenzhen (next to Hong Kong) appears as an interesting case study.
XXTo illustrate, here are the (average over 38 years) insured natural catastrophe losses as a percentage of total non-life premiums.

- page 1 of 2