Ayant remarqué que les bloggeurs avaient souvent, un jour,
envie
de parler d'eux dans un billet, je vais faire pareil (oui, je sais Igor prétend que je ne fais déjà que ca ici). Je vais donc
parler un peu de ma vie en tant que bloggeur.
Ce
blog a été créée
après un transfert
du blog que je tenais à Rennes 1, qui avait
été
lancé voilà bientôt un peu plus de 2 ans, et je dois
avouer
(maintenant il y prescription) que j'ai honteusement
volé
le nom à un extrait de conversation que j'avais avec Francis Kramarz à l'X
(reprenant le nom inventé par Stephen Dubner et Steven Levitt, i.e. freakonomics).
L'idée du blog était de parler de choses qui
m'amusent
dans ma vie d'enseignant-chercheur. L'économie
mathématique n'est pas très sexy, et
n'intéresse
que peu de monde, donc j'évite d'en mettre trop... par
contre,
j'aime aussi beaucoup les maths appliqués, les statistiques,
et
l'économétrie. Et l'avantage quand on travaille
sur la
modélisation, y compris en tant qu'enseignant, c'est qu'on
peut
illustrer un peu comme on veut. Personnellement je comprends mieux la
notion d'optimum de Pareto quand on me parle de se servir de l'eau
à la cantine (comme ici),
plutôt que de me donner une définition abstraite.
Et il s'avère que ça a plutôt tendance
à
réveiller les élèves quand
on dit que les
processus VAR permettent de suivre les mensurations des demoiselles de
playboy (comme ici),
en tous les cas plus que la modélisation des taux
d'intérêt dans la zone euro. Les processus
aléatoires, comme je m'efforce à le
dire (ici
ou là),
c'est beaucoup plus marrant appliqué à des
problèmes d'alcooliques qu'appliqué à
la
valorisation d'options financières. Et les chaînes
de
Markov appliquées à l'analyse de la pluie en
Bretagne
(comme ici),
ça intéresse tous les
élèves qui
viennent à la fac en vélo, ou sinon je peux aussi
parler
de consommation de papier toilette dans les toilettes publique (comme là).
Bref, peu importe le sujet, autant que ce soit amusant,
l'idée étant d'illustrer une méthode, une technique, un concept abstrait...
Donc pour amuser mes étudiants (et mes lecteurs) je
traîne
beaucoup sur internet à la recherche de bases de
données, afin d'illustrer des méthodes d'estimation.
Alors pour ceux qui n'en ont jamais manipulé, les
données, c'est un truc assez incroyable.... Vu de loin,
ça ne ressemble pas à grand chose, genre
ça peut
ressembler à ça,


Mais il y a quelques années, on a vu
arriver le
datamining,
et "les gens" ont commencé à retenir une
idée un peu générale du genre "
vos
données valent de l'or",
et depuis, certains refusent de communiquer leurs données.
Je ne
parle pas de chercheurs qui ont collecté des
données, et
qui n'ont pas fini de publier dessus (je comprends qu'il puisse exister
une relative compétition entre chercheurs), mais je parle de
base qui existent.... mais que personne n'exploite. En fait "les gens"
ont oublié que s'ils avaient de l'or, il faut peut
être
des mineurs pour aller le chercher, puis des joaillers pour le
retravailler, et enfin des bijoutiers pour rendre ça
présentable. Et c'est souvent agaçant de faire
face
à un refus, de voir ces belles données qui
existent, mais
qu'on ne peut avoir....
Bref, aujourd'hui je vais faire un billet sur les billets que j'aurais
rêvé de faire, mais que je ne fais pas, faute de
données....
- L'argument
(magique) de la CNIL pour les bases informatiques
Parmi les arguments qui ressortent sans cesse quand on demande des
données, c'est "
il
faut avoir l'accord de la CNIL".
Bon, c'est l'argument de
mauvaise foi par excellence.... On m'a sorti cet argument dans un hôpital, ou je voulais avoir des données sur les accouchements,
connaitre la durée de la grossesse en fonction de caractéristiques de la mère (et du nombre d'enfants déjà eu, par exemple). Un hôpital m'a aussi dit "
on peut vous ouvrir nos armoires, et vous pourrez noter vous même car ca n'est pas informatisé"
(oui oui, j'ai eu ca... et j'ai pu vérifier avec la naissance de ma troisième: tout était sur papier... oups, j'ai dit de quel hôpital il
s'agissait).
- On
veut la conclusion de l'étude avant de fournir les
études
Toujours sur mes études sur la durée des grossesses, j'ai appris que
l'Inserm constituait une grosse base de données. J'ai demande à y avoir accès, et fort gentiment, on m'a demande de déposer un dossier de
recherche. J'ai donc mis l'objet de l'étude, le nom des étudiants qui
auraient travaille sur la base, une biblio pour expliquer que je ne
partais pas à l'aveugle, et la liste des variables qui m'auraient intéressées. Et la, par téléphone, on m'a dit que c'était très bien,
mais "
on a besoin d'avoir vos conclusions avant de vous donner accès aux données". La trouve la démarche (supposée scientifique) surprenante. L'argument m'a un peu dépassé, et je n'ai pas donne suite.
- L'invention
d'arguments (farfelus, parfois)
Toujours sur mon étude sur les naissances, j'ai voulu avoir
l'information à la source, c'est à dire dans les
CAF.
Elles connaissent le terme prévu, le
terme
réel entre autres, elles disposent de tout plein de
variables explicatives. Bref,
la
source de données idéale. J'ai donc
contacté une
vingtaine de CAF (car les CAF sont départementales), et j'ai
eu une vingtaine de réponses différentes allant du "
on n'a pas ce genre de données", "
on n'as pas le temps", "
c'est la Caisse Nationale qui a ces données", "
il faut l'accord de la Caisse Nationale "... Bref, assez souvent, on botte en touche... Un peu comme "
mais vous savez, on ne vend pas de fleurs" que m'a sorti Interflora (je voulais savoir si on commandait plus de fleurs a la Saint Valentin ou a la fête des mères, en vain).
- Nous on fait dans le qualitatif, pas le quantitatif
Il y a quelques années, j'avais vu passer une étude sur l'évolution des mensurations de
miss America (et les données sont en ligne
ici). Trouvant l'analyse intéressante, j'ai contacte le comité Miss France
pour avoir les mensurations des miss (et si possible des prétendantes),
et Madame de Fontenay (oui oui, elle m'a écrit) m'a répondu "
nous n'avons pas ces informations, les miss ne sont pas choisies pour leurs mensurations mais pour leur personnalité"
(je n'invente presque pas - la seule invention vient de la
retranscription car j'ai perdu le mail avec tous mes transferts de
boites, mais c'est ce qui était dit en substance). Finalement j'ai ressorti mes vieux playboy, ce qui a permis d'avoir encore plus d'observations d'ailleurs....
- Ah oui, je vois très bien, mais demandez au service ETDDHRC qui s'en occupe
L'argument magique du "
c'est pas moi c'est mon frère"
pour reprendre La Fontaine (ou ma fille, je ne sais plus trop). Je l'ai
eu sur des demandes anciennes, faites à plusieurs reprises (et liées à
des sujets qui ont beaucoup fait parler dans la blogosphere)
- il y a 4 ou 5 ans, j'ai eu accès à un très gros fichier d'expertises de véhicules, consécutives à des accidents
de la route, plusieurs centaines de milliers d'accidents analysés... on
avait voulu travailler avec des étudiants sur l'impact des radars
automatiques, mais surtout sur la fraude à l'assurance... Sauf qu'avoir
les accidents c'est bien, mais il fallait normer par le nombre de véhicules en circulation... j'ai donc demande à plusieurs reprises un accès au fichier des cartes grises pour savoir combien de véhicules étant en circulation (marque, modèle)... tous les services se sont renvoyés la balle... Et je n'ai jamais eu la base...
- j'ai eu la même discussion il y a quelques mois sur les nouvelles plaques... le Ministère de l'Intérieur affiche (ici)
les départements les plus demande (car on a maintenant le choix du numéro que l'on pose sur la plaque), mais on ne peut pas croiser le département de résidence et le département de la plaque.... Étude qui
m'aurait amusé car j'ai un joli modèle à tester derrière...
- sinon à la même période, je souhaite analyser l'impact de la
taille des classes sur la réussite scolaire (j'ai fait 4 billets sur le
sujets, ici ou là, mais sur des données israéliennes): j'ai demande au Ministère de l'Éducation Nationale à
avoir accès aux résultats individuels (mais anonymes) d'échantillons du
test national de CE1. En particulier, j'étais aussi intéresse par la réussite des enfants nés en janvier par rapport à ceux nés en décembre... Tous les services se renvoyaient la balle, et je n'ai jamais eu les données.
J'oublie de préciser, mais a chaque fois, je précise qu'il s'agit d'une étude académique, et que peux m'engager a ne pas diffuser les données.
- Le
service juridique veut que vous signez 10 pages de "disclosure"
Alors ça c'est le pire... c'est arrivé l'autre
jour avec
un copain actuaire. Je l'avais sollicité pour quelques
données, des triangles de liquidation comme on dit. Bon, ce sont des données un peu sensibles, mais je ne demandais pas les montants de
provisions constitues, juste des paiements. J'ai un "
c'est bon de notre cote, par contre il faudra que tu signes le document joint",
à savoir un document juridique de 10 pages, qui devaient être signées
par les présidents de l'Université de Rennes 1 et de l'Université de Montréal (car c'était pour donner un projet à mes étudiants). Ne
voulant pas prendre de risques, j'ai laissé tombé....
- Allez
vous servir sur le site (en faisant 5346 requêtes)
Cet argument m'a été sorti par le
Ministère de l'Écologie:. Je voulais connaître la liste de toutes les
communes
touchées par une catastrophe naturelle (et qui ont
bénéficié d'un
arrêté), "
c'est sur le site internet, vous savez, on est moderne nous".
Cette
information est publique (parue au Journal Officiel) mais je voulais
une base. J'ai fait un code l'autre jour pour aller faire plusieurs
milliers de requetes (sur les matchs de tennis, mais ca prend du temps... et ca n'est pas
toujours simple car il faut aller decoder des fichiers html)
heureusement, il y a toujours des copains qui ont ces donnees et qui sont prêt à envoyer un fichier xls dans l'heure).
- On
veut bien donner des bases, mais à des journalistes, pas
à des universitaires
Pour la première fois, on évoquait la
discrétion, mais dans l'autre sens. Classiquement c'est "
on
vous donne des chiffres, mais faut pas le dire", mais
là c'était "
on
veut bien les donner, mais faut que ça se sache...".
Heureusement, Twitter est là, et on finira par trouver un point d'entrée.... à suivre donc...
Fort heureusement, certains ont compris leur
intérêt, et
n'hésite pas à m'envoyer des bases si je leur
demande. Ca
fait une étude gratuite pour eux, et moi je me serais
amusé un peu (ou fait travaillé mes
étudiants).
Mais ce n'est pas la majorité. En attendant, je suis devenu
voleur
de données.
Beaucoup de données traînent sur internet, et en
bricolant
un peu on peut les récupérer... L'autre jour un
copain
(que j'avais sollicité pour aller chercher des bases en
faisant
automatiquement des requêtes sur un site) me demandait "
elles
sont à qui ces données ?". Et je
dois avouer que depuis je doute.... Moralité, je suis un peu surpris de l'étymologie du mot
données, car rares sont ceux qui en donnent vraiment... et c'est dommage.