Ma vie et les bases de données
By arthur charpentier on Friday, December 17 2010, 12:50 - personal - Permalink
Ayant remarqué que les bloggeurs avaient souvent, un jour,
envie
de parler d'eux dans un billet, je vais faire pareil (oui, je sais Igor prétend que je ne fais déjà que ca ici). Je vais donc
parler un peu de ma vie en tant que bloggeur.
Ce
blog a été créée
après un transfert
du blog que je tenais à Rennes 1, qui avait
été
lancé voilà bientôt un peu plus de 2 ans, et je dois
avouer
(maintenant il y prescription) que j'ai honteusement
volé
le nom à un extrait de conversation que j'avais avec Francis Kramarz à l'X
(reprenant le nom inventé par Stephen Dubner et Steven Levitt, i.e. freakonomics).
L'idée du blog était de parler de choses qui
m'amusent
dans ma vie d'enseignant-chercheur. L'économie
mathématique n'est pas très sexy, et
n'intéresse
que peu de monde, donc j'évite d'en mettre trop... par
contre,
j'aime aussi beaucoup les maths appliqués, les statistiques,
et
l'économétrie. Et l'avantage quand on travaille
sur la
modélisation, y compris en tant qu'enseignant, c'est qu'on
peut
illustrer un peu comme on veut. Personnellement je comprends mieux la
notion d'optimum de Pareto quand on me parle de se servir de l'eau
à la cantine (comme ici),
plutôt que de me donner une définition abstraite.
Et il s'avère que ça a plutôt tendance
à
réveiller les élèves quand
on dit que les
processus VAR permettent de suivre les mensurations des demoiselles de
playboy (comme ici),
en tous les cas plus que la modélisation des taux
d'intérêt dans la zone euro. Les processus
aléatoires, comme je m'efforce à le
dire (ici
ou là),
c'est beaucoup plus marrant appliqué à des
problèmes d'alcooliques qu'appliqué à
la
valorisation d'options financières. Et les chaînes
de
Markov appliquées à l'analyse de la pluie en
Bretagne
(comme ici),
ça intéresse tous les
élèves qui
viennent à la fac en vélo, ou sinon je peux aussi
parler
de consommation de papier toilette dans les toilettes publique (comme là).
Bref, peu importe le sujet, autant que ce soit amusant,
l'idée étant d'illustrer une méthode, une technique, un concept abstrait...
Donc pour amuser mes étudiants (et mes lecteurs) je
traîne
beaucoup sur internet à la recherche de bases de
données, afin d'illustrer des méthodes d'estimation.
Alors pour ceux qui n'en ont jamais manipulé, les
données, c'est un truc assez incroyable.... Vu de loin,
ça ne ressemble pas à grand chose, genre
ça peut
ressembler à ça,

Mais il y a quelques années, on a vu
arriver le datamining,
et "les gens" ont commencé à retenir une
idée un peu générale du genre "vos
données valent de l'or",
et depuis, certains refusent de communiquer leurs données.
Je ne
parle pas de chercheurs qui ont collecté des
données, et
qui n'ont pas fini de publier dessus (je comprends qu'il puisse exister
une relative compétition entre chercheurs), mais je parle de
base qui existent.... mais que personne n'exploite. En fait "les gens"
ont oublié que s'ils avaient de l'or, il faut peut
être
des mineurs pour aller le chercher, puis des joaillers pour le
retravailler, et enfin des bijoutiers pour rendre ça
présentable. Et c'est souvent agaçant de faire
face
à un refus, de voir ces belles données qui
existent, mais
qu'on ne peut avoir....Bref, aujourd'hui je vais faire un billet sur les billets que j'aurais rêvé de faire, mais que je ne fais pas, faute de données....
- L'argument
(magique) de la CNIL pour les bases informatiques
- On veut la conclusion de l'étude avant de fournir les études
- L'invention d'arguments (farfelus, parfois)
- Nous on fait dans le qualitatif, pas le quantitatif
- Ah oui, je vois très bien, mais demandez au service ETDDHRC qui s'en occupe
- il y a 4 ou 5 ans, j'ai eu accès à un très gros fichier d'expertises de véhicules, consécutives à des accidents de la route, plusieurs centaines de milliers d'accidents analysés... on avait voulu travailler avec des étudiants sur l'impact des radars automatiques, mais surtout sur la fraude à l'assurance... Sauf qu'avoir les accidents c'est bien, mais il fallait normer par le nombre de véhicules en circulation... j'ai donc demande à plusieurs reprises un accès au fichier des cartes grises pour savoir combien de véhicules étant en circulation (marque, modèle)... tous les services se sont renvoyés la balle... Et je n'ai jamais eu la base...
- j'ai eu la même discussion il y a quelques mois sur les nouvelles plaques... le Ministère de l'Intérieur affiche (ici) les départements les plus demande (car on a maintenant le choix du numéro que l'on pose sur la plaque), mais on ne peut pas croiser le département de résidence et le département de la plaque.... Étude qui m'aurait amusé car j'ai un joli modèle à tester derrière...
- sinon à la même période, je souhaite analyser l'impact de la taille des classes sur la réussite scolaire (j'ai fait 4 billets sur le sujets, ici ou là, mais sur des données israéliennes): j'ai demande au Ministère de l'Éducation Nationale à avoir accès aux résultats individuels (mais anonymes) d'échantillons du test national de CE1. En particulier, j'étais aussi intéresse par la réussite des enfants nés en janvier par rapport à ceux nés en décembre... Tous les services se renvoyaient la balle, et je n'ai jamais eu les données.
- Le service juridique veut que vous signez 10 pages de "disclosure"
- Allez vous servir sur le site (en faisant 5346 requêtes)
- On veut bien donner des bases, mais à des journalistes, pas à des universitaires
Fort heureusement, certains ont compris leur intérêt, et n'hésite pas à m'envoyer des bases si je leur demande. Ca fait une étude gratuite pour eux, et moi je me serais amusé un peu (ou fait travaillé mes étudiants). Mais ce n'est pas la majorité. En attendant, je suis devenu voleur de données. Beaucoup de données traînent sur internet, et en bricolant un peu on peut les récupérer... L'autre jour un copain (que j'avais sollicité pour aller chercher des bases en faisant automatiquement des requêtes sur un site) me demandait "elles sont à qui ces données ?". Et je dois avouer que depuis je doute.... Moralité, je suis un peu surpris de l'étymologie du mot données, car rares sont ceux qui en donnent vraiment... et c'est dommage.







Comments
Je ne sais pas si tu aimes le golf, mais il semble y avoir quelques données ici :
http://www.worldgolfchampionships.c...
NB : lien trouvé suite à la lecture de cet article du New york Times : http://www.nytimes.com/2009/06/16/s...
NB #2 : le papier mentionné est maintenant dispo
http://opimweb.wharton.upenn.edu/do...
Avec la multiplication des donnees dans toutes les administrations, il est somme toutes effarant de voir qu'il n'y a pas de Mr/Mme Vie Privee au sein de chaque administration. Bien que cela ressemble a plus de bureaucracie, on peut penser que les reponses a tes requetes soient beaucoup plus consistentes ou plus intelligentes. Tiens j'ai un billet un peu complementaire sur ton probleme:
http://nuit-blanche.blogspot.com/20...
Igor.
Sue le site du guardian ya les bases de données de wikileaks.
Sinon petite faute de frappe : "grossesse" et non "grosse"
bonne fêtes
Bonjour Arthur,
Il y a une vidéo (vue sur Statisfaction) que tu connais peut-être déjà qui parle du même problème de façon assez amusante (Hans Rosling prend lui la métaphore de la graine qui n'a pas encore pu germer au lieu de celle de l'or):
http://www.ted.com/talks/view/id/92
(à partir de 15:45)
D'ailleurs lui aussi est un grand adepte des statistiques animées (et amusantes) !
Bon week-end.
Bonjour Arthur,
Quelles sont vos expériences avec la loi du 17 juillet 1978 sur l'accès aux données administratives et vos relations avec la CADA?
D'expérience, le fait de dire à l'agent lambda que les documents doivent être remis en vertu de l'article 2 du titre 1 de la loi fonctionne pas trop mal
nkb.
REPONSE: je vais essayer....
Bonjour A. C, ton cri de coeur est partagé.
Avec tant que confidentialité autour de ces données, une nouvelle ère du Hacking pointe à l'horizon sous tous les cieux y compris l'Afrique, mon continent.
A croire que les données ne plaident pas en la faveur des politiques, ou du moins renforce les soupçons. Pourtant ces données qui tuent peuvent aussi améliorer les conditions de vie de tout le monde.
Lorsque la richesse(ici les données) n'est pas équitablement distribuée, la redistribution finit toujours par arriver.
Les mécanismes aléatoires se mettent déjà en place.
Patience, L'état stationnaire ne semble pas bien loin...
Le "Robin des bois des Données".