Ayant remarqué que les bloggeurs avaient souvent, un jour, envie de parler d'eux dans un billet, je vais faire pareil (oui, je sais Igor prétend que je ne fais déjà que ca ici). Je vais donc parler un peu de ma vie en tant que bloggeur.
Ce blog a été créée après un transfert du blog que je tenais à Rennes 1, qui avait été lancé voilà bientôt un peu plus de 2 ans, et je dois avouer (maintenant il y prescription) que j'ai honteusement volé le nom à un extrait de conversation que j'avais avec Francis Kramarz à l'X (reprenant le nom inventé par Stephen Dubner et Steven Levitt, i.e. freakonomics). L'idée du blog était de parler de choses qui m'amusent dans ma vie d'enseignant-chercheur. L'économie mathématique n'est pas très sexy, et n'intéresse que peu de monde, donc j'évite d'en mettre trop... par contre, j'aime aussi beaucoup les maths appliqués, les statistiques, et l'économétrie. Et l'avantage quand on travaille sur la modélisation, y compris en tant qu'enseignant, c'est qu'on peut illustrer un peu comme on veut. Personnellement je comprends mieux la notion d'optimum de Pareto quand on me parle de se servir de l'eau à la cantine (comme ici), plutôt que de me donner une définition abstraite.
Et il s'avère que ça a plutôt tendance à réveiller les élèves quand on dit que les processus VAR permettent de suivre les mensurations des demoiselles de playboy (comme ici), en tous les cas plus que la modélisation des taux d'intérêt dans la zone euro. Les processus aléatoires, comme  je m'efforce à le dire (ici ou ), c'est beaucoup plus marrant appliqué à des problèmes d'alcooliques qu'appliqué à la valorisation d'options financières. Et les chaînes de Markov appliquées à l'analyse de la pluie en Bretagne (comme ici), ça intéresse tous les élèves qui viennent à la fac en vélo, ou sinon je peux aussi parler de consommation de papier toilette dans les toilettes publique (comme ).
Bref, peu importe le sujet, autant que ce soit amusant, l'idée étant d'illustrer une méthode, une technique, un concept abstrait...
Donc pour amuser mes étudiants (et mes lecteurs) je traîne beaucoup sur internet à la recherche de bases de données, afin d'illustrer des méthodes d'estimation. Alors pour ceux qui n'en ont jamais manipulé, les données, c'est un truc assez incroyable.... Vu de loin, ça ne ressemble pas à grand chose, genre ça peut ressembler à ça,

Mais il y a quelques années, on a vu arriver le datamining, et "les gens" ont commencé à retenir une idée un peu générale du genre "vos données valent de l'or", et depuis, certains refusent de communiquer leurs données. Je ne parle pas de chercheurs qui ont collecté des données, et qui n'ont pas fini de publier dessus (je comprends qu'il puisse exister une relative compétition entre chercheurs), mais je parle de base qui existent.... mais que personne n'exploite. En fait "les gens" ont oublié que s'ils avaient de l'or, il faut peut être des mineurs pour aller le chercher, puis des joaillers pour le retravailler, et enfin des bijoutiers pour rendre ça présentable. Et c'est souvent agaçant de faire face à un refus, de voir ces belles données qui existent, mais qu'on ne peut avoir....
Bref, aujourd'hui je vais faire un billet sur les billets que j'aurais rêvé de faire, mais que je ne fais pas, faute de données....
  • L'argument (magique) de la CNIL pour les bases informatiques
Parmi les arguments qui ressortent sans cesse quand on demande des données, c'est "il faut avoir l'accord de la CNIL". Bon, c'est l'argument de mauvaise foi par excellence.... On m'a sorti cet argument dans un hôpital, ou je voulais avoir des données sur les accouchements, connaitre la durée de la grossesse en fonction de caractéristiques de la mère (et du nombre d'enfants déjà eu, par exemple). Un hôpital m'a aussi dit "on peut vous ouvrir nos armoires, et vous pourrez noter vous même car ca n'est pas informatisé" (oui oui, j'ai eu ca... et j'ai pu vérifier avec la naissance de ma troisième: tout était sur papier... oups, j'ai dit de quel hôpital il s'agissait).
  • On veut la conclusion de l'étude avant de fournir les études
Toujours sur mes études sur la durée des grossesses, j'ai appris que l'Inserm constituait une grosse base de données. J'ai demande à y avoir accès, et fort gentiment, on m'a demande de déposer un dossier de recherche. J'ai donc mis l'objet de l'étude, le nom des étudiants qui auraient travaille sur la base, une biblio pour expliquer que je ne partais pas à l'aveugle, et la liste des variables qui m'auraient intéressées. Et la, par téléphone, on m'a dit que c'était très bien, mais "on a besoin d'avoir vos conclusions avant de vous donner accès aux données". La trouve la démarche (supposée scientifique) surprenante. L'argument m'a un peu dépassé, et je n'ai pas donne suite.
  • L'invention d'arguments (farfelus, parfois)
Toujours sur mon étude sur les naissances, j'ai voulu avoir l'information à la source, c'est à dire dans les CAF. Elles connaissent le terme prévu, le terme réel entre autres, elles disposent de tout plein de variables explicatives. Bref, la source de données idéale. J'ai donc contacté une vingtaine de CAF (car les CAF sont départementales), et j'ai eu une vingtaine de réponses différentes allant du "on n'a pas ce genre de données", "on n'as pas le temps",  "c'est la Caisse Nationale qui a ces données", "il faut l'accord de la Caisse Nationale "... Bref, assez souvent, on botte en touche... Un peu comme "mais vous savez, on ne vend pas de fleurs" que m'a sorti Interflora (je voulais savoir si on commandait plus de fleurs a la Saint Valentin ou a la fête des mères, en vain).
  • Nous on fait dans le qualitatif, pas le quantitatif
Il y a quelques années, j'avais vu passer une étude sur l'évolution des mensurations de miss America (et les données sont en ligne ici). Trouvant l'analyse intéressante, j'ai contacte le comité Miss France pour avoir les mensurations des miss (et si possible des prétendantes), et Madame de Fontenay (oui oui, elle m'a écrit) m'a répondu "nous n'avons pas ces informations, les miss ne sont pas choisies pour leurs mensurations mais pour leur personnalité" (je n'invente presque pas - la seule invention vient de la retranscription car j'ai perdu le mail avec tous mes transferts de boites, mais c'est ce qui était dit en substance). Finalement j'ai ressorti mes vieux playboy, ce qui a permis d'avoir encore plus d'observations d'ailleurs....
  • Ah oui, je vois très bien, mais demandez au service ETDDHRC qui s'en occupe
L'argument magique du "c'est pas moi c'est mon frère" pour reprendre La Fontaine (ou ma fille, je ne sais plus trop). Je l'ai eu sur des demandes anciennes, faites à plusieurs reprises (et liées à des sujets qui ont beaucoup fait parler dans la blogosphere)
  • il y a 4 ou 5 ans, j'ai eu accès à un très gros fichier d'expertises de véhicules, consécutives à des accidents de la route, plusieurs centaines de milliers d'accidents analysés... on avait voulu travailler avec des étudiants sur l'impact des radars automatiques, mais surtout sur la fraude à l'assurance... Sauf qu'avoir les accidents c'est bien, mais il fallait normer par le nombre de véhicules en circulation... j'ai donc demande à plusieurs reprises un accès au fichier des cartes grises pour savoir combien de véhicules étant en circulation (marque, modèle)... tous les services se sont renvoyés la balle... Et je n'ai jamais eu la base...
  • j'ai eu la même discussion il y a quelques mois sur les nouvelles plaques... le Ministère de l'Intérieur affiche (ici) les départements les plus demande (car on a maintenant le choix du numéro que l'on pose sur la plaque), mais on ne peut pas croiser le département de résidence et le département de la plaque.... Étude qui m'aurait amusé car j'ai un joli modèle à tester derrière...
  • sinon à la même période, je souhaite analyser l'impact de la taille des classes sur la réussite scolaire (j'ai fait 4 billets sur le sujets, ici ou , mais sur des données israéliennes): j'ai demande au Ministère de l'Éducation Nationale à avoir accès aux résultats individuels (mais anonymes) d'échantillons du test national de CE1. En particulier, j'étais aussi intéresse par la réussite des enfants nés en janvier par rapport à ceux nés en décembre... Tous les services se renvoyaient la balle, et je n'ai jamais eu les données.
J'oublie de préciser, mais a chaque fois, je précise qu'il s'agit d'une étude académique, et que peux m'engager a ne pas diffuser les données.
  • Le service juridique veut que vous signez 10 pages de "disclosure"
Alors ça c'est le pire... c'est arrivé l'autre jour avec un copain actuaire. Je l'avais sollicité pour quelques données, des triangles de liquidation comme on dit. Bon, ce sont des données un peu sensibles, mais je ne demandais pas les montants de provisions constitues, juste des paiements. J'ai un "c'est bon de notre cote, par contre il faudra que tu signes le document joint", à savoir un document juridique de 10 pages, qui devaient être signées par les présidents de l'Université de Rennes 1 et de l'Université de Montréal (car c'était pour donner un projet à mes étudiants). Ne voulant pas prendre de risques, j'ai laissé tombé....
  • Allez vous servir sur le site (en faisant 5346  requêtes)
Cet argument m'a été sorti par le Ministère de l'Écologie:. Je voulais connaître la liste de toutes les communes touchées par une catastrophe naturelle (et qui ont bénéficié d'un arrêté), "c'est sur le site internet, vous savez, on est moderne nous". Cette information est publique (parue au Journal Officiel) mais je voulais une base. J'ai fait un code l'autre jour pour aller faire plusieurs milliers de requetes (sur les matchs de tennis, mais ca prend du temps... et ca n'est pas toujours simple car il faut aller decoder des fichiers html) heureusement, il y a toujours des copains qui ont ces donnees et qui sont prêt à envoyer un fichier xls dans l'heure).
  • On veut bien donner des bases, mais à des journalistes, pas à des universitaires
Pour la première fois, on évoquait la discrétion, mais dans l'autre sens. Classiquement c'est "on vous donne des chiffres, mais faut pas le dire", mais là c'était "on veut bien les donner, mais faut que ça se sache...". Heureusement, Twitter est là, et on finira par trouver un point d'entrée.... à suivre donc...
Fort heureusement, certains ont compris leur intérêt, et n'hésite pas à m'envoyer des bases si je leur demande. Ca fait une étude gratuite pour eux, et moi je me serais amusé un peu (ou fait travaillé mes étudiants). Mais ce n'est pas la majorité. En attendant, je suis devenu voleur de données. Beaucoup de données traînent sur internet, et en bricolant un peu on peut les récupérer... L'autre jour un copain (que j'avais sollicité pour aller chercher des bases en faisant automatiquement des requêtes sur un site) me demandait "elles sont à qui ces données ?". Et je dois avouer que depuis je doute.... Moralité, je suis un peu surpris de l'étymologie du mot données, car rares sont ceux qui en donnent vraiment... et c'est dommage.