big data : anonymisation des données à #OSD14

Cliquez ici pour visualiser la vidéo directement sur Dailymotion.

Pour vous présenter le contenu d'Orange Security Day 2014, voici des interviews des différents speakers : si leurs sujets vous intéressent, vous pourrez suivre la conférence le 8 avril matin via un livestream vidéo ici même... stay tuned! ;-)

Pour préparer Orange Security Day, je suis allé interviewer Emmanuel Mayer qui interviendra sur  le thème de l'anonymisation des données et le Big Data. Je lui ai donc demandé de nous introduire son sujet, de nous mettre l'eau à la bouche en quelque sorte ! :-)

Voici donc une courte retranscription de son discours, la question principale que j'en retiens étant : "jusqu'à quel point doit-on anonymiser les données ?"

anonymiser les données : contexte et acteurs

L'anonymisation des données, c'est un face à face entre éthique et intelligence économique : les usagers souhaitent préserver leur vie privée au maximum et les entreprises veulent tirer profit des données personnelles.

Pour concilier ces deux parties, il faut développer des mécanismes de transformation de la donnée : il s'agit alors de transformer cette dernière pour la rendre insensible et ainsi la rendre exploitable par les entités d'intelligence économique.

méthodes d'anonymisation

Pour ces opérations de transformation, il existe différentes méthodes comme :

  • la suppression de données pure et simple
  • l'aggrégation de données
  • la variation de données (la flouter)
  • etc.

anonymisation absolue versus approche par le risque

Toutes ces manipulations techniques ont donc pour but de répondre à la législation : se conformer à la loi et plus particulièrement à la CNIL qui fait office d'arbitre et juge ainsi de l'adéquation de telle ou telle solution pour la manipulation de données personnelles.

La principale question de la CNIL par rapport à ces transformations est : est-ce que la donnée est parfaitement anonymisée ? Plus précisément, peut-on revenir à la personne d'origine en croisant la donnée transformée avec des bases de données publiques ?

Des outils permettent de répondre à ces questions en donnant un degré d'anonymat obtenu. Aussi, on va lancer des attaques contre ces données pour essayer d'en identifier l'origine : si ce n'est pas faisable, alors la donnée est parfaitement anonymisée. Ceci dit, l'approche pour laquelle Emmanuel pousse est celle du risque : jusqu'où une donnée est-elle anonymisée ? A-t-elle besoin d'un anonymat complet ? Y en a-t-il seulement besoin ? Et ainsi on définit un degré d'anonymat.

Rémi