Big Data : trouve-t-on ce que l'on ne cherche pas ?

Nous mesurons le monde en permanence.

A travers les objets connectés, les réseaux, les sites marchands, les systèmes d’information publics ou privés. Nous avons là une masse de données inhumaine en taille et en complexité. Elle dit quelque chose d’inouï sur la réalité qui nous entoure.

Nécessairement, il existe un point critique, une masse de données au-delà de laquelle on accède à une connaissance nouvelle du monde, par ce que des schémas invisible à notre échelle se font jour à l’échelle du Big Data.

Nécessairement ?


Une question que l’on peut se poser est celle de l’identification des schémas : peut-on trouver ce que l’on ne cherche pas, ou encore ce qu’on ne sait pas où chercher grâce au Big Data ? La réponse est sans doute loin d’être simple… toutefois mon opinion est qu’à moins d’avoir beaucoup de chance, il faut en savoir un minimum.

La première raison est assez triviale, et tient à ce que nous savons détecter automatiquement.


A ce jour, l’outil essentiel de la reconnaissance de forme, ou de détection de corrélation, est le produit scalaire ; c’est-à-dire, si on s’épargne la frime, une multiplication. Cela peut paraître étonnant, mais c’est un résultat fondamental et assez ancien (filtre adapté de Wiener 1949, mais surtout inégalité de Cauchy-Schwarz mi XIXème).

Bref, on détecte parfaitement les schémas, quand on sait ce qu’on cherche. Sinon, tout est beaucoup plus difficile.

La seconde raison est plus délicate.


Elle tient au fait que lorsque l’on augmente la dimension des problèmes (c’est-à-dire le nombre de paramètres que l’on regarde : taille + poids fait dimension 2, mais taille + poids + groupe sanguin fait dimension 3) le monde devient considérablement plus difficile à appréhender.

Pour plusieurs raisons :

  • Combinatoire : plus il y a de dimensions, moins on a de chance d’avoir toutes les combinaisons en nombre suffisant pour être représentatif. En pratique, beaucoup d’analyses scientifiques se font avec des dimensions sous échantillonnées. Et toutes les combinaisons n’existent pas, loin de là.
  • La malédiction de la dimension : c’est un phénomène décrit par Bellman. Il a constaté qu’en haute dimension (disons à partir de 10 dimensions) notre notion de distance, c’est-à-dire notre capacité à faire la différence entre deux points, est moins adaptée. A mesure que la dimension augmente, nous perdons cette faculté de clairement séparer les échantillons.
  • L’espace vide : plus la dimension augmente plus l’information se concentre dans le contour de la forme. Pensez à un carré : le centre du carré ressemble au centre d’un cercle. Mais le contour apporte beaucoup plus d’information. Pensez maintenant à une ligne infinie. Vous avez la même quantité d’information partout sur la ligne. En passant de la dimension 1(la ligne) à la dimension 2 (carré ou cercle) on perçoit déjà que le contour des formes est plus riche en information que l’intérieur.

On contourne le problème de la dimension et enlevant les dimensions inutiles, et on regardant le contour des formes… encore faut-il, pour agir de la sorte, avoir une idée de la forme recherchée…

Tout ça est un peu compliqué mais en substance l’idée que je veux défendre est la suivante : peut-on trouver ce que l’on ne cherche pas, ou encore ce qu’on ne sait pas où chercher grâce au Big Data ? Peut-être, on n’est pas à l’abri d’un coup de chance.

Benjamin.

 

crédit photo : © Sergey Nivens - Fotolia.com
 

Benjamin Sarda

Directeur Marketing d'Orange Healthcare, je travaille depuis de nombreuses années dans l'univers de la santé. Avant d'intégrer Orange, je planchais déjà au sein de l'INSERM sur le domaine de l'imagerie médicale. Passionné de technologies, j'ai dû tester une bonne vingtaine d'objets connectés santé rien que cette année !