Le Big Data, c’est la tendance du moment et si vous ne le savez pas : il va profondément transformer la façon dont nous travaillons, dans un grand nombre de domaines. La santé en particulier est un terrain fertile : notre production de données et leur variété croît de façon impressionnante, le temps réel devient un vrai enjeu…
Mais allons un peu plus loin que ce mot à la mode et interrogeons-nous : qu’est-ce qui nous a amené à parler de Big Data ?
Volume, Variety, Velocity, Veracity
Commençons par une des définitions qui tente de faire consensus, les 4 V :
- Volume,
- Variety,
- Velocity,
- Veracity.
Pris séparément, aucun de ces V n’entraine de Big Data.
Par exemple : Volume.
Un fichier Excel contient 65 536 lignes : si vous les remplissez sur 10 colonnes, que vous essayez de faire des opérations statistiques courantes et que votre ordinateur a moins de 10 ans, vous n’aurez pas à attendre le résultat. Pourtant dans l’usage courant, plus de 65 000 mesures sur 10 dimensions, ça ressemble à un gros volume de données….mais il n’est pas nécessaire d’avoir un outil particulier pour les traiter.
En revanche si ces données sont en plus très hétérogènes (par exemple, l’une des colonnes est une image), ou mise à jour très fréquemment (par exemple, l’une des colonnes est mise à jour tous les un centième de seconde), alors Excel risque de ne pas être un outil adapté… c’est à ce moment-là qu’on commence à parler de Big Data…
le Big Data : une réalité industrielle encore exceptionnelle
Maintenant : sommes-nous souvent confrontés à des données de ce type ?
Il me semble que, même dans les services numériques, c’est une situation assez rare que seuls connaissent quelques grands fournisseurs de services : les GAFAs (Google, Apple, Facebook, Amazon), des opérateurs en télécommunications et quelques autres sociétés de la nouvelle économie - finance et micro transactions automatisées-, qui gèrent simultanément des interactions avec des millions de clients partout autour de la planète.
Le Big Data est donc finalement une réalité industrielle encore exceptionnelle, pas uniquement pour une raison de maturité, mais aussi parce que tous les problèmes ne relèvent pas du Big Data (1).
Depuis des années l’analyse de données se fait sans Big Data, sous d’autres noms : business intelligence, data mining, etc.
Pour bien sentir la différence, on peut considérer ce qui, techniquement, a permis l’apparition du Big Data :
- Le calcul massif rendu accessible à travers des outils de parallélisations comme Hadoop. Ces outils permettent de traiter en temps réel de grande quantité de données, ou des données très variées, complexes, en « découpant le calcul », et en faisant travailler sur chaque petit morceau du problème un processeur diffèrent.
- Le stockage massif à bas prix, avec l’effet d’échelle sur les composants, qui permet d’enregistrer de grands volumes de données.
- Les progrès en analyse de données, et dans des champs plus spécialisés : data mining, machine learning, vision par ordinateur, etc. qui aujourd’hui permettent de réaliser des analyses de données plus pertinentes...
Bref, le Big Data est certainement partout, mais tout n’est pas du Big Data.
Benjamin.
(1) une remarque du Dr Thomas Lefevre (Médecin et mathématicien, relecteur bienveillant de ce post) : la confusion vient sans doute du fait que le big data se pose avant d’annoncer le type de problème qu’il est censé résoudre ou adresser
crédit photo : ©gospodja_mesec - Fotolia.com
Directeur Marketing d'Orange Healthcare, je travaille depuis de nombreuses années dans l'univers de la santé. Avant d'intégrer Orange, je planchais déjà au sein de l'INSERM sur le domaine de l'imagerie médicale. Passionné de technologies, j'ai dû tester une bonne vingtaine d'objets connectés santé rien que cette année !