« Chez Amazon, ils savent ce que tu achètes, ce que tu n’as pas acheté, ce que tu as regardé avant d’acheter un produit, et ce que tu veux acheter » nous informe Jason Alexander, VP d’Info-Tech Research.
C’est déjà pas mal. Et si nous voulons pousser plus loin, imaginons le croisement des données liées à l’utilisation des médias sociaux sur votre smartphone avec la météo dans votre région, les billets de train que vous venez de réserver, ou encore vos nouvelles relations sur Google+ et Linkedin. Quelles offres, idées ou concepts les entreprises seraient capables de vous proposer suite à la réutilisation de toutes ces données ?
les données sont de partout
Nous sommes arrivés à un point ou les données sont créées stockées et réutilisées de partout. Facebook traite par exemple 2,5 milliards de contenus, 500 téraoctets de données ou encore 2,7 milliards d’actions « j’aime » par jour. Mais les données émises par des capteurs (on compte aujourd’hui 100,4 millions de connections M2M dans le monde), des photos, ou encore des archives d’achats en ligne sont potentiellement utilisables. Quelques autres données importantes :
- 90% des données existantes ont été créées lors des deux dernières années
- 72 heures de vidéos sont uploadées sur Youtube chaque minute
- 6,8 milliards de cartes SIM sont utilisées dans le monde, soit autant que la population mondiale
les 3Vs : volume, variété et vitesse
Alors comment s’y retrouver dans toutes ces données avant de les traiter ? On peut les classifier selon trois critères : le volume, la variation et la vitesse.
- Volume : Réussir à les quantifier est un gros challenge. Il y a tous les jours de plus en plus de données créées. La génération Y ultra-connectée, l’explosion des médias sociaux, et l’émergence de l’internet des objets ne font qu’amplifier la chose.
- Variété : Les données sont différentes en termes de formats. Elles ne se rangent pas toutes dans le même panier. Ainsi, les tweets, les infos liées à une vidéo, les données de géolocalisation de votre smartphone, ou encore des capteurs de votre voiture, doivent être différenciées et classées. Il existe donc des données structurées (données des fichiers logs, liées à des évènements…) et des données non structurées (analyses des sentiments liées aux médias sociaux)
- Vitesse : Elles arrivent de plus en plus rapidement, et souvent en flux tendu. En effet les utilisateurs diffusent en continu des données dans tous les environnements. L’arrivée de la 4G donne un point de plus à ce facteur vitesse.
croiser les données structurées et non structurées : le potentiel des medias sociaux
Il existe des outils de plus en plus aboutis, permettant notamment à Amazon de connaitre le comportement de l’internaute. L’outil open source Hadoop créé par Walmart figure parmi les plus avancés. Il permet un déploiement des analyses dans tous les datacenters concernés par ses magasins en ligne. Soit des traitements sur des volumes massifs de données allant jusqu’à plusieurs milliers de téraoctets.
C'est-à-dire que les données sont regroupés selon différentes positions géographique, pour être ainsi mieux analysées, et permettre aux entreprises de prendre des décisions stratégiques plus rapidement, avec plus d’intelligence.
Et ce qui devient plus intéressant, c’est que Yahoo!, eBay, Facebook, Twitter ou encore Linkedin sont des utilisateurs de cette solution… de quoi croiser encore plus de données dans les grilles de calculs. Affaire à suivre.
Olivier Rubellin
Crédit photo : © joreks - Fotolia.com
Hello ! Anciennement au sein de l'équipe digitale d'Orange Business, j'ai travaillé sur la gestion des médias sociaux et sur la production de contenus multimédia. On peut toujours discuter @olivierrub :-)