Big Data : clustering versus modeling

30 septembre 2014 Benjamin Sarda , E-Santé

Dans le post sur la médicine comme art corrélatif, j’ai parlé de l’intérêt de chercher plus que des corrélations, pour débusquer des causalités. Dans la pratique le Big Data est un outil assez inadapté à cette démarche, voyons pourquoi !

les machines ne rêvent pas (encore)

Pour trouver une causalité il faut se donner une mécanique interne, un modèle de fonctionnement. Evidement avoir beaucoup de données peut permettre d’avoir des intuitions. Mais pour passer d’une intuition à la capacité de modéliser, de prévoir, il faut prendre des hypothèses judicieuses sur la nature des phénomènes sur leur fonctionnement.

Big Data ou pas, il faut à ce stade de la pensée quelque chose comme du génie, qui à mon sens va défier l’intelligence artificielle encore quelques siècles. Et avec le génie : de la sympathie, de la proximité avec son sujet. A nouveau cela me semble une caractéristique humaine assez difficile à singer.

le clustering ou comment constituer des groupes homogène suivant un critère

Moins satisfaisant intellectuellement, mais plus adapté au Big Data : le clustering, c’est-à-dire la capacité de constituer des groupes homogène suivant un critère. Dans ce domaine, la promesse du Big Data en santé me semble remarquable.

Plutôt que de la théoriser prenons l’exemple d’une startup récemment primée au Concours Mondial de l’Innovation : CardioLogs.

CardioLogs travaille dans l’interprétation des ECG (électrocardiogramme), et l’originalité de leur démarche tient à la technologie utilisée :

L’algorithme de CardioLogs apprend à partir d’une énorme quantité d’ECG dont on connaît l’analyse, préalablement effectuée et numérisée par des équipes de cardiologues.
Il va fabriquer, sur la base de l’analyse de l’intégralité du signal de tous ces ECG et du diagnostic associé, des groupes (ou clusters) : les ECG 'normaux’, ceux qui présentent telle pathologie, etc.'.
Lorsqu’on lui présente un nouvel ECG, il sait dire à quelle classe il appartient ou s'il n'appartient à aucune classe.
Ensuite, l'algorithme est capable de livrer son interprétation à partir de la classe, c'est-à-dire émettre un diagnostic voire formuler des hypothèses sur l'état du patient qui devront être levées par examen complémentaire (prise de sang, échographie, etc).

Cet algorithme est particulièrement efficace car de plus en plus d'ECG sont numérisés et l'ECG est une technologie très mature, on ne découvre presque plus de nouvelles classes, les classes existantes font relativement consensus dans le milieu de la cardiologie et beaucoup de pathologies sont entièrement détectables à l'ECG.

Le clustering, la vraie promesse du Big Data en santé ?

Evidemment le dispositif précédemment cité ne marche que parce que CardioLogs a pu mobiliser d’énormes quantités d’ECG, et en réaliser le traitement.

C’est un bel exemple de Big Data puisqu’ils affichent 99% de spécificité sur plus d'une soixantaine de troubles de l'activité cardiovasculaire et visent la centaine pour leur étude clinique, en octobre prochain. Qui dit mieux ?

Benjamin.

Benjamin Sarda

Compte Twitter

Directeur Marketing d'Orange Healthcare, je travaille depuis de nombreuses années dans l'univers de la santé. Avant d'intégrer Orange, je planchais déjà au sein de l'INSERM sur le domaine de l'imagerie médicale. Passionné de technologies, j'ai dû tester une bonne vingtaine d'objets connectés santé rien que cette année !