Clustrix : un nouveau système de gestion des données destiné à soutenir les sites Web transactionnels très actifs

« Les entreprises présentes sur le Web ne devraient pas avoir à perdre leur temps avec les problèmes l'infrastructure de leur site, elles devraient consacrer tout le temps dont elles disposent à essayer de l'améliorer ! » Paul Mikesell, PDG et co-fondateur de Clustrix

l'abondance de données nécessite l'invention de nouveaux outils

Le problème de l'afflux de données n'a jamais été aussi considérable. Du fait non seulement des nouveaux sites de médias sociaux qui accueillent des foules d'utilisateurs et enregistrent des millions de connexions, mais également des géants du commerce électronique qui possèdent des quantités astronomiques de données sur les produits, les utilisateurs et leurs préférences, la taille des bases de données atteint des niveaux inégalés. Le résultat est déconcertant : les problèmes d'extension sont stupéfiants, les données en ligne augmentent de façon exponentielle, l'impact sur la robustesse et la disponibilité des système informatique est terrible, sans parler du coût total (TCO) ni de la simplicité de la gestion des données.

Prenons un exemple ayant un impact direct sur les utilisateurs : si une requête était lancée sur le site de Facebook sur tous les amis de vos amis, vous ne pourriez pas la mener à bien, en raison du partitionnement de toutes les bases de données. Ce sont ces problèmes majeurs, constatés sur le marché, qui ont donné naissance à Clustrix, nouvelle entreprise co-fondée par Sergei Tsarev et Paul Mikesell. Le 4 juin, à la fin de notre voyage à destination de la Silicon Valley, nous avons été reçus par Paul Mikesell (à gauche, sur la photo) et Daniel Liddle (à droite) dans les bureaux de Clustrix, au cœur de San Francisco. Clustrix existe depuis 3 ans et demi et a consacré énormément de temps à la mise au point de sa technologie. Elle a été fondée par le fonds d'investissement Sequoia Ventures. L'entreprise a vu le jour après que des problèmes d'extensibilité (scalabilité) ont été constatés au sein de la start-up précédente de Paul Mikesell, Isilon. Le début des années 1990 et l'explosion de l'Internet ont exercé une certaine pression sur les serveurs d'applications et ont accentué le besoin d'augmenter la capacité de stockage, d'où la nécessité de créer des systèmes de bases de données très performants. C'est à ce moment précis que le besoin de créer Clustrix est apparu.

éliminer le partitionnement (« sharding ») permet d'obtenir un coût total de possession 14 fois inférieur

Clustrix a mis au point un système qui vous permet de procéder de passer d'un seul nœud (ou serveur) à des centaines de nœuds sur une base de données unique. Le système est fourni et vendu comme un outil complet comprenant logiciel et matériel. Jusqu'alors, le partitionnement (« sharding ») était la seule façon de résoudre les problèmes d'extensibilité (scalabilité) des systèmes de gestion de données, mais Clustrix offre désormais une alternative.

Le « sharding » est le partitionnement des données de l'application dans des bases de données isolées alors que Clustrix offre une base de données évolutive unique. « Le partitionnement est non seulement onéreux, mais il est également très risqué », souligne Paul Mikesell. Reprenons notre exemple sur Facebook (voir ci-dessus). Clustrix permet ce type de requêtes car les données sont conservées dans une base de données unique. Pour reprendre les propos de Paul Mikesell, Clustrix vous permet d'« amener la requête aux données, et non pas les données à la requête. Clustrix Sierra a été créé sur ce concept simple et l'a exploité pour obtenir un résultat logique offrant de nombreux avantages ». L'impact sur le coût total rendu au client (TCO) est également considérable et le site Web Clustrix vous permet de le vérifier en ligne directement.

Un exemple type avec 20 nœuds permet de faire passer le coût total sur 5 ans d'environ 3,5 millions de dollars à 250 000 dollars, c'est-à-dire un montant 14 fois inférieur à celui obtenu avec la méthode traditionnelle.

conditions, limites et passer à l'étape suivante

La solution Clustrix ne fonctionne qu'avec des applications développées avec MySQL, mais ne présente aucune faille d'après les représentants Clustrix. Le nombre de nœuds pouvant être déployés peut être limité, mais l'entreprise n'en a pas déployé plus de 20 à la fois, «même si le déploiement de 100 nœuds maximum ne devrait poser aucun problème», d'après Paul Mikesell. Interrogés afin de déterminer si le choix unique du SQL est un pari risqué, les représentants de Clustrix ont répondu « MySQL est juste une couche d'interface et nous avons pris la décision de le choisir car sa part de marché est gigantesque, mais nous pourrions adapter la solution dans un autre language. Nous essayons de rester fidèles à notre objectif. Cependant, "il n'existe aucune limite dans le futur, nous pouvons passer à l'étape suivante dès que cela se révèle nécessaire", ajoute Paul Miskesell.

sortie de l'anonymat et propagation fulgurante de la solution

Le partage de photos, les médias sociaux, le commerce électronique, le jeu, les rencontres, les voyages et la publicité comptent parmi les secteurs les plus pertinents de la solution Clustrix. Les caractéristiques communes des sites concernés sont les suivantes : forte croissance, charge de travail de lecture/écriture mixte, requêtes relationnelles, sans lot et pas d'analytique. La solution concerne uniquement les charges de travail transactionnelles. La mise en place d'un système à multiples clients payeurs et des déploiements à grande échelle sont en cours. L'entreprise est sur le point de sortir de l'anonymat et d'annoncer le nom de ses clients aux États-Unis et en Europe Moyen-Orient Asie (principalement au Royaume-Uni et en France). Paul Mikesell décrit ainsi de quelle façon la nouvelle solution se répand comme une traînée de poudre : « De nombreux administrateurs de bases de données ont souhaité tester le système car il leur semblait « trop beau pour être vrai ». Lorsqu'ils ont réalisé qu'il pourrait « réellement fonctionner », ils ont tous souhaité participer au programme d'évaluation, mais nous avons dû restreindre les souscriptions à ce programme d'évaluation ». La technologie est protégée par des brevets individuels, pour lesquels des demandes ont été déposées, mais aucune approbation n'a été accordée pour le moment. need for IP will probably .

un investissement initial limité

 L'investissement de base est de 80 000 $. Il commence à être intéressant pour les clients lorsque 1 base de données SQL n'est plus suffisante et un partitionnement (« sharding ») est nécessaire. « Même la mise en œuvre du partitionnement (« sharding ») est difficile car vous devez arrêter le serveur, engendrant par là même un temps d'indisponibilité pour ce dernier. De plus, les ressources pour le partitionnement sont rares, éloignées et ont tendance à être très onéreuses », souligne Daniel Liddle.

l'entrevue

Ci-après se trouve une entrevue avec Paul Mikesell, enregistrée sur place, dans laquelle il fait brièvement part de sa vision. 


Yann Gourvennec

Je suis spécialiste en systèmes d'information, marketing de la highTech et Web marketing. Je suis auteur et contributeur de nombreux ouvrages et Directeur Général de Visionary Marketing. A ce titre,  je contribue régulièrement sur ce blog pour le compte d'Orange Business sur les sujets du cloud computing et du stockage dans le cloud.