déduplication, un nouvel eldorado pour le stockage ?

Voilà bien un étrange mot que celui là ! Mais qu'y-a-t-il donc derrière ce mot à la mode dans les magazines informatiques ? La déduplication est l'un des noms que l'on donne à un concept assez simple : supprimer les doublons. Pourquoi écrire mille fois la même information lorsqu'une seule suffit ? Eh bien c'est ça la déduplication : écrire une seule fois, référencer mille fois. Par exemple, dans le cadre du stockage, cela signifie qu'au lieu de recopier ce même email envoyé au cent destinataires avec l'attachement de 8Mo (je tairai le nom de celui qui a fait le « répondre à tous » malencontreux), il ne sera copié qu'une seule fois et que les quate vingt dix neuf autres ne contiendront que l'adresse où l'on peut trouver le mail complet. Soit, pour simplifier, 99% de réduction d'espace dans ce cas.

Aujourd'hui on retrouve ce mécanisme dans les baies de stockage (NetApp, EMC), les solutions de sauvegarde et d'archivage (Simpana de CommVault, Dxi de Quantum, VTL backup Accelerator de FalconStor, VTL dedup et Protect Tier d'IBM, StorageWorks d'HP, evault d'I365), les transferts réseau (DataDomain racheté par EMC), gestion de la mémoire virtualisée (Memory page sharing de VMware).
deduplication.png

Solution Miracle ? Ca dépend. En fait cela devient intéressant dès lors que l'on a un grand nombre de données similaires. C'est pour cela que plus le volume de données sur lequel est appliqué la déduplication est grand, plus les chances de trouver des données identiques sont élevées et plus le gain d'espace sera important. C'est bien pour cela que cette technologie est d'abord mise en oeuvre en bout de chaine de gestion des données : baies de stockage, sauvegarde et archivage (stockage secondaire). Mais ce qui est intéressant c'est quelle ne nécessite pas de transformation des logiciels pour en bénéficier.

Pourquoi ne pas mettre en place la déduplication à tous les niveaux : stockage et mémoire locale, réseau, stockage centralisé, sauvegarde et archivage ? Eh bien parce que le processus intermédiaire qui déduplique est consommateur de CPU et grève les performances au point qu'elles ne sont pas acceptables à l'heure actuelle pour les baies de stockage. Seul NetApp sort son épingle du jeu grâce à sa technologie WAFL qui n'impacte pas les performances de lecture/écriture quelque soit le type de données. EMC pour sa part ne déduplique que les fichiers de ses NAS. De plus, sur les serveurs physiques, la quantité de données identiques n'est pas assez important pour justifier le coût et l'impact en performance de cette technologie. Seuls les serveurs de virtualisation la justifient par la présence en mémoire de nombreuses portions de code du système d'exploitation identiques (la gestion de la déduplication de la partie disque étant déléguée à la baie de stockage)

Pourquoi seulement maintenant ? Si ce mécanisme est simple à expliquer, il n'est pas si simple à mettre en œuvre. Il nécessite de rajouter une couche intermédiaire de gestion de données (table de déduplication). A chaque écriture, il faut vérifier si la donnée n'est pas déjà présente, ce qui est consommateur de CPU et donc générateur de latence. Idem à la lecture où il faut passer par une table de déréférencement. Les constructeurs ont compris l'enjeu majeur de cette technologie et travaillent d'arrache pied pour la rajouter à leur catalogue. De plus en plus de contraintes arrivent à être éliminées : Simpana arrive désormais à conserver la déduplication sur la VTL et sur la bande alors que la plupart des solutions ne faisaient de déduplication que sur la sauvegarde disque et reformaient les données originales sur bandes pour conserver le mode original de gestion des données.

Aujourd'hui, c'est une des solutions majeures qui rend le VDI (Virtual Desktop Infrastructure) scalable et abordable en terme de coût. En effet les postes utilisateurs virtuels étant quasiment identiques, leur recopie ne coûte pratiquement plus rien en espace de stockage.

Attention à ne pas confondre cette technologie avec les snapshots, le thin-provisioning et autres clones liés dont nous traiterons dans un prochain article.



Blogger Anonymous

-