Lorsque l'on aborde le sujet de la gestion et du suivi d'une plateforme IT, le monitoring vient très rapidement sur la table car c'est évidemment un point critique. Néanmoins, dès que l'on pousse un peu l'échange avec les équipes en charge du SI, on réalise très vite qu'il y a confusion entre monitoring et supervision.Alors oui, si on ne fait pas le distinguo, on pourrait se dire que la supervision est une traduction du mot monitoring et qu'après tout c'est bien si cela permet d'éviter un anglicisme supplémentaire ... mais soyons réalistes, dans le vocabulaire IT, si on enlève les anglicismes, il ne va pas rester grand chose.
Regardons alors un peu au-delà de la langue. La supervision et le monitoring sont deux choses différentes. La supervision consiste à pouvoir vérifier à tout moment la disponibilité d'une machine ou d'un service au sein de l'infrastructure. Le monitoring est la capacité de mesurer le niveau de performances d'une machine ou d'un service au sein de l'architecture.
Evidemment, une solution de monitoring inclura nécessairement une brique de supervision. Mais la plupart du temps, les solutions de supervision se borneront à vous signaler qu'une machine est joignable ou pas et vous signaleront qu'un lien réseau est tombé, isolant ainsi une partie de la plateforme.
Une fois de plus, force est de constater que la supervision occulte l'essentiel de la raison d'être de la gestion et du suivi d'une plateforme : l'expérience utilisateur .
Si un service est interrompu, l'essentiel est de le remonter le plus rapidement possible. S'il est disponible, c'est de s'assurer du niveau de qualité et de performance réels et de leurs impacts sur les utilisateurs finaux. Voilà la raison d'être du monitoring.
Ce qu'une équipe IT attendra d'une solution de monitoring en environnement virtuel (puisque c'est le sujet qui nous préoccupe), ne se limite pas à de simples graphes de performances.
Les axes majeurs sont les suivants:
- La capacité à détecter rapidement une anomalie et à proposer des axes d'investigation et de résolution
- La capacité à prédire les incidents en tenant compte du rythme d'évolution de tel ou tel indicateur (pro-activité)
- La capacité à établir des scénarii de développement de la plateforme en rapport avec des hypothèses d'évolution constatées sur une période donnée (capacity planning)
- La capacité à redistribuer les couts de l'infrastructure entre les entités utilisatrices selon leur utilisation réelle des services (charge-back)
Nous verrons dans un prochain billet que les solutions intéressantes nées de l'écosystème virtuel se sont positionnées sur l'ensemble de ces points et que c'est ce qui fait leur réelle valeur ajoutée.