Améliorer la qualité des alertes de supervision (QOS des alertes)

Bien souvent, la qualité des alertes de la supervision n’est pas extraordinaire :

  • beaucoup de faux positifs, d’alertes ne donnant pas lieu à un incident,
  • beaucoup de faux négatifs, d’alertes manquantes alors qu’un incident est remonté par le client,
  • des alertes qui s’empilent parfois sur des mois et que le pilotage n’arrive pas à évacuer,
  • des problèmes liés au développement qui génèrent des alertes en boucle alors que le problème est identifié,
  • d’autres types de messages d’alertes parasites, sans parler des seuils mal calibrés (warning qui remonte en alerte, ou l’inverse)

Cela entraîne un impact significatif sur la capacité du pilotage a être réactif sur incident, et cela joue aussi sur la maîtrise du parc informatique.

Projet d’amélioration de la qualité des alertes :

1200€/jour

Ce problème n’est pas sans solutions, et grâce à ses interventions chez de nombreux grands comptes, Somone a développé une méthodologie qui lui permet de résoudre cette situation.

Basée sur les méthodes agiles, des experts Somone analysent plusieurs sources de données pour parvenir à une première « itération » de correction.

Une fois cette itération remise au client, les équipes Somone laissent le client faire la mise en application et reviennent un mois plus tard pour démarrer la seconde itération.

Une fois le client satisfait de la qualité des données présentes dans sa supervision et que celles-ci restent pertinentes dans le temps, le projet est arrêté.

Cette méthode effective est la plus rapide a fournir des effets. Bien sûr, une analyse sera aussi réalisée de la supervision elle-même pour constater sa pertinence.

Les différents éléments qui seront analysés incluent :

  • La configuration de la plateforme de supervision
  • La configuration des seuils
  • La cmbd
  • les tickets d’incidents de production
  • l’historique des alertes
  • les souches utilisées (OS, middleware)
  • les outils connexes (robots, …)
  • les volumétries d’alertes dans le temps
  • les alertes imbriquées, ou avalanches d’alertes
  • les alertes qui bagotent, ou seuils trop justes
  • Les faux positifs et faux negatifs
  • la couverture de la supervision actuelle.

Chaque itération donnera lieu à :

  • un suivi du volume d’alerte
  • un suivi de la pertinence des alertes
  • un suivi des mises en blackout
  • un suivi de la gestion des problèmes
  • un suivi de la pertinence des moyens donnés au pilotage