Projet

Général

Profil

Actions

Evolution #889

ouvert

procédure #886: Documentation du Système de Surveillance et d'Auto-réparation (Monit/M/Monit)

Rapport de Test Final : Auto-Réparation Production (PROD)

Ajouté par Patrick ENGWANG NGUEMA il y a 2 mois.

Statut:
Nouveau
Priorité:
Normal
Début:
13 octobre 2025
Echéance:
14 octobre 2025 (En retard de environ 2 mois)
% réalisé:

100%

Temps estimé:
1:00 h

Description


📄 Rapport de Test Final : Auto-Réparation Production (PROD)

Information Détail
Date de l'Événement Lundi 13 octobre 2025
Heure de Déclenchement Monit 23:39:29 (WAT)
Service Déclencheur web_server_prod_a (Frontend 172.20.20.5)
Erreur Déclencheur Échec de la vérification HTTP - Status 503
Mécanisme Déclenché Script de redémarrage séquentiel WildFly (restart_wildfly_prod.sh)
Cibles du Redémarrage WildFly 172.20.1.2 (Primaire) puis 172.20.1.1 (Secondaire)
Durée de l'Intervention 1 minute et 53 secondes (De la détection à la reprise par Monit)

1. Chronologie des Événements et Validation

Cette chronologie combine les logs d'Uptime Kuma (notification globale) et de Monit (exécution locale) ainsi que le log du script (wildfly_restart_prod.log.

Heure (WAT) Source Service/Cible Événement Validation Monit
23:31:29 Monit web_server_prod_a ⚠️ Défaillance (Status 503). Déclenchement du script.
23:31:29 Log Script 172.20.1.2 Redémarrage primaire réussi. OK
23:31:39 Log Script 172.20.1.1 Redémarrage secondaire réussi. OK
23:33:29 Monit web_server_prod_a Connexion réussie. Reprise suite au 1er incident.
--- --- --- --- ---
23:39:29 Monit web_server_prod_a ⚠️ Défaillance (Status 503). Déclenchement du script.
23:39:29 Log Script 172.20.1.2 Redémarrage primaire réussi. OK
23:39:39 Log Script 172.20.1.1 Redémarrage secondaire réussi. OK
23:41:29 Monit web_server_prod_a Connexion réussie. Reprise suite au 2nd incident.

(Note: Le log Uptime Kuma montre des notifications peu après 23:39, ce qui correspond au moment où Monit a détecté l'échec et a lancé l'action.)


2. Conclusion et Objectifs Atteints

✅ Auto-Réparation Séquentielle Validée

Le scénario de défaillance a démontré que le système est robuste et fonctionne conformément aux spécifications :

  1. La détection par Monit (web_server_prod_a en 503) a été immédiate.
  2. L'exécution du script restart_wildfly_prod.sh a été déclenchée sans échec SSH.
  3. La séquence de redémarrage sur 172.20.1.2 et 172.20.1.1 (avec attente de 10 secondes) a été complétée avec succès.
  4. La reprise du service a été confirmée par Monit à 23:41:29, juste après la fin de la séquence de redémarrage.

L'objectif de l'auto-réparation en Production est atteint et validé. L'implémentation est considérée comme stable pour cet environnement.

Aucune donnée à afficher

Actions

Formats disponibles : Atom PDF