Actions
Evolution #889
ouvertprocédure #886: Documentation du Système de Surveillance et d'Auto-réparation (Monit/M/Monit)
Rapport de Test Final : Auto-Réparation Production (PROD)
Début:
13 octobre 2025
Echéance:
14 octobre 2025 (En retard de environ 2 mois)
% réalisé:
100%
Temps estimé:
1:00 h
Description
📄 Rapport de Test Final : Auto-Réparation Production (PROD)¶
| Information | Détail |
|---|---|
| Date de l'Événement | Lundi 13 octobre 2025 |
| Heure de Déclenchement Monit | 23:39:29 (WAT) |
| Service Déclencheur | web_server_prod_a (Frontend 172.20.20.5) |
| Erreur Déclencheur | Échec de la vérification HTTP - Status 503 |
| Mécanisme Déclenché | Script de redémarrage séquentiel WildFly (restart_wildfly_prod.sh) |
| Cibles du Redémarrage | WildFly 172.20.1.2 (Primaire) puis 172.20.1.1 (Secondaire) |
| Durée de l'Intervention | 1 minute et 53 secondes (De la détection à la reprise par Monit) |
1. Chronologie des Événements et Validation¶
Cette chronologie combine les logs d'Uptime Kuma (notification globale) et de Monit (exécution locale) ainsi que le log du script (wildfly_restart_prod.log.
| Heure (WAT) | Source | Service/Cible | Événement | Validation Monit |
|---|---|---|---|---|
| 23:31:29 | Monit | web_server_prod_a |
⚠️ Défaillance (Status 503). | Déclenchement du script. |
| 23:31:29 | Log Script | 172.20.1.2 |
Redémarrage primaire réussi. | OK |
| 23:31:39 | Log Script | 172.20.1.1 |
Redémarrage secondaire réussi. | OK |
| 23:33:29 | Monit | web_server_prod_a |
✅ Connexion réussie. | Reprise suite au 1er incident. |
| --- | --- | --- | --- | --- |
| 23:39:29 | Monit | web_server_prod_a |
⚠️ Défaillance (Status 503). | Déclenchement du script. |
| 23:39:29 | Log Script | 172.20.1.2 |
Redémarrage primaire réussi. | OK |
| 23:39:39 | Log Script | 172.20.1.1 |
Redémarrage secondaire réussi. | OK |
| 23:41:29 | Monit | web_server_prod_a |
✅ Connexion réussie. | Reprise suite au 2nd incident. |
(Note: Le log Uptime Kuma montre des notifications peu après 23:39, ce qui correspond au moment où Monit a détecté l'échec et a lancé l'action.)
2. Conclusion et Objectifs Atteints¶
✅ Auto-Réparation Séquentielle Validée¶
Le scénario de défaillance a démontré que le système est robuste et fonctionne conformément aux spécifications :
- La détection par Monit (
web_server_prod_aen 503) a été immédiate. - L'exécution du script
restart_wildfly_prod.sha été déclenchée sans échec SSH. - La séquence de redémarrage sur
172.20.1.2et172.20.1.1(avec attente de 10 secondes) a été complétée avec succès. - La reprise du service a été confirmée par Monit à 23:41:29, juste après la fin de la séquence de redémarrage.
L'objectif de l'auto-réparation en Production est atteint et validé. L'implémentation est considérée comme stable pour cet environnement.
Aucune donnée à afficher
Actions