Surveillance des services grille par NAGIOS Nadia Lajili
- Slides: 21
Surveillance des services grille par NAGIOS Nadia Lajili
Sommaire Nagios : Etat actuel Solutions 2
Nagios: Etat actuel Monitoring actuel Storage systems (d. Cache, Xrootd, IRODS, SRB. . . ) File systems (AFS) Mass Storage System (HPSS) Robotique (ACSLS) Batch system Base de données (Oracle) Service interne (Saphir, TMS, DIVA) Services grille (BDII, CE, SRM. . . ) 3
Nagios: Etat actuel Monitoring grille SRM : validité du certificat CE : LDAP, Grid. FTP, validité du certificat BDII : LDAP, FCR Top BDII Validité des CRLs Consignes dans le wiki des opérations 4
Nagios: Etat actuel Monitoring grille Surveillance minimale assurée par NAGIOS Alertes CIC portal SAM tests Activité liée au COD 5
Solution : WLCG monitoring probes • Les sondes grilles sont exécutées par une machine dédiée – – Garantie d’un fonctionnement indépendant L'exécution à distance est réalisé via NRPE Utilise les sondes et de la mécanique grille WLCG Utilise un mécanisme de renouvellement de proxy fiable et fonctionnel 6
Solution : WLCG monitoring probes Sondes distribuées • GRAM-probe Tester la validité d'un certificat, l'authentification auprés du service, et soumet un job • Grid. FTP-probe Cette sonde permet de tester un service Grid. FTP en effectuant un transfert (écriture/lecture/suppression). • SRM-probe Ce module teste la validité du certificat serveur du service, accéde au service, copie, accés, destruction du fichier 7
Solution : WLCG monitoring probes Sondes distribuées • FTS-probe Récupére la liste des canaux ouverts • LFC-probe Ecriture, Accès à une entrée puis à un répertoire dans le catalogue • RGMA-probe Se connecte sur le serveur TOMCAT de la machine et récupère le statut du service • My. Proxy-probe Permet de tester la validité du proxy stocké sur le serveur My. Proxy. 8
Architecture actuelle NAGIOS PLATFORMS MASTER / SLAVE NAGIOS CCNAGIOS GRID NODE TEST node Nagios 3. 0. 6 Nodes NAGIOS Slave DELL Power. Edge 1950 NRPE Scientific Linux 4 Master Operation UI My. Proxy cclcgproxli 01 WLCG Probe cclcgsrvli 01 Grid services nodes refresh_proxy Source M. HAUSARD 9
Architecture actuelle Mécanisme NRPE CHECK_LFC Master NRPE UI Nagios [output] FTS NRPE: Nagios Remote Plugins Executor 10
En test… 11
Monitoring grille : solutions SAM tests : particularités • CE, g. CE – job submission - UI->RB->CE->WN chain – version of CA certificates installed (on WN!) – version of software middleware (on WN!) – broker info - checking edg-brokerinfo command – UNIX shells environment consistency (BASH vs. CSH) – replica management tests - using lcg-utils, default SE defined on WN and a selected central 12
Monitoring grille : solutions – accessibility of experiments software directory - environment variable, directory existence – accessibility of VO tag management tools – other tests: R-GMA client check, Apel accounting records • SE, SRM – storing file from the UI - using lcg-cr command with LFC registration – getting file back to the UI - using lcg-cp command – removing file - using lcg-del command with LFC de-registration 13
Monitoring grille : solutions • GStat – site-BDIIs: accessibility (response time), sanity checks (partial Glue schema validation) – top-level BDIIs: accessibility (response time), reliability of data (number of entries) 14
Monitoring grille : solutions Stratégie de monitoring EGEE NAGIOS outil de monitoring de référence SAM base de test de référence Surveillance des sites au niveau ROC, résultats exploitables à travers le regional dashboard Surveillance au niveau RC par NAGIOS 15
Monitoring grille : solutions Stratégie de monitoring EGEE Source EGEE III 16
Monitoring grille : solutions • Test run locally Test run by ROC & imported as Passive Check “-roc” added to test name Source EGEE III 17
Monitoring grille : solutions Source EGEE III 18
Moyens disponibles • Mise en place d'un message broker (Active. MQ) - garantie la livraison des messages - tunnel de communcation fiable entre les applications - notion de queue, topic pour la distribution des messages • Package NAGIOS pour surveillance local d'un site : disponible - utilise NCG pour une configuration simplifiée • Migration des SAM tests vers NAGIOS - wrapper de mise en exécution de tests de type SAM 19
Moyens disponibles • Package NAGIOS regional disponible - NCG configure les sites à monitorer et paramètre les messages de sortie pour intégration dans NAGIOS site à travers le BUS de messages -> egee-NAGIOS - 1. 0. 0 -26 & egee-NRPE - 1. 0. 0 -12 released • Interface avec le broker de messages - ROC level Nagios configurations and probe results are now published to the messaging system /topic/grid. probe. metric. Output. EGEE. roc. <SITE-NAME> 20
Procédures à mettre en place “Minimiser l’impact des incidents sur les métiers en restaurant un service normal le plus vite possible. . ” Processus de gestion des incidents - Identification de l’incident (NAGIOS) - Enregistrement de l’incident (Xhelp) - Catégorisation (Xhelp) - Priorisation (Wiki opérations) - Diagnostic initial (ressources, Wiki opérations) - Escalate ou investigation et diagnostic - Résolution et restauration du service (modéle d’incident) - Clôture 21
- Des des des
- Modèle de grille d'évaluation des compétences
- Salvador dali autoportrait mou avec du lard grillé
- Knosas pils leģendārais valdnieks bija
- L'empire vpn construit par des agents de renseignements
- Nagios tactical overview
- Nagios partners
- Nagios custom plugin
- Centreon nagvis
- Nagios log server license key
- Nagios report generator
- Nagios active directory monitoring
- Mrtg debian
- Network analizer
- Nagios rrd
- Nagios check_mysql_query
- Nagios open source
- Nagios performance data graph
- Nagios architecture
- Monitoramento nagios
- Nagios aws
- Nagios warszawa