Surveillance des services grille par NAGIOS Nadia Lajili

  • Slides: 21
Download presentation
Surveillance des services grille par NAGIOS Nadia Lajili

Surveillance des services grille par NAGIOS Nadia Lajili

Sommaire Nagios : Etat actuel Solutions 2

Sommaire Nagios : Etat actuel Solutions 2

Nagios: Etat actuel Monitoring actuel Storage systems (d. Cache, Xrootd, IRODS, SRB. . .

Nagios: Etat actuel Monitoring actuel Storage systems (d. Cache, Xrootd, IRODS, SRB. . . ) File systems (AFS) Mass Storage System (HPSS) Robotique (ACSLS) Batch system Base de données (Oracle) Service interne (Saphir, TMS, DIVA) Services grille (BDII, CE, SRM. . . ) 3

Nagios: Etat actuel Monitoring grille SRM : validité du certificat CE : LDAP, Grid.

Nagios: Etat actuel Monitoring grille SRM : validité du certificat CE : LDAP, Grid. FTP, validité du certificat BDII : LDAP, FCR Top BDII Validité des CRLs Consignes dans le wiki des opérations 4

Nagios: Etat actuel Monitoring grille Surveillance minimale assurée par NAGIOS Alertes CIC portal SAM

Nagios: Etat actuel Monitoring grille Surveillance minimale assurée par NAGIOS Alertes CIC portal SAM tests Activité liée au COD 5

Solution : WLCG monitoring probes • Les sondes grilles sont exécutées par une machine

Solution : WLCG monitoring probes • Les sondes grilles sont exécutées par une machine dédiée – – Garantie d’un fonctionnement indépendant L'exécution à distance est réalisé via NRPE Utilise les sondes et de la mécanique grille WLCG Utilise un mécanisme de renouvellement de proxy fiable et fonctionnel 6

Solution : WLCG monitoring probes Sondes distribuées • GRAM-probe Tester la validité d'un certificat,

Solution : WLCG monitoring probes Sondes distribuées • GRAM-probe Tester la validité d'un certificat, l'authentification auprés du service, et soumet un job • Grid. FTP-probe Cette sonde permet de tester un service Grid. FTP en effectuant un transfert (écriture/lecture/suppression). • SRM-probe Ce module teste la validité du certificat serveur du service, accéde au service, copie, accés, destruction du fichier 7

Solution : WLCG monitoring probes Sondes distribuées • FTS-probe Récupére la liste des canaux

Solution : WLCG monitoring probes Sondes distribuées • FTS-probe Récupére la liste des canaux ouverts • LFC-probe Ecriture, Accès à une entrée puis à un répertoire dans le catalogue • RGMA-probe Se connecte sur le serveur TOMCAT de la machine et récupère le statut du service • My. Proxy-probe Permet de tester la validité du proxy stocké sur le serveur My. Proxy. 8

Architecture actuelle NAGIOS PLATFORMS MASTER / SLAVE NAGIOS CCNAGIOS GRID NODE TEST node Nagios

Architecture actuelle NAGIOS PLATFORMS MASTER / SLAVE NAGIOS CCNAGIOS GRID NODE TEST node Nagios 3. 0. 6 Nodes NAGIOS Slave DELL Power. Edge 1950 NRPE Scientific Linux 4 Master Operation UI My. Proxy cclcgproxli 01 WLCG Probe cclcgsrvli 01 Grid services nodes refresh_proxy Source M. HAUSARD 9

Architecture actuelle Mécanisme NRPE CHECK_LFC Master NRPE UI Nagios [output] FTS NRPE: Nagios Remote

Architecture actuelle Mécanisme NRPE CHECK_LFC Master NRPE UI Nagios [output] FTS NRPE: Nagios Remote Plugins Executor 10

En test… 11

En test… 11

Monitoring grille : solutions SAM tests : particularités • CE, g. CE – job

Monitoring grille : solutions SAM tests : particularités • CE, g. CE – job submission - UI->RB->CE->WN chain – version of CA certificates installed (on WN!) – version of software middleware (on WN!) – broker info - checking edg-brokerinfo command – UNIX shells environment consistency (BASH vs. CSH) – replica management tests - using lcg-utils, default SE defined on WN and a selected central 12

Monitoring grille : solutions – accessibility of experiments software directory - environment variable, directory

Monitoring grille : solutions – accessibility of experiments software directory - environment variable, directory existence – accessibility of VO tag management tools – other tests: R-GMA client check, Apel accounting records • SE, SRM – storing file from the UI - using lcg-cr command with LFC registration – getting file back to the UI - using lcg-cp command – removing file - using lcg-del command with LFC de-registration 13

Monitoring grille : solutions • GStat – site-BDIIs: accessibility (response time), sanity checks (partial

Monitoring grille : solutions • GStat – site-BDIIs: accessibility (response time), sanity checks (partial Glue schema validation) – top-level BDIIs: accessibility (response time), reliability of data (number of entries) 14

Monitoring grille : solutions Stratégie de monitoring EGEE NAGIOS outil de monitoring de référence

Monitoring grille : solutions Stratégie de monitoring EGEE NAGIOS outil de monitoring de référence SAM base de test de référence Surveillance des sites au niveau ROC, résultats exploitables à travers le regional dashboard Surveillance au niveau RC par NAGIOS 15

Monitoring grille : solutions Stratégie de monitoring EGEE Source EGEE III 16

Monitoring grille : solutions Stratégie de monitoring EGEE Source EGEE III 16

Monitoring grille : solutions • Test run locally Test run by ROC & imported

Monitoring grille : solutions • Test run locally Test run by ROC & imported as Passive Check “-roc” added to test name Source EGEE III 17

Monitoring grille : solutions Source EGEE III 18

Monitoring grille : solutions Source EGEE III 18

Moyens disponibles • Mise en place d'un message broker (Active. MQ) - garantie la

Moyens disponibles • Mise en place d'un message broker (Active. MQ) - garantie la livraison des messages - tunnel de communcation fiable entre les applications - notion de queue, topic pour la distribution des messages • Package NAGIOS pour surveillance local d'un site : disponible - utilise NCG pour une configuration simplifiée • Migration des SAM tests vers NAGIOS - wrapper de mise en exécution de tests de type SAM 19

Moyens disponibles • Package NAGIOS regional disponible - NCG configure les sites à monitorer

Moyens disponibles • Package NAGIOS regional disponible - NCG configure les sites à monitorer et paramètre les messages de sortie pour intégration dans NAGIOS site à travers le BUS de messages -> egee-NAGIOS - 1. 0. 0 -26 & egee-NRPE - 1. 0. 0 -12 released • Interface avec le broker de messages - ROC level Nagios configurations and probe results are now published to the messaging system /topic/grid. probe. metric. Output. EGEE. roc. <SITE-NAME> 20

Procédures à mettre en place “Minimiser l’impact des incidents sur les métiers en restaurant

Procédures à mettre en place “Minimiser l’impact des incidents sur les métiers en restaurant un service normal le plus vite possible. . ” Processus de gestion des incidents - Identification de l’incident (NAGIOS) - Enregistrement de l’incident (Xhelp) - Catégorisation (Xhelp) - Priorisation (Wiki opérations) - Diagnostic initial (ressources, Wiki opérations) - Escalate ou investigation et diagnostic - Résolution et restauration du service (modéle d’incident) - Clôture 21