Enabling Grids for Escienc E Grid Service Monitoring
Enabling Grids for E-scienc. E Grid Service Monitoring Working Group Exemple du monitoring "Nagios" du ROC Central-Europe Prototype de configuration nagios Pierre-Emmanuel BRINETTE www. eu-egee. org EGEE-II INFSO-RI-031688 EGEE and g. Lite are registered trademarks
Plan Enabling Grids for E-scienc. E • Etude de cas : Monitoring au ROC-CE – Motivation – Architecture • Prototype de configuration de nagios – Objectifs du projets – Outils livrés par le projet § Sondes § Générateur de configuration – Retour d'expérience • Conclusion et perspectives EGEE-II INFSO-RI-031688 Journée Monitoring 2
Monitoring du ROC-CE Enabling Grids for E-scienc. E • Le ROC Central Europde – 38 sites – 6 pays (Autriche, Croatie, République tchèque, Hongrie, Pologne, Slovaquie) • 1 système de monitoring centralisé Nagios – https: //cs-egee. srce. hr/nagios/ – Mise en place fin 2006 • Objets supervisés – 91 Hosts – 681 services "Actif" (exécutions des sondes par Nagios) – 369 services "Passifs" (Imports de résultat externe) EGEE-II INFSO-RI-031688 Journée Monitoring 3
Monitoring du ROC-CE Enabling Grids for E-scienc. E • Les motivations – Avoir une vue centralisé de l'état des ressources grilles – Etre notifié dès qu'un problème apparaît § Augmenter la disponibilité des ressources – Permettre une gestion précise des dépendances § Isolation rapide d'un problème § Limite les notifications envoyés – Interface de visualisation – Génération de rapports, disponibilité des services EGEE-II INFSO-RI-031688 Journée Monitoring 4
Monitoring du ROC-CE Enabling Grids for E-scienc. E EGEE-II INFSO-RI-031688 Journée Monitoring 5
Monitoring du ROC-CE Enabling Grids for E-scienc. E EGEE-II INFSO-RI-031688 Journée Monitoring 6
Architecture Enabling Grids for E-scienc. E Site admins Get remote results Get site’s & nodes information Issue alarms Get Nagios results Get site status Get VOMS proxy Refresh proxy Probe descriptions Monitoring server My. Proxy Live node checks … Get nodes information Service checks Site nodes … Site BDII EGEE-II INFSO-RI-031688 CE SE LFC EGEE’ 07 / Using Nagios for Grid Service Monitoring 7
Prototype de configuration Nagios Enabling Grids for E-scienc. E • Grid Service Monitoring Working Group – Objectif : Fournir un mécanisme pour la mise en place d'une infrastructure de supervision – Basé sur nagios – Permet aux sites n'ayant aucune infrastructure de pouvoir rapidement superviser leur nœuds grilles. • Composant : – Procédure d'installation : https: //twiki. cern. ch/twiki/bin/view/LCG/Grid. Monitoring. Nagios. Install – Générateur de configuration "NCG" – Ensemble de sondes fourni par le projet. • Fonctionnement : – Remote : importe automatiquement les résultats des tests SAM – Local : Exécution de sondes par le serveur nagios EGEE-II INFSO-RI-031688 Journée Monitoring 8
Prototype de configuration Nagios Enabling Grids for E-scienc. E • Sondes fournies par le projet: – Distribués sous forme RPM : http: //www. sysadmin. hep. ac. uk/rpms/grid-services/RPMS. monitoring/ – Conformes aux directives "Grid Monitoring Probes Specification" https: //twiki. cern. ch/twiki/bin/view/LCG/Grid. Monitoring. Probe. Specification • Type de service supervisé – CE, Grid. FTP, SE DPM, d. CACHE, RB, FTS, LFC … • Nécessite un proxy de longue durée de vie déposé sur un serveur My. Proxy: – Une sonde est livré pour renouveler le proxy EGEE-II INFSO-RI-031688 Journée Monitoring 9
Prototype de configuration Nagios Enabling Grids for E-scienc. E • Générateur de configuration mode 'Remote' – But: importer les tests SAM (mode préconisé) – Invocation : /opt/lcg/sbin/ncg. pl --probes remote --site MONSITE – Interroge la base de SAM pour connaître tout les nœuds d'un site donné. § Nécessite d'avoir accès à la SAM-PI – Interroge le site BDII et ajout éventuel des nœuds non présent dans SAM – Génère la configuration de nagios dans /etc/nagios/wlcg. conf • Génération de configuration mode 'local'. – – Test des services par nagios en utilisant les sondes "locale" Le principe de génération de configuration reste le même. Nécessite que la machine nagios soit Glite-UI Nécessite un serveur myproxy pour stocker le certificat EGEE-II INFSO-RI-031688 Journée Monitoring 10
Prototype de configuration Nagios Enabling Grids for E-scienc. E • Commentaires – ncg 0. 9. 8 -1 génère un fichier de configuration monolithique (wlcg. cfg) pour tout les objets (host, services, command, contact) – Configuration nagios avancé (gestion des dépendances de services, des groups de service). – Difficile a intégrer dans une installation de nagios existante. – Les configurations ne sont générés que pour un seul site. • Nouvelles versions – En test : ncg 0. 9. 9 -3 permet une configuration beaucoup plus souple. Les objets sont dans des fichiers séparés (commands. cfg, contacts. cfg, hosts. cfg, services. cfg) – A venir : Une version du configurateur ncg "Régional" permettant de générer une configuration pour plusieurs sites. EGEE-II INFSO-RI-031688 Journée Monitoring 11
Conclusion Enabling Grids for E-scienc. E • La solution Nagios+NCG+probe commence à être déployée en version 'standalone' – Ex: Monitoring de TRIUMF : https: //lxb 1931. cern. ch/nagios/ • Configuration "remote" (import des tests SAM) facile à mettre en œuvre – Fonctionne parfaitement sur une machine virtuelle SL 4/256 Mo • Configuration "local" (exécution de sonde par nagios) plus contraignante à déployer – Le serveur Nagios doit être installé sur une UI. – Nécessite un serveur myproxy – Problème d'environnement avec le MW UI sur un espace partagé • Page du "Grid Service Monitoring Working Group" https: //twiki. cern. ch/twiki/bin/view/LCG/Grid. Service. Monitoring. Info EGEE-II INFSO-RI-031688 Journée Monitoring 12
Perspectives Enabling Grids for E-scienc. E • Utilisation dans le cadre du "Testbed Français" ? – Utiliser le mécanisme et les sondes pour passer des tests à des nœud dans un grille hors production. • Monitoring "Régional" ? – Permettrai de se "forger" un expérience d'un système de monitoring a l'échelle national. – Préparer l'avenir pour les NGI EGEE-II INFSO-RI-031688 Journée Monitoring 13
Divers Enabling Grids for E-scienc. E • WLCG Collaboration Workshop (24 avril après midi) – – Introduction to Nagios for fabric management : How to monitor a cluster ? Nagios for Grids : NCG, WLCG work on grid probes Nagios for a ROC : How to do regional management using these tools – Advanced tools : Ganglia/Cacti/Nagios. Grapher integration/NRPE • Présentation de Emir Imamagic – Egee '07 : – http: //indico. cern. ch/contribution. Display. py? contrib. Id=297&sessi on. Id=37&conf. Id=18714 – Egee User Forum 07 : – http: //indico. cern. ch/material. Display. py? contrib. Id=183&session. Id =27&material. Id=slides&conf. Id=7247 EGEE-II INFSO-RI-031688 Journée Monitoring 14
- Slides: 14