EGIIn SPIRE Gruppo Operation CNAF 20102011 11262020 EGIIn

  • Slides: 23
Download presentation
EGI-In. SPIRE Gruppo Operation @ CNAF (2010/2011) 11/26/2020 EGI-In. SPIRE RI-261323 Cd. C 03/12/2010

EGI-In. SPIRE Gruppo Operation @ CNAF (2010/2011) 11/26/2020 EGI-In. SPIRE RI-261323 Cd. C 03/12/2010 1 www. egi. eu

Personale 2010/2011 Nome Progetto Scadenza contratto PM su EGI Bencivenni M. EGEE/EGI 10/2011 48

Personale 2010/2011 Nome Progetto Scadenza contratto PM su EGI Bencivenni M. EGEE/EGI 10/2011 48 Cesini D. EGEE/EGI 10/2011 44 Cristofori A. EGEE/EGI 10/2011 40 Dongiovanni D. EGEE/EMI 10/2011 - Fattibene E. EGEE/EGI 10/2011 48 Ferrari T. CNAF Staff - Misurelli G. EGEE/EGI 10/2011 48 Paolini A. EGEE/EGI 10/2011 47 Veronesi P. EGEE/EGI 10/2011 48 Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

Attività 2010 – EGEE ERA ATTIVITA’ INTERNE Gestione sala macchine zona Grid: - Operation

Attività 2010 – EGEE ERA ATTIVITA’ INTERNE Gestione sala macchine zona Grid: - Operation - R&D -Altri progetti PROGETTO EGEE Gestione Servizi Centrali Partecipazione Working. Groups: MPI/TCB/OAT Turni Controllo GRID TPM/COD Supporto Utenti/site manager Sviluppo HLRMON Sviluppo WMSMonitor IGI CSIRT EGI Design ROC Management Acquisti HW, cablaggi, installazioni OS, macchine virtuali, certificati, monitoring Test DGAS Preprod e testbed Servizi nazionali (VOIP) Portali: - IGI - altri progetti - CNAF Reperib. Operation Reper. Infrastrutt ura Preparazio ne scuole Grid, Web Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

Attività 2010 – EGI ERA ATTIVITA’ INTERNE PROGETTO EGI Gestione Servizi Centrali Partecipazione Working.

Attività 2010 – EGI ERA ATTIVITA’ INTERNE PROGETTO EGI Gestione Servizi Centrali Partecipazione Working. Groups: MPI/OSCT/OTA G Turni Controllo GRID TPM Supporto Utenti/sitema nager (DMSU) Sviluppo HLRMON Sviluppo WMSMonitor IGI CSIRT EGI-JRA 1 NGI Management DUCK Comput -er Gestione sala macchine zona Grid: - Operation - R&D -Altri progetti Acquisti HW, cablaggi, installazioni OS, macchine virtuali, certificati, monitoring Test DGAS Early Adoption Servizi nazionali (VOIP) Portali: - IGI - altri progetti - CNAF Reperib. Operation Reper. Infrastrutt ura Preparazio ne scuole Grid Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

NGI Management • Coordinamento e rapporti con i siti ~60 e con EGI –

NGI Management • Coordinamento e rapporti con i siti ~60 e con EGI – phone conference NGI_IT e EGI • Statistiche Grid – segnalazione e followup problemi • Gestione problemi che impattano su più siti – coordinamentoe e pianificazione deployment (baby-sitting) NGI Management • Definizioni procedure operationali in NGI_IT e EGI • Burocrazia del progetto – Quartely report, milestones • Gestione sondaggi da EGI 1. 00 availability reliability 0. 00 44 0 2103 0 14183967629 43 870989 5 21 Veronesi Paolini 0. 90 0. 80 0. 70 0. 60 0. 50 0. 40 0. 30 0. 20 0. 10 Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

Gestione Servizi Centrali • Cluster WMS/LB (CNAF, PD, BA, FE, CT) • NAGIOS nazionale

Gestione Servizi Centrali • Cluster WMS/LB (CNAF, PD, BA, FE, CT) • NAGIOS nazionale – partecipazione sistema allarmistica CNAF • Cluster BDII (CNAF e PD) • LFC • FTS && HLR (Tier 1) • Cluster VOMS (CNAF e PD) • Sito INFN-CNAF – Pubblicazione servizi centrali lb 001 wms 015 prod-wms-01 lb 001 B A lb 004 prod-lb-01 CN AF C T wms 017 egee-rb-09 wms 1 lb 009 P D SPARE WMS/LB CLUSTER wms 018 CN AF prod-wms-02 F E C T lb-01 lb 007 prod-wms-01 prod-lb-01 prod-wms-01 gridrb prod-lb-01 P C D N AFNot in alias lb 007 LHCB WMS/LB CLUSTER wms 010 (prod-wms-lhcb) CDF WMS/LB CLUSTER wms 004 (prod-wms-cdf) lb 005 albalonga lb 008 lb 010 MULTIVO WMS/LB glite-rb-00 CLUSTER gridit-wms-01 (prod-wmsmulti) egee-wms-01 ALICE WMS/LB CLUSTER egee-rb-02 (prod-wmsegee-rb-09 alice) lb 005 CN AF Cristofori Veronesi Paolini Misurelli lb 011 wms 012 ATLAS WMS/LB CLUSTER wms 001 (prod-wmswms 016 atlas) lb 002 lb 004 CN AF CMS WMS/LB PROD ANALYSIS CLUSTER (prod-wmswms 003 wms 002 cms-prod) cms-analysis) wms 005 wms 006 wms 014 wms 011 gridlb Ridondanza: • DNS load balancing • Client round robin • Doppie alimentazioni Alta affidabilita’ raggiunta anche grazie a miglioramenti dell’ infrastruttura Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

Supporto e Turni Controllo GRID Tutti (Cesini dispensato per impegni JRA 1) 10 turnisti

Supporto e Turni Controllo GRID Tutti (Cesini dispensato per impegni JRA 1) 10 turnisti in turni settimanali da due persone - controllo stato della grid italiana - apertura ticket in caso di problemi - site certification - gestione ticket aperti Media di 140 tckt/mese nel 2010 assegnati a NGI_IT da GGUS - 93 aperti dai nostri turnisti Più circa 100 ticket interni Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

TPM & DMSU Primo livello Tutti i turnisti TPM (ticket process managers): smistatore! •

TPM & DMSU Primo livello Tutti i turnisti TPM (ticket process managers): smistatore! • Italy and Germany are involved in the Ticket Processing Managers (TPM) activity: OTTIMIZZAZIONE: turnisti TPM coincidono con quelli ROD TPM Supporto Utenti/sitema nager (DMSU) Paolini Bencivenni Cristofori Cesini Veronesi Service support: operations, NGI, VOSupport, Security Management, … Secondo livello DMSU: Supporto m/w Coinvolti in WMS, FTS, BDII, MPI, DGAS Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

HLRMON Nuova versione in produzione sul server italiano (http: //dgas. cnaf. infn. it) Sviluppo

HLRMON Nuova versione in produzione sul server italiano (http: //dgas. cnaf. infn. it) Sviluppo HLRMON Plot con dati aggregati per ruolo VOMS, CA e tipo di job (Grid o locali) Varieta’ di metriche: num di job, CPU/Wall. Time, CPU efficiency Vista con dati aggregati per disciplina Viste specifiche per WLCG aggiornati con i dati pledged comunicati dai referee e con dati di storage accounting Nuova istanza installata per Hellas. Grid (https: //hlrmon. hellasgrid. gr/hlrmon/report/charts. php) Paper pubblicato tra i proceedings della conferenza ISGC 2010 Sviluppi attuali Fattibene Possibilita’ di filtrare ruoli VOMS Possibilita’ di filtrare gli utenti per istituto o sezione (dal DN) Ottimizzazione query per dati con dettagli degli utenti Help online Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

Test DGAS Test del prototipo DGAS con trasporto dei record con Active. MQ Prototipo

Test DGAS Test del prototipo DGAS con trasporto dei record con Active. MQ Prototipo realizzato dal product team di DGAS Broker installato a Torino Test DGAS Fattibene Cristofori Veronesi Attivita’ di test svolta al CNAF Installazione e configurazione del testbed (1 CE, 1 HLR standard, 1 HLR Active. MQ) Run di diversi test allo scopo di verificare (con e senza SSL): Comunicazione CE – HLR Ciclo completo di accounting Integrita’ dei dati Affidabilita’ e robustezza del servizio Durata: circa 2 mesi Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

WMSMonitor • Monitor di cluster distribuiti di WMS/LB • utile sistema di gestione e

WMSMonitor • Monitor di cluster distribuiti di WMS/LB • utile sistema di gestione e allarmistica • alta affidabilità del cluster raggiunta tramite aggiornamento automatico di alias DNS basato su metriche di stato Sviluppo WMSMonitor Cesini, Dongiovanni (sensori e collettori) Fattibene (interfaccia web) Nel 2010 – ristrutturazione e nuova architettura basata su Active. MQ Cesini/Dongiovanni non riescono a dedicargli il tempo necessario Attivita’ in estrema sofferenza Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

Attivita’ Sicurezza IGI CSIRT Misurelli Definizione attività di IGI Computer Security Incident Response –

Attivita’ Sicurezza IGI CSIRT Misurelli Definizione attività di IGI Computer Security Incident Response – Eredità dell’esperienza nella partecipazione nei gruppi info-sec di EGEE e di EGI – Basate sulle linee guida specificate da ENISA (agenzia EU info-sec) – Sinergie attivate con GARR-CERT – Molta formazione mirata su questo tipo di attività • Certificazioni ad hoc (OSSTMM, ISO 27002) • Eventi TERENA TRANSIT Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

EA & WG Early Adoption Partecipazione Working. Groups: MPI/OSCT/OTA G Bencivenni Misurelli Cristofori Paolini

EA & WG Early Adoption Partecipazione Working. Groups: MPI/OSCT/OTA G Bencivenni Misurelli Cristofori Paolini Early Adopter: • Wms • Argus • Cream Partecipazione ai seguenti WG: • Nagios • OTAG • MPI • OSCT • MPI WG • Site Certification WG • OLA WG L’ effort assegnato dal progetto a mala pena copre phone conference e email Attività spot – però quando serve massima priorità Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

EGI-JRA 1 Activity leadership del WP 7 (Cesini) Sviluppo Accounting for different resource types

EGI-JRA 1 Activity leadership del WP 7 (Cesini) Sviluppo Accounting for different resource types (Veronesi/Cristofori) • Operation Portal - including Ops Dashboard (CNRS) • EGI Helpdesk - GGUS (KIT) • Grid Conf. DB - GOCDB (RAL) • Accounting Repository (RAL) • Accounting Portal (CESGA) • SAM/My. EGI monitoring framework based on NAGIOS (CERN/SRCE) • Metrics Portal (CESGA) EGI-JRA 1 Cesini Veronesi Cristofori Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

Attivita’ correnti Nome Bencivenni Marco Attvita’ TASK EGI PM EGI Sviluppo e gestione portale

Attivita’ correnti Nome Bencivenni Marco Attvita’ TASK EGI PM EGI Sviluppo e gestione portale IGI TSA 1. 4 12 Supporter per nuove applicazioni e nuovi utenti application porting incluso comput-er (DUCK) TNA 3. 3 8 Supporto di MPI su grid TSA 2. 5 4 TPM & ROD (Turni di controllo) TSA 1. 7 22 Early adopter ARGUS (da passare a Misurelli) e MPI TSA 1. 3 2 TOTALE su EGI 48 Partecipazione alle attività del progetto comput-er (DUCK) per portale interna Sviluppo gestione servizi nazionali e interni CNAF (Portali e VOIP). Gestione tool per EMI (wiki, forge, sito liferay. . . ) interna MPI working groups e integrazione componenti infn interna Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

Attivita’ correnti Nome Cesini Daniele Attvita’ TASK EGI Activity leadership del WP 7 (JRA

Attivita’ correnti Nome Cesini Daniele Attvita’ TASK EGI Activity leadership del WP 7 (JRA 1) di EGI-Inspire: sviluppo dei tool operazionali. Coordinatore OTAG (Operational Tools Advisory Group) TJRA 1. 1 24 TPM & ROD (Turni di controllo) TSA 1. 7 16 Supporto WMS in DMSU TSA 2. 5 4 TOTALE su EGI PM EGI 44 Responsabile sviluppo tool operazionali per infngrid interna Sviluppo WMSMonitor (sensori e collettore) interna Acquisti HW e richieste finanziamento gruppo grid al CNAF Interna Partecipazione alle attività del progetto comput-er (DUCK) interna Reperibilita’ Operation interna Responsabile servizio operativo grid @cnaf interna Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

Attivita’ correnti Nome Cristofori Andrea Attvita’ TASK EGI PM EGI Supporto accounting (DGAS) per

Attivita’ correnti Nome Cristofori Andrea Attvita’ TASK EGI PM EGI Supporto accounting (DGAS) per l’infrastruttura di produzione e per il T 1 TSA 1. 5 12 Sviluppo Accounting for different resource types TJRA 1. 4 13 Gestione cluster WMS/LB TSA 1. 8 9 Early adopter WMS and DGAS TSA 1. 3 2 Supporto II livello WMS in DMSU TSA 2. 5 4 TPM & ROD TSA 1. 7 0 TOTALE su EGI 40 Tester DGAS interna Responsabile gestione sala macchine zona grid Interna Gestione tool ausiliari: wiki, forge, agenda, open. VAS, etc Interna Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

Attivita’ correnti Nome Fattibene Enrico Attvita’ TASK EGI PM EGI Sviluppatore HLRMON: interfaccia web

Attivita’ correnti Nome Fattibene Enrico Attvita’ TASK EGI PM EGI Sviluppatore HLRMON: interfaccia web del sistema di accounting (rendicontato come uso) TSA 1. 5 9 Sviluppatore WMSMonitor: interfaccia web (rendicontato come uso) TSA 1. 4 15 Tester DGAS / Roll-out of DGAS accounting system with Active. MQ TSA 1. 3 2 TPM & ROD (Turni di controllo) TSA 1. 7 22 TOTALE su EGI 48 Coadiuva Bencivenni nello sviluppo portali interna Supporter per l’infrastruttura di produzione di DGAS Interna Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

Attivita’ correnti Nome Misurelli Giuseppe Attvita’ TASK EGI PM EGI Responsabile monitoring infrastruttura italiana

Attivita’ correnti Nome Misurelli Giuseppe Attvita’ TASK EGI PM EGI Responsabile monitoring infrastruttura italiana di produzione e del sito INFN-CNAF tramite NAGIOS e Operational Dashboard Security monitoring Rappresentate italiano in OTAG Nagios Early Adopter TSA 1. 4 21 Coinvolto nella attività di security e procedure di incident response per i siti grid ARGUS Early Adopter TSA 1. 2 3 TPM & ROD (turni di controllo) TSA 1. 7 20 Supporter per nuove comunità (es. ENMR) TNA 3. 3 4 TOTALE su EGI 48 IGI CSIRT (con Brunetti@to. infn) Interna Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

Attivita’ correnti Nome Paolini Alessandro Attvita’ TASK EGI PM EGI Gestione servizi core (voms,

Attivita’ correnti Nome Paolini Alessandro Attvita’ TASK EGI PM EGI Gestione servizi core (voms, bdii, lfc. . ) TSA 1. 8 9 Coordinatore nazionale del personale italiano coinvolto nelle attività della DMSU (Deployed Middleware Support Unit TSA 2. 5 12 VOMS Early Adopter TSA 1. 3 2 TPM & ROD (turni di controllo) TSA 1. 7 24 TOTALE su EGI 47 Responsabile del supporto utenti e sitemanager di INFNGRID Interna Supporter di secondo livello per l’infrastruttura grid nazionale Interna Certificatore dei nuovi siti in produzione e controllore dei dati di availability/reliability per i siti in produzione Interna Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

Attivita’ correnti Nome Veronesi Paolo Attvita’ TASK EGI PM EGI Gestione servizi core (BDII,

Attivita’ correnti Nome Veronesi Paolo Attvita’ TASK EGI PM EGI Gestione servizi core (BDII, LFC , FTS , MYPROXY) TSA 1. 8 9 Supporto accounting (DGAS) per l’infrastruttura di produzione e per il T 1 TSA 1. 5 6 Sviluppo Accounting for different resource types TJRA 1. 4 13 Operation Manager tecnico (NOC Manager) TSA 1. 4 12 Supporto FTS/BDII in DMSU TSA 2. 5 8 TOTALE su EGI 48 Monitoring e gestione sala macchine zona grid del CNAF interna Coinvolto nelle attività del progetto comput-er (DUCK) in qualità di esperto tecnico per installazione/gestione siti interna Supporter per nuovi utenti, nuove applicazioni, nuovi siti interna Reperibilita’ Operation interna Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

Criticita’ WMSMonitor sta morendo vista l’impossibilità di 2 sviluppatori su 3 (Cesini, Dongiovanni) a

Criticita’ WMSMonitor sta morendo vista l’impossibilità di 2 sviluppatori su 3 (Cesini, Dongiovanni) a dedicargli il tempo necessario In ottica IGI, l’attività di IGI-CSIRT sulle politiche di sicurezza e incident response andrebbe rafforzata. Gestione sala macchine: il gruppo Grid operation ha sempre gestito il parco macchine anche per il gruppo ricerca e sviluppo (non solo del CNAF) e per tutti i progetti Grid più piccoli con hw al cnaf (etics, omii, etc) – avere un aiuto dal gruppo R&D in questa attività sarebbe utile. Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu

Conclusioni • Il gruppo grid e’ ora composto da 7 persone tutte contratti a

Conclusioni • Il gruppo grid e’ ora composto da 7 persone tutte contratti a tempo determinato al 100% su EGI • Nel 2010 ha continuato a svolgere sia attivita’ esterne per i progetti europei che interne per l’INFN/IGI/CNAF – E’ impossibile mappare tutte le attivita’ su task EGI – Formalmente non tutto il lavoro svolto può essere rendicontato ad EGI • Il 2010 ha visto il passaggio da EGEE a EGI – non ha significato uno stravolgimento delle attivita’ • eccezioni: gestione cluster WMS/LB, activity leadership di egi-JRA 1, testbed • La gestione della Grid di produzione (servizi centrali, coordinamento, supporto) e’ continuata senza grossi problemi e con buoni risultati Cd. C 03/12/2010 EGI-In. SPIRE RI-261323 www. egi. eu