Gestion des donnes DDM Distributed Data Management L
Gestion des données : DDM Distributed Data Management L. Poggioli • Préambule • Le modèle ATLAS • DDM – Principe, Tests, Suivi, Problèmes • Next 11/9/07 -PAF L. Poggioli/LAL 1
Préambule • Ce talk devrait être donné par S. Jézéquel – Il possède la compétence, connaissance, expertise, suivi, depuis le début • Stéphane est maintenant responsable de ATLAS Data Placement • Il transmet son savoir à M. Ridel & LP – Mélissa : opérations de suivi, cleaning (scripts) – LP : Data placement pour le nuage français • Mille mercis à – Stéphane, Mélissa, Eric, Alexei Klimentov (CERN DDM) 11/9/07 -PAF L. Poggioli/LAL 2
Le modèle ATLAS (1) A. Farbin/UTA Today ESD~1 MB/evt Cf. Stathis 11/9/07 -PAF L. Poggioli/LAL 3
Le modèle ATLAS (2) A. Farbin/UTA 40+ sites Worldwide 11/9/07 -PAF L. Poggioli/LAL 4
Le principe Règle de base : Calculer où sont les données • Optimiser les ressources de calcul – CE (Computing Elements) via la GRILLE • Optimiser les ressources de stockage – SE (Storage Elements) – Distribution des données via DDM • Outils d’analyse distribuée : GANGA/PANDA – Sur AOD : Pas de problème – Sur ESD : Difficile à grande échelle • Gros fichier -> moins de réplications • Doit se faire au niveau T 1 (OK pour Lyon avec AF) – Mais pas toutes les ESD @ T 1 (sauf BNL ? ). A suivre 11/9/07 -PAF L. Poggioli/LAL 5
Production des données • Tier-0 (CERN) – Production des ESD/AOD : données ATLAS, cosmiques (M 4) • Tier-1 – Reprocessing de ses propres RAW • Reproduit ESD/AOD associées – Production Monte-Carlo – Analyse (si Analysis Facility intégrée) • Tier-2 – Analyse – Production Monte-Carlo • Remonte les données vers son Tier-1 11/9/07 -PAF L. Poggioli/LAL 6
Réplication des données (DDM) • Centralisé & automatique (Cf. Computing Model) – Données simulées/Vraies données • AOD/NTUP/TAG (volume actuel ~1. 5 TB/semaine) – Chaque T 1 a une réplique complète – Les T 2 définissent quelle fraction ils ont • ESD – Seuls les T 1 en ont une fraction donnée et random (~10%) – Release des bases de données • Répliquées dans chaque Tier. Faible volume de données (~100 MB) – “Conditions data” • Répliquées dans chaque Tier-1 – Données Cosmiques (Cf. plus loin) • RAW : Fraction répliquée à chaque Tier-1 s (selon répartition prévue) • ESDs : répliquées à chaque T 1 & T 2 selon demande • Un T 2 peut demander la réplication des RAW via DDM 11/9/07 -PAF L. Poggioli/LAL 7
Recherche d’un dataset : AMI (LPSC) • Fondé sur metadata • Fournit tout l’historique d’un dataset 11/9/07 -PAF L. Poggioli/LAL 8
Recherche d’un dataset : Panda Monitor (BNL) • Fournit la liste des réplications eg. LAPP 11/9/07 -PAF L. Poggioli/LAL 9
Transfert des données : Principe • VO box : computer dédié pour transferts et réplications • Demande au catalogue central : liste des datasets a répliquer • Gestion transfert • Enregistrement informations dans catalogues locaux et centraux T 0 VO box NEW : Déplacé au CERN LFC T 1 VO box LFC …. • Catalogues généraux centralisés (LFC): • Contenus des datasets Tokyo • Localisation des datasets dans les T 0 -T 1 -T 2 • Liste des requêtes de transferts des datasets T 2 • Catalogues locaux (LFC) • Localisation dans le centre des fichiers de chaque dataset T 2 11/9/07 -PAF L. Poggioli/LAL 10
DDM : composants Slide from M. Branco Part of DQ 2 Not part of DQ 2 dataset catalogs Local File Catalog 11/9/07 -PAF File Transfer Service DQ 2 Subscription Agents L. Poggioli/LAL DQ 2 “Queued Transfers” 11
– DDM : DDM et dq 2_ • Transfert massif de données et enregistrement des nouveaux replicats dans les catalogues – dq 2_ : (dq 2_get, _register, _delete…) • Copie locale de quelques fichiers • Surcouche sur certains composants de DDM – Partie commune : • Recherche fichiers d'un dataset et leur localisation – Différence principale • DDM : Organisation et mise en queue des transferts • dq 2_ – Transfert dès que possible->Stress sur élément de stockage -> Limiter l’usage de dq 2_ au débugging, mais difficile tant que DDM pas totalement opérationnel 11/9/07 -PAF L. Poggioli/LAL 12
Requête DDM officielle • Bientôt seul moyen – Doit être accréditée par le responsable du data placement du nuage 11/9/07 -PAF L. Poggioli/LAL 13
• • • Activités DDM Equipes centrales (CERN) et régionales (T 1) Support de la production MC Réplication des données vers les sites Développement d’outils de monitoring “Data integrity” contrôle (Mélissa) – Données dans DDM vs entrées dans LFC • DDM est le juge de paix – ’zombies’ et fichiers ‘longueur nulle’ • Destruction de données invalides/obsolètes • Mouvement des données dans un nuage 11/9/07 -PAF L. Poggioli/LAL 14
DDM Monitoring : ARDA • Ici Transferts PRODMC T 0 -> LYONDISK – A gauche liste de tout le nuage associé • -> Détails des transferts sur les T 2 s disponibles 11/9/07 -PAF L. Poggioli/LAL 15
Volume de données wrt ATHENA • Expérimental (Stéphane) pour données MC 11/9/07 -PAF L. Poggioli/LAL 16
Monitoring des réplications • Ici nuage français (fonctionne pour autres nuages) pour la PROD MC Taille en GB # fichiers 11/9/07 -PAF L. Poggioli/LAL 17
Monitoring dans le temps Ici taille en GB (AOD, ESD, HITS, …) @ LYONDISK (210 TB stockage) 1/04 -> 1/09/2007 AOD : 20 TB today ESD : 50 TB today HITS : 10 TB today (après archivage/cleaning) RDO : 40 TB today (après archivage/cleaning) 11/9/07 -PAF L. Poggioli/LAL 18
Datasets disponibles • Exemple LPNHE AOD 11/9/07 -PAF L. Poggioli/LAL 19
Prise de donnés cosmiques M 4 (1) • En plus de la prod MC • Lecture de tout ATLAS avec cosmiques : Run M 4 (Cf. Emmanuel, Claudio, Philippe) – Ecriture sur CASTOR @ 150 -200 MBytes/s !! – A priori pas d’OFC corrects por LAR reco • A reprocesser – Réplication • RAW : Fraction répliquée à chaque Tier-1 s (selon répartition prévue) • ESDs : répliquées à chaque T 1 & T 2 selon demande • Un T 2 peut demander la réplication des RAW via DDM Test en vraie grandeur T 0 -> T 1 s -> T 2 s 11/9/07 -PAF L. Poggioli/LAL 20
Prise de données cosmiques M 4 (2) Transferts T 1 • – Transferts T 0(LYON) -> T 1’s-> T 2’s ESD • Toutes les AOD @ T 1 s(RAW) – eg LYONDISK (ESD) et LYONTAPE • Toutes les ESD @ LYON (requête) • ESD réparties dans T 2 s nuage français LYON 11/9/07 -PAF L. Poggioli/LAL 21
Au quotidien • Les choses bougent très vite – Suivi hebdomadaire des meetings Computing Ops (K. Bos) et DDM Ops (A. Klimentov) • Développement d’outils – Finalité : Automatiques pour limiter manpower – Dégager de l’espace disque sur T 1 & T 2 (Mélissa pour la destruction des datasets obsoletes) • eg RAW de prod MC dans T 2 une fois remontées au T 1 si problème (sinon automatique) – Archivage/suppression des RDO en cours – Organisation des zones disques pour faciliter transferts & relecture des fichiers 11/9/07 -PAF L. Poggioli/LAL 22
Problèmes DDM • Taille fichiers – CMS transfère 1 k fichiers/jours (But ATLAS 20 K fichiers) – Gros overhead à chaque réplication (en sus du transfert FTS) -> Regrouper les HITS en fichiers de 500 -1000 evts (actuellement 50 evts) – Suppression des RDOs • Outils Grille encore peu stables • Manquent des outils de monitoring – eg quelques semaines entre fichier perdu et découverte de la perte 11/9/07 -PAF L. Poggioli/LAL 23
• AMI Liens utiles – http: //lpsc 1168 x. in 2 p 3. fr: 8080/opencms/AMI/www/index. html • Panda Browser – http: //gridui 02. usatlas. bnl. gov: 25880/server/pandamon/query/? overview=dslist • ARDA DDM monitoring – http: //dashb-atlas-data-tier 0. cern. ch/dashboard/request. py/site • DDM Wiki – ATLAS • https: //twiki. cern. ch/twiki/bin/view/Atlas/Distributed. Data. Management – France • https: //atlas-france. in 2 p 3. fr/cgi-bin/twiki/bin/view/Atlas/Informatique. DDM • Listes des fichiers sur le nuage Français – http: //lapp. in 2 p 3. fr/atlas/Informatique/Offline/monitor_files_sites/FR/summary. html 11/9/07 -PAF L. Poggioli/LAL 24
Next • Renforcer DDM ATLAS (orga. , manpower) • Progrès – Avoir des outils stables de migration FTS – Avoir des outils pour blacklister des sites – Avoir une ligne de transferts express (eg. EVGEN ou condition database) • Plus d’outils de monitoring – Comprendre l’utilisation des datasets (analyse/transfert) • Besoin d’utilisateurs « disciplinés » • Quid des transferts dans les T 3 11/9/07 -PAF L. Poggioli/LAL 25
Backup 11/9/07 -PAF L. Poggioli/LAL 26
Le modèle ATLAS A l'intérieur d'un nuage T 1: 10 % RAW, 20 % ESD, 100% AOD ST 2 : 100 % AOD, petite fraction ESD, RAW “Tier Cloud Model” Unit : 1 T 1 + n T 2/T 3 NG PIC RAL CNAF SARA T 3 GRIF LYON Cloud ASGC Cloud CERN ASGC LYON Tokyo Pékin LPC Romania Melbourne TRIUMF FZK BNL Cloud GLT 2 NET 2 T 1 T 2 MWT 2 T 3 11/9/07 -PAF TWT 2 VO box, dedicated computer to run DDM services SWT 2 L. Poggioli/LAL 27
Le nuage francais Tier-2: GRIF • CEA/DAPNIA • LAL • LLR • LPNHE • IPNO Roumanie Strasbourg Ile de France Nantes Tier-2: LPC Tier-3: LAPP Clermont-Ferrand Pekin Lyon Annecy AF: CCIN 2 P 3 Tier-1: CC-IN 2 P 3 Tokyo Marseille 11/9/07 -PAF L. Poggioli/LAL Tier-3: CPPM 28
• DDM : Transferts FTS 11/9/07 -PAF L. Poggioli/LAL 29
Et bien sur il vous faut un certificat Grille !! « Est-ce que ma vie sera mieux une fois que j’aurai mon certif’ ? » Laurent Voulzy, Rock-Collection 11/9/07 -PAF L. Poggioli/LAL 30
- Slides: 30