Plateforme de Calcul pour les Sciences du Vivant

  • Slides: 23
Download presentation
Plateforme de Calcul pour les Sciences du Vivant Accomplissements en sciences de la vie

Plateforme de Calcul pour les Sciences du Vivant Accomplissements en sciences de la vie Vincent Breton, CNRS-IN 2 P 3, LPC Clermont-Ferrand Credit: C. Germain, D. Kim, J. Montagnat, J. Salzemann, Y-T Wu http: //clrwww. in 2 p 3. fr/PCSV

Introduction Plateforme de Calcul pour les Sciences du Vivant • Panorama des progrès accomplis

Introduction Plateforme de Calcul pour les Sciences du Vivant • Panorama des progrès accomplis dans l’utilisation des grilles de production – Exemples en bioinformatique, imagerie médicale et recherche de nouveaux médicaments • Perspectives – Rôle des futures infrastructures de production – Besoin de collaborations entre chercheurs en informatique et utilisateurs de la grille en sciences du vivant • Conclusion Pas le temps de donner une vue exhaustive de l’ensemble des applications biomédicales sur grilles de production EGEE: >30 applications Pas la connaissance de tous les projets de recherche en France liés aux grilles dans les sciences de la vie

Enjeux et intérêt des grilles en sciences du vivant Plateforme de Calcul pour les

Enjeux et intérêt des grilles en sciences du vivant Plateforme de Calcul pour les Sciences du Vivant • Les enjeux – L’avalanche des données a bouleversé les stratégies de recherche en biologie moléculaire – La médecine doit évoluer vers une science exacte exploitant toutes les données de la génomique à l’épidémiologie • L’apport des grilles – La grille fournit aujourd’hui les siècles de cycles CPU requis pour les calculs massifs – La grille fournit aujourd’hui les services de gestion sécurisée pour stocker et copier les données biologiques et médicales – La grille offrira à terme l’environnement collaboratif pour l’intégration et le partage des données dans les communautés de recherche

Comment utilise-t-on les grilles aujourd’hui en sciences du vivant ? Plateforme de Calcul pour

Comment utilise-t-on les grilles aujourd’hui en sciences du vivant ? Plateforme de Calcul pour les Sciences du Vivant • Pour déployer des calculs à très grande échelle – Exemple en bioinformatique: raffinement des structures de la PDB (Embrace – EGEE, LPC Clermont-Fd) – Exemple en imagerie médicale: MRI simulator (EGEE, CREATIS) – Exemple pour la recherche de nouveaux médicaments: WISDOM (Auver. Grid – EGEE – Bioinfo. GRID, LPC Clermont-Fd) • Pour l’analyse interactive de données de plus en plus volumineuses – Exemple en bioinformatique: portail GPS@ (EGEE, IBCP) – Exemple en Imagerie médicale: GPTM 3 D (AGIR – EGEE, LRI - LAL) • Pour mutualiser de nouveaux services et compétences – Exemple en bioinformatique à l’échelle régionale: Life. Grid (Auver. Grid) – Exemple en imagerie médicale: Bronze Standard (AGIR – EGEE, I 3 S) – Exemple pour la recherche de nouveaux médicaments: WISDOM (Auver. Grid – EGEE, LPC Clermont-Fd)

Bioinformatics: recalculating protein 3 D structures in PDB Plateforme de Calcul pour les Sciences

Bioinformatics: recalculating protein 3 D structures in PDB Plateforme de Calcul pour les Sciences du Vivant • The PDB data base gathers publicly available 3 D protein structures – Full of bugs • Project: redo the structures by recalculating the diffraction patterns PDB-files 42. 752 X-ray structures 36. 124 Successfully recalculated ~36. 000 Improved R-free 12. 500/17000 CPU time estimate 21. 7 CPU years Real time estimate 1 month on Embrace Virtual Organization on EGEE Credit: G. Vriend, CMBI

GPSA: Bioinformatics Grid Portal Enabling Grids for E-scienc. E • Scientific objectives – Molecular

GPSA: Bioinformatics Grid Portal Enabling Grids for E-scienc. E • Scientific objectives – Molecular Bioinformatics of proteins – Analyze data from high-throughput Biology: complete genome projects, EST, complete proteomes, structural biology, …. – Integration of biological data and tools • Method – Provide Biologists with an usual Web interface for Bioinformatics: NPS@ Web portal online since 1998 46 tools & 12 updated databases + 10, 000 jobs & 5, 000 jobs/day – Ease the access to updated databases and algorithms. Protein databases are stored on the grid storage as flat files, encrypted if needed. Wrapping legacy bioinformatics applications Transparent remote access through local file -system accesses • • – Display results in graphical Web interface. Status: Prototype Contact: Christophe. Blanchet@ibcp. fr http: //gpsa-pbil. ibcp. fr EGEE-II INFSO-RI-031688 Institut des grilles, December 3, 2007

Système d’Information régional pour les sciences du vivant en Auvergne Plateforme de Calcul pour

Système d’Information régional pour les sciences du vivant en Auvergne Plateforme de Calcul pour les Sciences du Vivant • Objectif: utiliser la grille régionale Auver. Grid pour mutualiser des ressources et services informatiques pour les sciences du vivant en Auvergne • Deux thèses en cours à l’interface entre biologie, informatique et bioinformatique – Ordonnancement et réplication de données (ENS Lyon, LPC) – conception distribuée d'oligonucléotides pour puces à ADN (LIMOS, LBP) Life. Grid, Système d’Information Régional pour les sciences du vivant PRAI (2006 -2008, 3, 2 M€) >25 projets (CNRS, INRA, INSERM, Universités, entreprises) Auver. Grid, infrastructure régionale de grille en Auvergne Financement CPER (2007 -2012, 2 M€) +850 CPUs, 50 TB disque dans 12 sites reichma@clermont. in 2 p 3. fr Contact: Matthieu Reichstadt, LPC Clermont-Ferrand,

MRI simulator Enabling Grids for E-scienc. E • Scientific objectives – Better understand MR

MRI simulator Enabling Grids for E-scienc. E • Scientific objectives – Better understand MR physics. – Study MR sequences in-silico. – Study MR artefacts. – Validate MR Image processing algorithms on synthetic – yet realistic images. • Method – – Simulate Bloch's electromagnetism equations. Paralle (MPI)l implementation to speed-up computations. Contact: H. Benoit-Cattin, CREATIS, Hugues. Benoit-Cattin@creatis. insa-lyon. fr EGEE-II INFSO-RI-031688 To change: View -> Header and Footer 8

Example: radiology analysis Enabling Grids for E-scienc. E • Scientific objectives Interactive volume reconstruction

Example: radiology analysis Enabling Grids for E-scienc. E • Scientific objectives Interactive volume reconstruction on large radiological data. PTM 3 D is an interactive tool for performing computer-assisted 3 D segmentation and volume reconstruction and measurement (RSNA 2004) Reconstruction of complex organs (e. g. lung) or entire body from modern CT-scans is involved in augmented reality use case e. g. therapy planning. • Method Starting from an hand-made rough Initialization, a snake-based algorithm segments each slice of a medical volume. 3 D reconstruction is achieved in parallel by triangulating contours from consecutive slices. Contact: Cécile Germain, LRI, cecile. germain@lri. fr EGEE-II INFSO-RI-031688 To change: View -> Header and Footer 9

Recherche de nouveaux médicaments contre la grippe aviaire Plateforme de Calcul pour les Sciences

Recherche de nouveaux médicaments contre la grippe aviaire Plateforme de Calcul pour les Sciences du Vivant • Objectifs: – étudier l’impact de mutations de la H 5 neuraminidase N 1 sur l’efficacité des médicaments actuels (Tamiflu) – Identifier de nouvelles molécules actives • Méthode: – Calculs sur ordinateur des probabilités d’accrochage des molécules sur la neuraminidase mutée N 1 Credit: Y-T Wu – D. Kim • Résultats expérimentaux – 20% des 300 molécules sélectionnées in vitro et testées in vivo sont plus actives que le tamiflu Facteur 200 d’amélioration des résuttats des tests in vitro Répartition mondiale des ressources mobilisées pour un total de 100 années CPU

Recherche de nouveaux médicaments contre la malaria Plateforme de Calcul pour les Sciences du

Recherche de nouveaux médicaments contre la malaria Plateforme de Calcul pour les Sciences du Vivant • Objectifs: – Identifier de nouvelles molécules Millions actives sur des cibles biologiques de la malaria • Méthode: – Calculs sur ordinateur des probabilités d’accrochage des molécules sur ces cibles – Raffinement des calculs par dynamique moléculaire • Résultats expérimentaux – 20% des 30 molécules Molecular docking Molecular dynamics 5000 Re-ranking MMPBSA-GBSA 4 H bonds 180 sélectionnées in vitro et testées in vivo sont des inhibiteurs actifs – Tests in vivo en cours à Montpellier H C P 1 2 3 4 5 6 7 30 H 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 H Complex visualization C In vitro tests P 24 25 26 27 28 29 30 Criblage virtuel sur grille et résultats de tests in vitro sur la plasmepsine (credit: D. Kim)

WISDOM collaboration Plateforme de Calcul pour les Sciences du Vivant • • • The

WISDOM collaboration Plateforme de Calcul pour les Sciences du Vivant • • • The grid provides the centuries of CPU cycles required on demand The grid provides the reliable and secure data management services to store and replicate the biochemical inputs and outputs The grid offers a collaborative environment for the sharing of data in the research community on avian flu and malaria SCAI Fraunhofer (D) Knowledge extraction, Chemoinformatics Chonnam Nat. Univ. (Korea) CEA, Acamba project (F) Univ. Modena(It) In vitro testing Biological targets, KISTI. (Korea) Chemogenomics Molecular Dynamics Grid technology ITB CNR (It) Health. Grid (Int) Academia Sinica (Taiwan) Bioinformatics, Biomedical grid, Grid user interface Molecular modelling Dissemination Biological targets In vitro testing Univ. Los Andes Mahidol Univ. (Thailand) (Venezuela) Biochemistry, in vitro testing Biological targets, Malaria biology LPC Clermont-Ferrand (F) Biomedical grid Univ. Pretoria / CSIR (RSA) Bioinformatics, Malaria biology Contact: V. Breton, LPC Clermont-Ferrand, breton@clermont. in 2 p 3. fr 12

Perspectives Plateforme de Calcul pour les Sciences du Vivant • Les grilles seront les

Perspectives Plateforme de Calcul pour les Sciences du Vivant • Les grilles seront les infrastructures informatiques des infrastructures de recherche de demain – Exemple en bioinformatique: ELIXIR – Exemple en biodiversité: Life. Watch • Condition: offrir les services d’intégration des données – Poursuivre le développement de nouveaux services adaptés Exemple: gestion sécurisée des données (AGIR – EGEE) – Méthode: collaborations entre chercheurs en informatique et utilisateurs de la grille Exemple en imagerie médicale: le projet AGIR Exemple en imagerie médicale et bioinformatique: le projet GWENDIA

ELIXIR Plateforme de Calcul pour les Sciences du Vivant • Préparer la construction d’une

ELIXIR Plateforme de Calcul pour les Sciences du Vivant • Préparer la construction d’une infrastructure pour la gestion et l’intégration d’information en science de la vie – Centrée sur l’European Bioinformatics Institute – Promouvant l’intégration et l’interopérabilité • Choix de la technologie développée dans le projet Embrace – Web services Contact: A. de Daruvar, Réseau National de Bioinformatique, antoine. daruvar@pmtg. u-bordeaux 2. fr

Biodiversity infrastructure: the Life. Watch project Plateforme de Calcul pour les Sciences du Vivant

Biodiversity infrastructure: the Life. Watch project Plateforme de Calcul pour les Sciences du Vivant • Life Watch: e-Science and Technology Infrastructure for bioversity data and observatories – Several thousand sites collecting data of ecological interest – The challenges Distributed data generation Common mechanisms for sharing, analyzing and synthesizing these data • Building a international infrastructure is easier on a grid foundation. – Use case under study (EGEE – Health. Grid) Contact: N. Jacq, Health. Grid association, nicolas. jacq@healthgrid. org

Grids are the answer provided technical challenges are overcome Plateforme de Calcul pour les

Grids are the answer provided technical challenges are overcome Plateforme de Calcul pour les Sciences du Vivant • Distributed data integration and computing – Security – Performance – Usability • Standards – Need for reference implementations of standard grid services – Lack of connection between medical informatics standards and grid standards (e. g. grid-enabled DICOM) – Lack of standard open source ontologies in medical informatics • Grid deployment in medical research centres – Easy installation of secure grid nodes – Friendly user interface Share roadmap http: //share. healthgrid. org

The technology to build knowledge grids is not yet mature SHARE roadmap http: //share.

The technology to build knowledge grids is not yet mature SHARE roadmap http: //share. healthgrid. org Plateforme de Calcul pour les Sciences du Vivant Contact: Y. Legré, LPC Clermont-Fd, legre@clermont. in 2 p 3. fr

Application level services Plateforme de Calcul pour les Sciences du Vivant • Medical Data

Application level services Plateforme de Calcul pour les Sciences du Vivant • Medical Data Manager – Grid storage interface to DICOM databases • Data protection – Encryption (storage/network protection) + access control (privacy protection). Two existing systems: Hydra key store integrated in g. Lite. IO (JRA 1) Perroquet (Parrot based, IBCP) • Data parallel workflows – Data intensive service composition-based applications • Fast turn over – Short deadline jobs 6/17/2021 Contact: J. Montagnat, I 3 S, johan@i 3 s. unice. fr To change: View -> Header and Footer 18

Grid and medical imaging Analyse Globalisée des Données d’Imagerie Radiologique Algorithm research and deployment

Grid and medical imaging Analyse Globalisée des Données d’Imagerie Radiologique Algorithm research and deployment Availability of algorithms and datasets eases the development and the validation of algorithms on shared datasets. Image guided diagnosis and augmented reality Combining the medical user expertise and the resource of the Grid in compute and data intensive tasks is a promising way to transfer experimental research to clinical practice. New grid services are required Workflows, management of sensitive DICOM data, responsivness, on-the-fly adaptive compression On a production grid Multi-disciplinary action: ACI masses de Données CNRS-STIC, CNRS-IN 2 P 3, INRIA, INSERM, Hospitals www. aci-agir. org Contact: Cécile Germain, LRI, cecile. germain@lri. fr Institut des grilles, December 3, 2007

Some results Analyse Globalisée des Données d’Imagerie Radiologique Evaluation of registration accuracy: first real

Some results Analyse Globalisée des Données d’Imagerie Radiologique Evaluation of registration accuracy: first real scale test of the Bronze standard The grid role: from days to hours Requires the development of a Scufl workflow enactor MOTEUR and sophisticated performance and failure Certificate of merit models. RSNA 2007 demo with Globus Medicus Deployed on Grid’ 5000 and. Joint EGEE www. aci-agir. org 1. get GUID from metadata Contact: Cécile Germain, LRI, cecile. germain@lri. fr SRM-DICOM interface Metadata DN-based ACL User Worker Node Fireman Interface g. Lite. IO In-memory File 2. glite-eds-get client File DN-based ACL decryption 6. Catalog g. Lite. IO on 3. get SURL from GUID ret -the urn -fly server 4. request file en enc cry ry pte ptio df na ile nd an on ym Key DN-based ACL iza Anonymization & encryption ti Hydra 5. get file key on DICOM server Key store 7. get file key and decrypt file locally The Medical Data manager: transparent access to DICOM images for gridenabled applications Security and privacy: Single sign-on, Encryption, Fine grain access control, Files metadata keys AMGA Metadata Institut des grilles, December 3, 2007

GWENDIA: Grid Workflows Grid Workflow Efficient Enactment for Data Intensive Applications • GWENDIA aims

GWENDIA: Grid Workflows Grid Workflow Efficient Enactment for Data Intensive Applications • GWENDIA aims at efficiently exploiting distributed grid infrastructures to tackle life sciences applications requirement through workflow enactment technologies. • Scientific challenges – Workflow languages expressivity – Workflows scheduling Initialization • Applications area – Drug discovery – Cardiac images analysis Image crop interpolatio n Image decompositi on Border detection Gradient computing x. Ni Image decompositi on Border detection Gradient computing Gradient Vector Flow Synchro Border detection Gradient computing Gradient Vector Flow Synchro synchro Motion estimation Contact: J. Montagnat, I 3 S, johan@i 3 s. unice. fr GWENDIA ANR-06 -MDCA-009 Segmentation Parameters extraction To change: View -> Header and Footer 21

Perspectives en Asie Plateforme de Calcul pour les Sciences du Vivant • Politique scientifique

Perspectives en Asie Plateforme de Calcul pour les Sciences du Vivant • Politique scientifique ambitieuse du CNRS en Asie • Les grilles offrent une infrastructure pour développer des collaborations – Intégration des équipes asiatiques dans des grands projets internationaux (LHC) – Intégration des équipes asiatiques dans des organisations virtuelles (biomédical) • Nombreuses actions entreprises en 2007 – Ecole sur les grilles (ACGRID, Vietnam, Nov. 2007) – Participation à des Laboratoires Internationaux Associés (LIA) Chine, Corée, Japon, Vietnam • Projet de système de surveillance et d’alerte pour la grippe aviaire – Collaboration CNRS (IN 2 P 3, EDD) avec des laboratoires asiatiques (Vietnam, Chine, Corée, …) ACGRID school, Nov. 2007, Hanoï

Conclusion Plateforme de Calcul pour les Sciences du Vivant • Les sciences de la

Conclusion Plateforme de Calcul pour les Sciences du Vivant • Les sciences de la vie utilisent aujourd’hui les grilles pour leur production scientifique – 1 er consommateur de ressources EGEE après les expériences LHC • Les ingénieurs et chercheurs français jouent un rôle moteur au niveau international – Démarche pluridisciplinaire, multi-départements, en collaboration avec les autres EPST et les universités – Visibilité internationale • Les grilles vont être utilisées pour structurer l’espace européen de recherche en sciences de la vie – Exemple en bioinformatique: ELIXIR – Exemple en biodiversité: LIFEWATCH • L’Institut des Grilles est essentiel pour maintenir le leadership français sur les grilles en sciences du vivant – Structuration nationale – Soutien en ressources humaines et fonctionnement