Banques et bases de donnes en biologie molculaire
Banques et bases de données en biologie moléculaire : de la donnée à la structure Eric Viara CRI INFOBIOGEN / SYSRA Conférence BDA’ 02
Objet de la présentation (1) n La situation actuelle en bioinformatique : n au travers d'un panorama des banques de données et traitements exploités par le CRI INFOBIOGEN, n les différents systèmes d'intégration de données.
Objet de la présentation (2) n Une approche fédérative et orientée objet développée par SYSRA et INFOBIOGEN dans le cadre d'un projet d'intégration et de manipulation de données génomiques et protéomiques basé sur le SGBDO EYEDB.
Le CRI INFOBIOGEN (1) n n n Centre National de Ressources bioinformatique (Genopole/Université d'Evry) Informatique appliquée pour les études génomiques Mise à disposition des banques de données et codes de calcul Accès anonymes WEB (4 000 visites/jour) et authentifiés (5 000 comptes) Assistance technique aux utilisateurs
Le CRI INFOBIOGEN (2) n Recherche & Développement : n n n bases de données, intégration de données interfaces homme/machine traitement intensifs génomiques (TERAPROT avec le CEA/DAM) Equipement serveurs SUN E 10 K (48 CPU, 26 Go mémoire, 4 To) Evolution SF 15 K en cours Connectique Internet Renater 155 Mbps
SYSRA n n n Société créée en 1993 par Eric Viara Activités de service : CNRS, INSERM, GENOPLANTE, INFOBIOGEN, GENE-IT, GENETHON, UNIVERSITE D’EVRY … Activités R&D : n n développement du SGBDO EYEDB, intégration de données en biologie moléculaire. Collaboration avec INFOBIOGEN depuis 1994 Collaboration avec GENE-IT
Quelques mots de bio (1) n n Génétique : Science de l’hérédité. La génétique étudie les caractères héréditaires des individus, leur transmission au fil des générations et leurs variations (mutations). Gène : Segment d’ADN ou d’ARN situé sur un chromosome et porteur d’une information génétique.
Quelques mots de bio (2) n n n Génome : Ensemble du matériel génétique d’un individu ou d’une espèce. Il est constitué de molécules d’acides nucléiques (ADN ou ARN). Les gènes c-a-d les parties d’ADN porteuses d’une information génétique, ne constituent qu’une partie du génome. Protéine : produit du gène issu de la synthèse protéique via le code génétique. Protéome : complément protéique total du génome, c-a-d l’ensemble des protéines exprimé par le génome d’une espèce donnée.
Quelques mots de bio (3) n Annotation du génome : consiste à prédire et localiser l'ensemble des séquences codantes (gènes) du génome et à déterminer et identifier leur structure (annotation syntaxique), leur fonction (annotation fonctionnelle) ainsi que les relations entre les entités biologiques relatives au génome (annotation relationnelle). L'information résultante enrichit les bases de données biologiques.
La synthèse d’une protéine (1) ADN Alphabet : [ATGC] Transcription ARN [AUGC] Traduction Protéine [FLIMVSPTAYH QNKDECWRG]
La synthèse d’une protéine (2) introns exons ADN TRANSCRIPTION préARNm MATURATION ARNm TRADUCTION Protéine
Le code génétique n n Chaque ensemble de 3 nucléotides (codons) code un acide aminé ou le codon Stop. AUGC x AUGC = 64 combinaisons possibles 20 acides aminés => code dégénéré Exemples : n n UAU : Tyr (Y) UAC : Tyr (Y) CAU : His (H) UGA : Stop
Le code génétique standard U C A G U UUU Phe F UUC Phe F UUA Leu L UUG Leu L UCU Ser S UCC Ser S UCA Ser S UCG Ser S UAU Tyr Y UAC Tyr Y UAA Stop UAG Stop UGU Cys C UGC Cys C UGA Stop UGG Trp W U C CUU Leu L CUC Leu L CUA Leu L CUG Leu L CCU Pro P CCC Pro P CCA Pro P CCG Pro P CAU His H CAC His H CAA Gln Q CAG Gln Q CGU Arg R CGC Arg R CGA Arg R CGG Arg R C A AUU Ile I AUC Ile I AUA Ile I AUG Met M ACU Thr T ACC Thr T ACA Thr T ACG Thr T AAU Asn N AAC Asn N AAA Lys K AAG Lys K AGU Ser S AGC Ser S AGA Arg R AGG Arg R A G GUU Val V GUC Val V GUA Val V GUG Val V GCU Ala A GCC Ala A GCA Ala A GCG Ala A GAU Asp D GAC Asp D GAA Glu E GAG Glu E GGU Gly G GGC Gly G GGA Gly G GGG Gly G G
Les types de données (1) n Les séquences n nucléiques : alphabet de 4 lettres : A T G C protéiques : alphabet de 20 lettres correspondant aux 20 acides aminés Les annotations n n prédiction expérimentation
Les types de données (2) n n n Nombreux types, Forte corrélation entre les types, en perpétuelle évolution : des nouveaux types émergent (résultats d'expériences de puces à ADN, par exemple) et des nouveaux liens entre les types apparaissent, les deux grâce aux progrès des biotechnologies (automatisation, miniaturisation), Multiplicité des points de vue sur le schéma : sémantiques différentes selon les biologistes.
La quantité de données (1) n n n Les projets de génomiques ont produit ces dernières années des volumes considérables de données : séquençage massif de gros génomes complets : levure, arabidopsis thaliana (première plante séquencée), riz, drosophile, souris, homme. . . Les volumes augmentent exponentiellement : doublent tous les 18 mois. Transcriptomique, protéomique, génotypage.
La quantité de données (2)
Les traitements n Calcul intensif : n n n Comparaison de séquences (2 a 2) Alignements multiples (n séquences) Prédictions intro-exon sur des génomes complets, Analyse de liaison pour la cartographie Analyse de la structure des protéines Analyse du transcriptome
Les banques de données (1) n n Plusieurs centaines de banques de données biologiques disponibles, Catalogues de banques de données : n n n La base DBCAT (gérée à INFOBIOGEN) est un catalogue des bases de données en biologie moléculaire (509 bases répertoriées), Numéro special annuel de Nucleic Acid Research Plus de 150 banques disponibles à INFOBIOGEN : 2 tera-octets
Les banques de données (2) n Les banques généralistes : n n n Les banques de séquences nucléiques, Les banques de séquences protéiques. Les banques thématiques : n n Les banques de motifs ou de domaines protéiques, Les banques de familles, Les banques de structure moléculaire, Les banques spécifiques à un organisme, les banques génomiques.
Les banques de données (3) n n n La redondance : il est fréquent de trouver plusieurs fois la même séquence ou des séquences extrèmement similaires dans des entrées différentes (surtout dans les banques généralistes) : polymorphisme, gènes dupliqués ou erreurs ? Erreurs de sequences : erreurs de séquençage ou de saisie, Erreurs d’annotation : méthodes informatiques automatiques pour l’analyse des données du séquençage systématique.
Des banques généralistes n Banques généralistes de séquences nucléiques : n n n EMBL GENBANK Banques généralistes de séquences protéiques : n n n PIR SWISSPROT TREMBL
Une entrée Gen. Bank LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL COMMENT R 11659 415 bp m. RNA linear EST 11 -APR-1995 yf 40 c 12. s 1 Soares fetal liver spleen 1 NFLS Homo sapiens c. DNA clone IMAGE: 129334 3', m. RNA sequence. R 11659. 1 GI: 764394 EST. human. Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. 1 (bases 1 to 415) Hillier, L. , Clark, N. , Dubuque, T. , Elliston, K. , Hawkins, M. , Holman , M. , Hultman, M. , Kucaba, T. , Le, M. , Lennon, G. , Marra, M. , Parsons, J. , Rifkin, L. , Rohlfing, T. , Soares, M. , Tan, F. , Trevaskis, E. , Waterston , R. , Williamson, A. , Wohldmann, P. and Wilson, R. The Wash. U-Merck EST Project Unpublished (1995) Contact: Wilson RK Washington University School of Medicine 4444 Forest Parkway, Box 8501, St. Louis, MO 63108 Tel: 314 286 1800 Fax: 314 286 1810 Email: est@watson. wustl. edu Insert Size: 706 High quality sequence stops: 274 Source: IMAGE Consortium, LLNL This clone is available royalty-free through LLNL ; contact the IMAGE Consortium (info@image. llnl. gov) for further information. Insert Length: 706 Std Error: 0. 00 Seq primer: -21 m 13 High quality sequence stop: 274.
. . . une entrée Gen. Bank FEATURES source Location/Qualifiers 1. . 415 /organism="Homo sapiens" /db_xref="GDB: 481495" /db_xref="taxon: 9606" /clone="IMAGE: 129334" /clone_lib="Soares fetal liver spleen 1 NFLS" /sex="male" /dev_stage="20 week-post conception fetus" /lab_host="DH 10 B (ampicillin resistant)" /note="Organ: Liver and Spleen; Vector: p. T 7 T 3 D (Pharmacia) with a modified polylinker; Site_1: Pac I; Site_2: Eco RI; 1 st strand c. DNA was primed with a Pac I - oligo(d. T) primer [5' AACTGGAAGAATTAAAGATCTTTTTTTTTT 3'], double-stranded c. DNA was ligated to Eco RI adaptors (Pharmacia), digested with Pac I and cloned into the Pac I and Eco RI sites of the modified p. T 7 T 3 vector. Library went through one round of normalization. Library constructed by Bento Soares and M. Fatima Bonaldo. " 96 a 93 c 127 g 91 t 8 others BASE COUNT ORIGIN 1 tttgtacatt 61 cagaggccag 121 ggaggtggga 181 ctnttcgtcg 241 ggacgcataa 301 tnacagtnaa 361 gctgggacaa // tatttgcatg gttag cagaggaatn ccatgggggg ctccggattg ggaggccgac ccgggcagca tttattggtt cggctgaagc tgggccccaa aagcgggacc ttatttgaac tcatcgtcaa ccaggcggng taacacaggg agtctgggga actatggggg agagccgccg tgtcctgact tttcacacaa ggacagtgtc gtcgcaaact gaggcaaaaa cagctgctac ggtcttcggc ttggtaagac gtactcgccg ttccttntgc caaatgccca gcaatggcag tcagtgccag tttttcaaga tctntgacgg gagtcctcga angag
Une entrée EMBL ID XX AC XX SV XX DT DT XX DE DE XX KW XX OS OC OC XX RN RP RA RA RT RL XX DR DR XX HS 65975 standard; RNA; EST; 415 BP. R 11659; R 11659. 1 21 -APR-1995 (Rel. 43, Created) 04 -MAR-2000 (Rel. 63, Last updated, Version 2) yf 40 c 12. s 1 Soares fetal liver spleen 1 NFLS Homo sapiens c. DNA clone IMAGE: 129334 3', m. RNA sequence. EST. Homo sapiens (human) Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. [1] 1 -415 Hillier L. , Clark N. , Dubuque T. , Elliston K. , Hawkins M. , Holman M. , Hultman M. , Kucaba T. , Le M. , Lennon G. , Marra M. , Parsons J. , Rifkin L. , Rohlfing T. , Soares M. , Tan F. , Trevaskis E. , Waterston R. , Williamson A. , Wohldmann P. , Wilson R. ; "The Wash. U-Merck EST Project"; Unpublished. RZPD; IMAGp 998 B 23135. UNILIB; 262.
. . . une entrée EMBL FH FH FT FT FT FT FT XX SQ // Key Location/Qualifiers source 1. . 415 /db_xref="taxon: 9606" /db_xref="RZPD: IMAGp 998 B 23135" /db_xref="UNILIB: 262" /note="Organ: Liver and Spleen; Vector: p. T 7 T 3 D (Pharmacia) with a modified polylinker; Site_1: Pac I; Site_2: Eco RI; 1 st strand c. DNA was primed with a Pac I - oligo(d. T) primer [5' AACTGGAAGAATTAAAGATCTTTTTTTTTT 3'], double-stranded c. DNA was ligated to Eco RI adaptors (Pharmacia), digested with Pac I and cloned into the Pac I and Eco RI sites of the modified p. T 7 T 3 vector. Library went through one round of normalization. Library constructed by Bento Soares and M. Fatima Bonaldo. " /sex="male" /organism="Homo sapiens" /clone="IMAGE: 129334" /clone_lib="Soares fetal liver spleen 1 NFLS" /dev_stage="20 week-post conception fetus" /lab_host="DH 10 B (ampicillin resistant)" Sequence 415 BP; 96 A; 93 C; 127 tttgtacatt tatttgcatg tttattggtt cagaggccag gttag cggctgaagc ggaggtggga cagaggaatn tgggccccaa ctnttcgtcg ccatgggggg aagcgggacc ggacgcataa ctccggattg ttatttgaac tnacagtnaa ggaggccgac tcatcgtcaa gctgggacaa ccgggcagca ccaggcggng G; 91 T; 8 taacacaggg agtctgggga actatggggg agagccgccg tgtcctgact tttcacacaa ggacagtgtc other; gtcgcaaact gaggcaaaaa cagctgctac ggtcttcggc ttggtaagac gtactcgccg ttccttntgc caaatgccca gcaatggcag tcagtgccag tttttcaaga tctntgacgg gagtcctcga angag 60 120 180 240 300 360 415
Le contexte technique (1) n La situation actuelle en bioinformatique ont été marqués par les approches qui ont prévalu dans le passé lorsque : n le volume d'information était réduit, n les types de données peu diversifiés, n moins de corrélation entre les types.
Le contexte technique (2) L'information est aujourd'hui : n disséminée dans une multitude de banques de données, n stockée sous des formats syntaxiquement hétérogènes, n en général non disponible dans des systèmes de gestion de bases de données (SGDB) mais distribuée sous forme de fichiers plats, n modélisée dans ces différentes banques selon des sémantiques hétérogènes et difficiles à mettre en relation.
Le système SRS : la référence n n n SRS (Sequence Retrieval System) est un système européen relativement générique permettant d'intégrer des dizaines de bases génomiques et qui offre des outils de navigation et de recherche orientés WEB, C'est la référence européene en matière d'intégration de données génomiques, SRS repose sur une technologie de fichiers plats ASCII et de fichiers d'index qui pointent directement vers des entrées dans les fichiers plats.
Limites structurelles de SRS n n n SRS n'est pas basé sur un SGDB, C'est un système essentiellement read only, La technologie sur laquelle repose SRS (pointeurs directs vers des fichiers de données) n'est pas adaptée aux mises à jour incrémentales, Données peu structurées, Pas d'API permettant d'accéder aux données structurées.
SRS : exemples n n n Le serveur SRS du CRI INFOBIOGEN L’entrée SWISSPROT: PHYA_ARATH L’entrée EMBL: HS 65975
Le projet GIX n n Le projet “Environnement d'intégration et de manipulation de données génomiques et protéomiques” (nom de code: GIX pour Génomi. CS) propose de remédier à ces problèmes en intégrant dans un même environnement les principales bases de données d'intérêt de la génomique. Projet de collaboration SYSRA / INFOBIOGEN en partie subventionné par le ministère de la recherche (décision 00 H 0348).
GIX : points clés (1) n Une modélisation objet globale et extensible pour l’ensemble des banques du domaine : n modélisation objet : n n globale : n n n fort pouvoir expressif (héritage, méthodes, aggrégations, références. . . ). les utilisateurs (humains et programmes) dispose d'une sémantique unique pour l'ensemble des bases de données, facilite l'accès, la manipulation et l'analyse croisée des données. extensible : n permet d’intégrer de nouvelles banques
GIX : points clés (2) n Un SGBD O pour le stockage des données : n SGBD : n n système read write, concurrent, transactionnel, langage de requête. . . adapté aux mises à jour incrémentales, API permettant d’accéder aux données structurées. O: n supporte nativement la modélisation objet.
GIX : points clés (3) n n n Un mécanisme d’importation et de mise à jour des données des principales banques publiques Une bibliothèque pour l’importation et la mise à jour de données privées Une boîte à outils pour le développement d'interfaces graphiques orientées WEB
Un SGBDO : lequel ? n n n n Versant ? Objectivity ? O 2 ? MATISSE ? POET ? ORIENT ? EYEDB ? autre ?
Le SGBDO EYEDB n n n Un premier prototype, IDB, a été développé dans les laboratoires Généthon dans le cadre du projet Genome View, Ce projet a été initié en 1992 pour stocker et faciliter l'accès aux données du génome humain produites par Généthon (cartes physique et génétique), Depuis 1994, SYSRA développe une nouvelle version avec diverses collaborations : cette nouvelle version, EYEDB, est une réécriture complète.
EYEDB et ODMG 3. 0 n EYEDB est basé sur les spécifications ODMG 3. 0 : n n n EYEDB Object Query Language est un surensemble strict de l'ODMG OQL. EYEDB Object Definition Language est un sousensemble étendu de l'ODMG ODL. les bindings C++ et Java ne sont pas ODMG compliant.
EYEDB : caractéristiques clés (1) n Caractéristiques standards des SGBDO : n n n Gestion de données typées persistantes Modèle Client/Serveur Services Transactionnels Système de recouvrement Orienté langage : n n Langage de définition des types : ODL Langage de requêtes : OQL Bindings C++ & Java Bindings PHP & PERL
EYEDB : caractéristiques clés (2) n Généricité et orthogonalité du modèle objet : n n n n n Chaque classe dérive de la classe object, Polymorphisme, Relations binaires : 1: 1, 1: N, N: N, Types littéraux et objets, Surcharge de méthodes et late binding, Services de triggers, Contraintes d’intégrité : unique, not null, Collections template : set, bag & array, Tableaux multi-dimensionnel et de taille variable, Flexibilité du schéma.
EYEDB : caractéristiques clés (3) n Support pour les données distribuées : n n n Efficacite : n n n Binding CORBA, Objets multi-databases. Storage manager performant, Mode d’accès local. Scalability : n n n Collections et index paramétrables, Localisation et clusterisation, Les programmes peuvent gérer des centaines de millions d’objets sans perte de performance
La modélisation objet (1) n n n La modélisation objet est issue de la structure des banques génomiques à intégrer. Une partie commune à l'ensemble de ces banques a été isolé et organisée sous la forme de 7 paquetages contenant au total 59 classes. Des extensions tenant compte des spécificités de chaque banque ont ensuite été ajoutées à la modélisation objet par héritage. Au total, 76 classes.
La modélisation objet (2) n n Cette approche garantit suffisamment d'extensibilité pour pouvoir intégrer dans l'avenir des données provenant de sources variées dans le domaine de la génomique. La modélisation objet a été representée sous forme de diagramme UML à l'aide de l'outil Objecteering. Une passerelle bidirectionnelle entre EYEDB et cet outil a été réalisée.
Implémentation dans EYEDB (1) n Pour implémenter cette modélisation objet dans EYEDB pour un ensemble de banques génomiques, deux architectures possibles : centralisée ou fédérée : n n l'architecture centralisée consiste en une seule base EYEDB avec un schéma unique, l'architecture fédérée consiste en la séparation des données provenant de banques génomiques différentes dans des bases de données EYEDB distinctes avec des schémas qui peuvent être éventuellement légèrement distincts.
Implémentation dans EYEDB (2) n L'approche fédérée a été retenue : n n l'import des données est plus facilement parallèlisable : limitations uniquement au niveau des accès concurrents au disque, les mises à jour non incrémentales sont plus simples à effectuer pour une nouvelle version d'une banque génomique, il sera possible de réaliser des distributions partielles du produit à la demande, une modification mineure du schéma n'entraîne pas nécessairement la migration de l'ensemble des données.
Implémentation dans EYEDB (3) n Une couche logicielle au dessus EYEDB permet l'accès aux différentes bases constituant la fédération comme s'il s'agissait d'une seule base physique. Cette couche logicielle supporte : n n n les requêtes multi-bases : exécution d'une même requête sur plusieurs bases et fusion des résultats, les requêtes inter-bases: il s'agit d'exécuter une requête contenant des critères de recherches dans des bases distinctes et croiser les résultats, la navigation inter-bases: il faut un moyen pour suivre des liens d'une base vers une autre.
Intégration des données (1) n n Des spécifications pour des programmes d'import ont été réalisés pour 11 banques génomiques (essentiellement de séquences) : SWISSPROT, SPTREMBL, PROSITE, PRODOM, PFAM, BLOCKS, RHDB, UNIGENE, ENZYME et GENBANK. Une bibliothèque logicielle regroupant des fonctionnalités communes aux programmes d'import a été réalisée,
Intégration des données (2) n n Ces banques (sauf GENBANK) ont été importées et leur programme de mise à jour incrémentale réalisés. Environ 300 Gb de données dont 260 Gb pour EMBL (17 millions d'entrées).
Intégration des données (3) Banque de données Nombre Taille de la Nombre d’entrées base (Go) d’objets bio Durée d’import PROSITE 1, 5 K 0, 8 108 K 6 min SWISSPROT 100 K 2, 9 2, 4 M 5 h 30 SPTREMBL 660 K 13 8, 4 M 20 h 33 EMBL 17 M 261 122 M 25 j PRODOM 305 K 3, 1 2, 5 M 3 h 50 PFAM 85 K 1, 9 1, 6 M 10 h 04 BLOCKS 12 K 0, 6 690 K 1 h 40 ENZYME 4 K 0, 2 42 K 5 min RHDB 133 K 1, 9 1, 34 M 1 h 58
Boîte à outils n L'objectif est de permettre aux biologistes d'enrichir l'environnement de leur propres données et de réaliser à moindre coût leurs propres logiciels de consultation ou d'analyse.
Particularités des applications dédiées à la génomique 1. 2. 3. 4. 5. En général spécifications sommaires et très évolutives dans le temps, Les données manipulées sont souvent sujettes à des interprétations qui peuvent aboutir à une remise en cause de leur structure et en conséquence des schémas des bases de données, Les biologistes ont besoin d'outils de navigation qui intègrent des données publiques avec leurs propres données et aussi d'annoter ces données, Les nouvelles applications doivent intégrer ou être interopérables avec des applications existantes, Du fait de la dispersion géographique, le WEB est un environnement de prédilection.
Composants de la boîte à outils n La boîte à outils comporte trois composants : n Un serveur d’application WEB, Un système de définition de vues multi-bases, n Un langage de manipulation des vues. n
Le serveur d’applications n n L'orientation des interfaces graphiques vers les techniques du WEB est une nécessité. Les particularités des applications “bases de données” dans le monde du WEB engendre les besoins particuliers et récurrents : n n n les scénarios complexes nécessitent des mécanismes de suivi de sessions, certains scénarios de mise à jour nécessitent des sessions transactionnelles dans un environnement qui n'a pas été prévu pour cela à l'origine, le coût des connexions aux bases de données rend les techniques classiques (CGI) inefficaces.
Le système de définition de vues (1) n Il est raisonnable de penser les applications pour la génomique comme des applications en changement permanent; changements dictés davantage par une évolution des structures de données que par une évolution des besoins de visualisation; deux règles de conception : n n bon découplage entre les objets graphiques et les objets sémantiques, interfaces qui s'adaptent dynamiquement aux changements.
Le système de définition de vues (2) n La solution proposée repose sur la notion de vue : les vues sont représentées dans un langage de définition dédié (View Definition Markup Language : VDML) basé sur XML et ensuite importées sous la forme d'objets EYEDB dans un référentiel spécifique.
Le langage de manipulation de vues n Un second langage (Framework Markup Language : FWML) permet de manipuler les vues pour générer des représentations HTML ou XML exploitables par les navigateurs.
Démonstration click here
GIX vs. SRS n GIX offre des avantages incontestables par rapport à SRS liés notamment à l’utilisation d’un SGDB, cependant à ce jour : n n n SRS : +150 banques, GIX : 11 bases SRS propose une navigation WEB plus abouti Durée d’importation plus réduite avec SRS Recherche en expression régulière plus efficace avec SRS utilise moins de ressource disque (donc mémoire) SRS offre des index alltext
Crédits n n L’environnement d’intégration et de manipulation des données génomiques et protéomiques a été développé à l’aide d’un financement du Ministère de la Recherche (décision 00 H 0348). Le SGBDO EYEDB a été développé par SYSRA en collaboration avec le CRI INFOBIOGEN, l’Agence Nationale de la Valorisation de la Recherche (ANVAR) et le Conseil Régional de l‘Île de France.
- Slides: 59