Calcul Intensif en Gnomique Comparative Laurent Duret Laboratoire
Calcul Intensif en Génomique Comparative Laurent Duret Laboratoire de Biométrie et Biologie Evolutive
Séquençage de Génomes ACGTGAGGCATTAGCAGTGA CTATCGGTAGCGAGCTACTA CGACGAGTCGCAGCTACGCT AGCGGCGTAGCGTACA • Objectifs: – Etablir l’inventaire de toute l’information génétique nécessaire au développement d’un organisme Comment fonctionne un organisme vivant ?
Séquençage de Génomes ACGTGAGGCATTAGCAGTGA CTATCGGTAGCGAGCTACTA CGACGAGTCGCAGCTACGCT AGCGGCGTAGCGTACA • Objectifs: – Etablir l’inventaire de toute l’information génétique nécessaire au développement d’un organisme – Comprendre l’évolution des organismes, des populations Comment évoluent les organismes vivants ? Quelle est l’origine de la biodiversité ? Comment fonctionne un écosystème ?
Séquençage de Génomes ACGTGAGGCATTAGCAGTGA CTATCGGTAGCGAGCTACTA CGACGAGTCGCAGCTACGCT AGCGGCGTAGCGTACA • Objectifs: – Etablir l’inventaire de toute l’information génétique nécessaire au développement d’un organisme – Comprendre l’évolution des organismes, des populations – Applications médicales, environnementales, agronomiques, industrielles
Séquençage de Génomes ACGTGAGGCATTAGCAGTG AACTATCGGTAGCGAGCTAC TACGACGAGTCGCAGCTAC GCTAGCGGCGATGTACAA • 1977: Technique de séquençage de l'ADN (Sanger) • 1995: 1 er séquençage complet du génome d’un organisme cellulaire (bactérie, 2 106 pb) • 2001: séquençage du génome humain (3 109 pb) • 2002: projets « métagénomique » • 2007: ~650 génomes entièrement séquencés – Bactéries, Archées : 105 -107 pb / génome – Eucaryotes: 106 -109 pb / génome – Total séquencé: ~ 1011 pb • Depuis 2005: nouvelles techniques de séquençage
Augmentation exponentielle des données du séquençage Quantité de séquences publiées (Mb) 70000 60000 100000 50000 10000 40000 1000 30000 100 20000 10 10000 1 1980 1985 1990 1995 2000 2005 2010 • Doublement tous les 24 mois
Après le séquençage … • Identifier les gènes et autres éléments fonctionnels dans les séquences génomiques (où sont les gènes ? ) • Déterminer la fonction des gènes (que font-ils ? )
Chercher l’aiguille dans une botte de foin … Génome humain: 3 109 pb Régions codantes (ARN) > 0. 05% (protéines) 1. 2% Régions régulatrices 4 -8% 20 000 -25 000 gènes protéiques ADN non fonctionnel 90 -95%
aggcgatgcgcgattttcattgcggatttagcgcattagccaggctattacgcgcagccg AGGCGATGCGCGATTTTCATTGCGGATTTAGCGCATTAGCCAGGCTATTACGCGCAGCCG ATTTTCATTGCGGATTTAGCGCATTAGCCAGGCTATTACGCGCTATGCGCGATTT attttcattgcggatttagcgcattagccaggctattacgcgctatgcgcgattt TCATTGCGGATTTAGCGCATTAGCCAGGCTATTACGCGCAGCCGATTTTCATTGCGGATT tcattgcggatttagcgcattagccaggctattacgcgcagccgattttcattgcggatt TAGATGGATTAAGCCTCATTGATCGATGAATCGGAATAGTCTTTTGAATAATCCAGAAGG tag. ATGGATTAAGCCTCATTGATCGATGAATCGGAATAGTCTTTTGAATAATCCAGAAGG GAACCAACAGTATCAGATAAAATGAAAAGGACTGAATCTGCAACACTCAAATAAAAAATA ATTAAGTAGCATTGATCATGCATTTAAGTTTCATTCGAGATGTGTAACAAAGCAA ATTAAgtagcattgatcatgcatttaag. TTTCATTCGAGATGTGTAACAAAGCAA ACTACCACTTGATTCCATGCCAAGCATAGTACAATAAAAAATAAGCGACTTCGAAGATGA ATTTTAAGATCTGTGGAATCTGATGAATATCTAAGAGAAAATGGAGAAGCCATTGA AAAACTTGTCATGAAACCACTATGTTCAAAGTACATGCATCTGAAATTTTAGATTG AAAACTTGTCATGAAACCACTATGTTCAAAgtacatgcatctgaaattttag. ATTG ATTTCAATTGATCCAGTCAAAGATAGAGAAATTGAATTTTCTATGAAAGCATATTCATTT GTTTAAGCTAAACATCTTGAAATTGATGAAAACATAGAAAAACATAAAATGTTTAACTAA GTAGTTGATTGTAAATAGTGAATTTATCTTAGTGATATCTAAAATTGATAAGGTAGAAAC GTAGTTGATTgtaaatagtgaatttatcttag. TGATATCTAAAATTGATAAGGTAGAAAC ACCAAAAGAAAAACTGTATTGTGAATGCAGGTAAACTAGTGGTAATAGATT ACCAAAAGAAAAACTGTATTGTGAATGCAGGTAAACTAGTGgtaatagatt AATATAAATTACGTAGCTATTGTCAATTAAATGGCTAATAATTAGCCAACAGGTGCTGAT aatataaattacgtag. CTATTGTCAATTAAATGGCTAATAATTAGCCAACAGGTGCTGAT MDQASLIDESEQSFEQSRRVEPTVSDKMKRTESATLKQKIINFIRDVQQSKLPLDSMPSI AATCTATTACCTGTGTTAATATACGCCACTTTGAAGGCATAACCATCAAAAGCCTATTCA VQQKISDFEDEFQDLWKESDEYLRENGEAIEKLVMKPLCSKLISIDPVKDREIEFSMKAY AATATCTTATTTGTGAGCTATTATAGATCACCTAAAAGAATCACTGGAGAGGATGAGTAC SFVQAKHLEIDENIEKHKMFNQVVDLISKIDKVETPKEKLNCIVNAGKQTSAIVNQMANN TATTTTACTACTTATGAATCGACTCTGCAATTTATTGAAAAATTAGACTACCAAAAATTA QPTGADNLLPVLIYATLKAQPSKAYSNILFVSYYRSPKRITGEDEYYFTTYESTLQFIEK AATATCATCAAGAATTTCAAGATCTAAGCAAAGAACGTTTAGATGTGATTAAAAAC LDYQKLNINHQEFQDLSKERLDVIKNSQNELSQNGIFNMDAHQNYVNLQMIKMKIQDLQR TCTTAAAATGTAATCAAATTCTATTATCCTTAATAGGAATTATCATAAAATGGAATTTTT TCTTAAAATgtaatcaaattctattatccttaatag. GAATTATCATAAAATGGAATTTTT KSKFYEQSKKYKLKFNQKQLNNITLNEIPEFYDEYQNLYKNLLEMQKDIHNLYNLTNEII AATATGGATGCACACTAAAATTATGTGAATCTGTAAATGATTAAAATGAAAATATAAGAT KESQSETKKVATRKFFGII* CTTCAACGTAAATCAAAGTTCTACGAACAATCAAAGAAATATAAATTAAAATTCAA AAATAGTTAAATGTAAAATTGCATATTTCATTTAGAATATCACTTTGAACGAAATACCAG AAATAGTTAAATgtaaaattgcatatttcatttag. AATATCACTTTGAACGAAATACCAG AGTTTTATGATGAATATTAAAATCTATATAAGAATTTATTAGAAATGCAAAAGGATATTC ACAACCTATACAATTTGACCAATGAAATTATAAAGGAAAGTTAAAGTGAAACCAAGAAGG TGGCTACTCGAAAGTTCTTTGGAATTATATGAATATTGTACGATTTCAGGTATTGCGCTA TGGCTACTCGAAAGTTCTTTGGAATTATATGAatattgtacgatttcaggtattgcgcta ATGCGCGATTTTCATTGCGGATTTAGCGCATTAGCCAGGCTATTACGCGCAGCCG atgcgcgattttcattgcggatttagcgcattagccaggctattacgcgcagccg
Analyse comparative de génomes (intra- inter-espèces) • Localiser les régions du génomes qui sont fonctionnelles (où sont les gènes? ) – Empreintes phylogénétiques – « Scan génomique »
Analyse comparative de génomes (intra- inter-espèces) • Localiser les régions du génomes qui sont fonctionnelles (où sont les gènes? ) • Prédire la fonction des gènes (que fontils ? ) - prédiction de fonction par homologie - profils phylogénétiques - conservation de l’ordre des gènes - …
Analyse comparative de génomes (intra- inter-espèces) • Localiser les régions du génomes qui sont fonctionnelles (où sont les gènes? ) • Prédire la fonction des gènes (que fontils ? ) • Etudier l’évolution des organismes, des populations (origine de la biodiversité) - phylogénie moléculaire - histoire des populations
Outils bioinformatiques pour l’analyse de séquences • (1) Recherche de similarités entre séquences (e. g. BLAST) • Identification de séquences homologues
Outils bioinformatiques pour l’analyse de séquences • • (1) Recherche de similarités entre séquences (2) Alignement multiple (e. g. Clustal. W, Muscle) CLUSTAL W (1. 74) multiple sequence alignment Xenopus Poulet Vache Homme Souris Rat ATATGGGCCAACATGACCAGGAGTTGGTGTCGGTCCAAACAGCGTTGGCTCTCTA TGCATGGGCCAGCATGACCAGCAGGAGGTAGCCAAAATAACACCAACATGCAAATG ATGCATCCGCCACATGACCAGCAGGAGGTAGCACCCAAAACAGCACCAACGTGCAAATG ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATG TGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCA ATGCCACCATGACCAGCGGGAGGTAGCTCTCAAAACAGCACCAACGTGCAAATG
Outils bioinformatiques pour l’analyse de séquences • • (1) Recherche de similarités entre séquences (2) Alignement multiple (e. g. Clustal. W, Muscle) CLUSTAL W (1. 74) multiple sequence alignment Xenopus Poulet Vache Homme Souris Rat AT--ATGGGCCAACATGACCAGGAGTTGGTGTCGGTCCAAACAGCGTT---GGCTCTCTA -TGCATGGGCCAGCATGACCAGCAGGAGGTAGC---CAAAATAACACCAACATGCAAATG ATGCATCCGCCAC-ATGACCAGCAGGAGGTAGCACCCAAAACAGCACCAACGTGCAAATG ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATG -TGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCA---ATGCAT--GCCACCATGACCAGCGGGAGGTAGCTCTCAAAACAGCACCAACGTGCAAATG ** ** ********* * * *** *
Outils bioinformatiques pour l’analyse de séquences • (1) Recherche de similarités entre séquences • (2) Alignement multiple • (3) Reconstruction d’arbres phylogénétiques (e. g. Phy. ML) 0. 02 Gallus Rattus CLUSTAL W (1. 74) multiple sequence alignment Xenopus Gallus Bos Homo Mus Rattus ATGCATGGGCCAACATGACCAGGAGTTGGTGTCGGTCCAAACAGCGTT---GGCTCTCTA ATGCATGGGCCAGCATGACCAGCAGGAGGTAGC---CAAAATAACACCAACATGCAAATG ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACCCAAAACAGCACCAACGTGCAAATG ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATG ATGCATCCGCCACCATGACCAGCGGGAGGTAGCTCTCAAAACAGCACCAACGTGCAAATG ****** * *** * * * Mus Homo Bos Xenopus
Banques de données pour la génomique comparative LBBE, Lyon (S. Penel, L. Duret, D. Kahn, G. Perrière, D. Mouchiroud, M. Gouy) • Classification des protéines en familles (BLAST) • Alignement multiple des protéines • Arbre phylogénétique – HOGENOM: familles de gènes des génomes complets • 486 génomes, 2 millions de gènes classés en 147000 familles http: //pbil. univ-lyon 1. fr/ – PRODOM: familles domaines protéiques • 275000 familles de domaines http: //prodom. prabi. fr/
Banques de données pour la génomique comparative : Besoins CPU • Temps de calcul nécessaire aux mises à jour: O(N 2) – 2007: 106 UI CPU – CC-IN 2 P 3: gain de temps x 100 -150 – Croissance exponentielle des données: N double tous les 24 mois ! – 20% de notre consommation CPU CC-IN 2 P 3
Autres applications: Phylogénie • Etude systématique des transferts horizontaux chez les bactéries hyperthermophiles : – Calteau et al. (2005), JME 60: 557 -565 • Etude systématique des transferts horizontaux chez Ralstonia solanacearum : – Fall et al. (2008) PLo. S One, sous presse • Phylogénie des nitrogénases chez les bactéries fixatrices d’azote : – Blavet et Perrière (2007), Actes de JOBIM, pp. 5 -12 • Calcul des patrons de substitution le long des génomes (Maximum de vraisemblance) – Necsulea & Lobry (2007) Mol Biol Evol. 24: 2169 -79.
Autres applications: Statistique, Modélisation en Ecologie • Simulations pour évaluer différentes méthodes d’estimation du nombre de valeurs propres en ACP – Dray (2008) Computational Statistics & Data Analysis 52: 2228 -2237 • Modélisation de la dynamique des populations de mammifères – Solberg et al. (2007) Oecologia 154: 259 -271.
Millions d’UI CPU Evolution … de la consommation Année
Stockage • Sauvegarde de nos données à l’IN 2 P 3 ~25 To • => délocalisation des sauvegardes
Limitations du CC-IN 2 P 3 • Pics de production • Pas de calcul interactif
Services Web • Mise à disposition de nos bases de données à l’ensemble de la communauté via notre serveur web • Mise à disposition de services d’analyse de séquences, e. g. : – Identifier la famille à laquelle la séquence appartient – Placer cette séquence dans l’arbre phylogénétique de la famille
Services Web • Mise à disposition de nos bases de données à l’ensemble de la communauté via notre serveur web • Mise à disposition de services d’analyse de séquences, e. g. : – Identifier la famille à laquelle la séquence appartient – Placer cette séquence dans l’arbre phylogénétique de la famille => Calcul interactif en libre accès (très courant en SDV !)
Bilan • Expérience très positive – Poursuite des mises à jour de nos bases de données – Opportunité pour réaliser de nouvelles analyses qui étaient impossibles auparavant • Importance de l’ingénieur support de l’IN 2 P 3 (Merci à Pascal Calvat !) • Evolution des besoins CPU: O(N 2) avec N qui double tous les 2 ans … • Limitations: – Pics de production – Calcul interactif
Remerciements • CC-IN 2 P 3 • Pascal Calvat • Simon Penel
- Slides: 28