du gnome aux protomes in silico MarieClaude Blatterisbsib

du génome aux protéomes « in silico » Marie-Claude. Blatter@isb-sib. ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

La bioinformatique, c’est quoi ? L’utilisation de l’informatique pour l’analyse de l’ADN et des protéines de tous les êtres vivants.

Acquérir puis stocker les informations biologiques sous la forme d’encyclopédies appelées bases de données; Développer des programmes de prédiction et d’analyse en utilisant les informations contenues dans les bases de données; Analyser/Interpréter/Prédire: utiliser ces programmes pour analyser de ‘nouvelles’ données biologiques et prédire in silico par exemple la fonction potentielle d’une protéine; Visualiser: développer des programmes pour visualiser la structure en trois dimensions des protéines et de l’ADN, pour shématiser des voies métaboliques ou des arbres phylogénétiques.

Bioinformatique - application 1: acquisition de données • Exemples: lecture d’images de gels 2 D, spectrométrie de masse (MS), séquençage ADN. . . • Détection de signaux ou d’images • Absence de contexte biologique.

Séquençage d’ADN Informatique instrumentale Programme pour analyser les données d’un séquenceur ADN Exemple: pregap 4 de Rodger Staden https: //sourceforge. net/projects/staden.

Bioinformatique - application 2: Assemblage des séquences d’ADN Nature 409, 860 -921 (2001) • Les méthodes actuelles de séquençage ne permettent pas d’obtenir des séquences fiables de plus de 1000 bp !

Bioinformatique - application 2: Assemblage des séquences d’ADN • -> Reconstruire la séquence complète d’un génome ou d’un morceau de chromosome ( « contig » ) à partir de séquences de 1000 bp; • Pas du tout trivial parce que: (a) il y a des erreurs de séquence; (b) il y a des régions répétitives. “Celera-generated shotgun data set consisted of 27 million sequencing reads …” Whole-genome shotgun assembly and comparison of human genome assemblies. PNAS 101(7): 1916 -21 (2004)

CCCCTGACGACCGATTCAAAAACCACTTTCCTCTTTTACGGCGCCCTAGCGCTATGGCGGTGAAGACTGCTTGACATTAACATGCCTGTTGAGGCTAGAGAATCCATGCGAAGGCGGTTCGGAAACTGCTTCGAAGGCGTGGGGTGGTG GGGTGGGATTTGAACCCACGCAGGCCTACGCCATCGGGTCCTAAGCCCGACCCCTTTGGCCAGGCTCGGGCACCCCCGCACCGTGTAGTCTTTAGGTTTAGCTTTCAGGGTTAAAACGGTTTAACACTCATGAGTATCACTGGGCTGGC ACTGGGCTCTGCATTCCCGAGGCCATGCTGCCCGTGAGGAATAACGGGTCTGAGGAGCCGTTGACAGGTTGCCATTTGGCCTTGCCCCCAAAAGTGATGCTGTGGATCACGACCTCCTCGGAGGAGGGGAGCCTCAGCATACACTTTAT AAGGCTTTAAGGGTTTAGCCGGATAATGTTGTTGGGGCGTGCAGCGGCAAGTGCTGCAGCTCATGGGTATGCGGCTTTGCCTGGTGATGCGGTTTGGCCCCCGTTGTCTGCGACGTCTGCGGTGTTAGGAGGGCTGTGGTGCTG GCCACACGGGAAGGCGGCTCTGCAGGGAGTGCTTTAGGGAGGATATAGTGGGGAGGGTCAGGAGGTTGAGAGGTGGGGGATGATAGGCCCTGGGGAGACGGTCCTCCTAGGCCTGAGCGGCGGTAAGGACAGCTATGTCCTGCTG CCCTCTCCGAGATAGTCGGGCCCTCGAGGCTGGTGGCGGTGTCTATAGTGGAGGGCATACCGGGGTACAACAGGGAGATATCGAGAAGATCAGGAGGGTGGCCGCGGCTAGGGGCGTCGACGTGATAGTGACGAGCATAAGGGAG TGGGGGCCAGCCTCTATGAGATATACTCCAGGGCCCGAGGGGGGCCACGCCGCCTGCACCTACTGCGGCATAAGCAGGAGGAGGATACTTGCCCTCTACGCCTCTACGGCGCCCACAAGGTCGCTACGGCCCACAAC ACGACGAGGCGCAGACAGCTATAGTGAACTTCCTCAGGGGGGACTGGGTTGGCATGCTGAAAACACACCCCCTCTACAGGAGCGGGGGCGAGGACCTGGTTCCAAGGATAAAGCCTCTTAGGAAAGTCTACGAGTGGGAGACGGCCAGC TGGTACTCCACCGCTACCCCATCCAGGAGGCTGAATGCCCCTTCATAAACATGAACCCTCAGGGCGAGGGTGAGGACGGCCCTGAGGGTGCTAGAGGAGCCCGGGCACCCTGCTCAGGATGATGGAGAGGCTCGACGAG TGAGGCCGCTGGCCCAGGCCATGAAGCCCTCCTCCCTAGGCAGGTGCGAGAGATGCGGGGAGCCGACCAGCCCGAAGAGGAGGCTCTGCAAGCTCTGCGAGCTCCTGGAGGAGGCCGGGTTCCAGGAGCCCATCTACGCGATCGCAGGG GCAAGAGATTAAGGCTTCAGAGCCCCACCGCTAGCCCTGGGTGAACGCGCTATGGCAAAGCCAAAGGTTAGCCTGCCGGAGGATGTGGAGCCCCCCAAGGCTATAGTCAAGAAGCCTAGGCTAGTGAAGCTAGGCCCCGTAGACCCGGG AGGAGGGGAAGGGGGTTCAGCCTAGGCGAGCTCGCGGAGGCTGGGCTAGACGCTAAAAAGGCGAGGAAGCTTGGCCTGCACGTGGACACGAGGAGGAGGACGGTCCACCCGTGGAACGTGGAGGCCCTCAAGAAGTATATAGAGAGGCT GAGGCGTAGAGGTCTAGACCCCGGGGCTATATACTACCACTTCGCCCTCCCCATTATACTATCCACCCTGGCCCTCCCCACCTCCAGGACCTCAATATCCCCCTCAGCCCTGGTGTACACGCTCAAAGACGGCTCCCTG AGGCCCTGGTCACCACCCCCACGTGAATCACCCCTCCCGCGTGTACGGCGGCTATAAGCCCCCTCTCCCAGCCCTCCCGGAGGACGCGGAGCCTACTCCGACCCTACCGCCCCTCCTCGCCACAACCACTATGTCCCCGTCA TCTCACCATAGAGGGCGGCTGGGTGTAGGGCCTTGAGGGCCTCGTGGGCCAGAGGCTCCCCCCGGAATATCGGCGCGCCAACTATCTCGGCCTCGCCGGGCCTGACCCTCCTCTCCCTCCCGAGGTCCTAAGGGCTATCAGCCTC TATGAAGAGCCCTCTCCCCCCGGCTCTTGCCCGCCTCTCCAGCCTCTCCACAGAGTGTCAAGCCCCCACACCCTCTCGAGCAGCCTGGCCCGTCGGCTATGCCCACCGCGACTACAAGCCTTGCTCTAGAGGCTATG GGGCTGCCTTAGACTCGAGCCCCTCCCACAGTGATATCCAGCCATCTGTATCCACTACCACCTGGCCAGTGAGGCCAATCTAGATGCGCAGGCGAGGTAGCGGGACTCCGACCCCCGGGGGGTGAAGCCGCCGACGAAACACGGC CACTCGAGAACGAGTCGTCTAGGCCCGGGACGGCCACGCCCTGTGGAGACGCCAGCGCCATAAACCCCGGGGCGAAGACCTCGTTCTGGCCTATATCCGCCGACAGCAGTCTATACCCACCACCGCCCCTGTTAACTATCCAAGCCGCT TGCTCTTACCGGAGTCGCTCGGCCCCACAATAGCCACCCTGCCCCGCTGAGAGGCCTCCCTGGCTATGGAGTCGAACCTGTTGTAAGCCTCCTCCACGCCCCCTGTGGAGACTACACCGGACACAATAGCCCTCAACCCTGGCG CCGACCTGCAGGGACCACTAGAGCCCTCCCCCAGCCTTCCACCCAAAACCTCTGCAGCACCCTCTACAACCTCTATCCTCCCCGGGCCGCGGACTAGCGCCGAGCCCCATGCAATCTCCACAGGCAAAGCTTTAAACCCC GGTAAGATATGTGAACCGGGCCGCGGTAGTATAGCCTGGACTAGTATGCGGGCCTGTCAAGGGCCCCGCCTCCGCCCCACCCTCATTCTACTACACGCTTATCAGGATAAACAGCCGGGCAAACGTTTTTAACCCCGCCGAAATTCATA TCCCGGGGCGGAGGCGGGCCTGCGGAGAGCCCGTGACCCGGGTTCAAATCCCGGCCGCGGCGCCAATAATCCTCGCGGCCCGCCTTCAAGACTCACTAAACCCCGGTTGAGCACCCGCAGCATCGATGCTAAGGCTCGAGCCATGCATA CCGCGGGGGGTGGGGGGATTTGGCGAGGCCTGTTGAGGCGGTAAAGAGGCTGCTGGAGAGGTGGCTGGAGGGTAGGAGGAGGGGTTATGTCCTTACGCTTGTAGCTCTTAGAAGGCTTGAGGAGAGGGGGGAGGAGGCTACTGTAGAGA TAGGGAGGAGGGCCTGAGGATTCTGGAGAGGACGGAGGATAGACTGGGGTGTTACTAGGGATGAGTACACTGTCAACATGGTCTCCAGCGTTCTTCGCGAGCTGGCCGAGAGCGGCCTTGTCGAGATGGTGGACGGCGGGAGGA CGTCAGGTACAGGATAGCGAGGGATGCTGAGGAGGAGTTCCTCTCCAGCTTCGGCCACCTCCTGCAGCTTGTGAGGATGCCGAAGTAGCGTTAAAGCCCTAGGTGCCAGAGGCCGCCGGAGGCTAAGAGGCCGATGAAGGCCTTGAGAG TGCCGCCAAGCTATCCCTGCTGCTCTTTTGGGCTACTCGATCTACTACACTATAACGAGGCGTGCTGTAGAGGAGGGCCTAGGAGAGGGATCCTACCTCCTGGGCGTCTTGATGTCGGGGGCTGAGGAGGCGCCGCTCG GTCAATAGTCCTTGGCTACCTGGCGGACAGGCTACCGCTTACCCCTGGGCCTGTTTGAGGCTGGTCGCTGCAATGGCCTTCACCCCCCTAGAGACCTACCCCATACTGGGGCTGCGTCGCTAGTCTACG CTCATACTCCGCCCTAATGGGCCTCGTCCTGGGTGAGAGCGGGGGGAGCGGCTTCAGGTACAGTGTTATAGCAGCCTTCGGCAGCCTTGGCTGGGCTCTCGGCGGGTTGGCGGGGGGAGCGGCTTACTCCCGCCTGGGGTCACTGGGGC AGTGGCCGCAGCCCTCATGGCCGCCTCATACCTAGTCGCCCTCTCAGCCTCGCCCCCCCGCGGCGGCGCCCAGTGTGGGGGAGACGATAACCGCTCTGAAGGGGGTTCTGCCCCTATTTGCAAGCCTCTCAACCAGCTGGGCGG GGGCTTCTTCTTCGGGGCTGCCAGCATAAGGCTTAGCGAGGCGCTCGAGAGCCCTATCGCCTACGGGCTAGTGCTGACCACCGTCCCCGCACTCCTAGGCTTCCTGGCGAGGCCTGCGGCGGGCAGGCTGGTCGACAAGGCCGGGGCTG AGTGCTTGCGTTGTCCAACGCGGCATACTCCCTTCTCGCCCTAGTTTTCGGCCTGCCCACCAGTCCGGCCCTGCTGGCCCTTGCATGGAGCCTGCCCCTATACCCCTTTAGGGATGCCGCCGCGGCCATCGCAGTTAGCAGCAGGCTTG GAGGCTGCAGGCGACGGCCGCGGGGCTGCTCTCAGCGAGAGCGTCGGCGGCGCTGCAACCCTTGCCCTGGCACTGCTCCTGGATGGGGGGTTTAGGGAGATGATGACGGCTTCAATAGCCCTTATGCTCCTCTCCACCCTACTCC CGCAGACCACTCTACGGCTCCACGCCGAGAGCCCTGTCCCCGGCGTCGCCAAGGCCCGGCACTATGAAGTAGTTCTCGTCCAGCTCGGGGTCTAGGGCTAGCGTGTATATGGGGGTGTCGCCGTAGAGGGATGATATGTACTCGACGCC CTGGACGCTATTATAGAGCCTATAACGACCTTGCTGGCCCCCCTGTCTCTGGCCAGCCTCACGGCCTCCGCCACAGTCTTGCCCGTGGCCAGCATCGGGTCTAGAACGACGGCGGGGCCGTCGAACATGCGGGGTAGCCTGGAGTAGTA TCTATCTTGAGCCTGCCCGGCTCCTCGACCCTCCTGGCTGCTACGAGGGCTATCCTCGCCTCCGGCATCATCGAGGCGAAACCCTCTACCATGGGGAGGCTAGCCCCGAGTATCCCTACGAGGTAGACGGGCCCCGCTGGCGCCAGCTC GCCTTAGCCCCCAGGGGGGTCTCCACCTCCTCCTCCACCCGAGCTCGCCCGCAATGTACACCGCCAGTATGGAGCCCGCTATCCTGACGTACCTCCTAAACTCCGGGAACCCGGTTGTCCGGTCCCTGAGAACCTTGAGGACGTA GCTAGGGGTGTTTCGCCCCCAATAACCCTAACTGCCGCCACCATGGGAACCTCTAGGTAGTGGTTGAGGCTCCGGAGCTTAAGAGGGTTAAACTCCAGGATGGCCACCTGGGTGCCGCCGGGGATTGGACAGTAGGGTTCTAGAGTCCG GAGAGCCCTATCCCGCTACCCCCTCTGCGACCGCTGCCTCGGCAGGCTCTTCGCTAGGCTTGGGAGAGGCTGGAGCAATAGGGAGCGGGGAGAGGCTGTCAAGAGGGTTCTGGTGATGGAGCTTCACAGGAGGGTCCTCGAGGGGGATG GGCGTTGAAAACCCTGGTCTCTGCAGCTCCGAACATAGGGGAGGTGGCAAGGGATGTCGTGGAGCACCTCTCCCCAGGTTCCTACAGGGCGGCCCATGCGCTGTCTGCGGCGGCTGGAGAGTGTTATAGCCTCAGCGGTGG GGGGTACAGGCTGCTAAGGGCTTACGATATCGAGAGGTTCGTAGTCGGGGTCCGGCTAGAGGTGTTGCCATGGCTGAGGAGGAGGTAAAGCTGGCCGCCGGGTACGGCGAGTCCATTAAGGCTGAGATCAGGAGG CAAGCTCCTGGTGAGCCGGGGTGGAGTGACCGTGGACTTCGACAGCCCTGAAGCGACCCTAATGGTGGAGTTCCCCGGGGGCGGGGTTGACATACAGGTCAACAGCCTGCTCTACAAGGCTAGGTACTGGAAGCTTGCCAGGAACATAA GGCATACTGGCCCACGCCAGAGGGGCCGAGGTACTTCAGCGTGGAGCAGGCTCTATGGCCGGTTCTAAAGCTCACTGGGGGGGAGAGGCTGGTTGTACACGCTGCTGGCAGGGAGGATGTAGACGCCAGGATGCTGGGCAGCGGGAGGC GATAGTCGAGGTCAAGTCGCCTAGGCGCAGGAGGATCCCGCTTGAGGAGCTGGAGGCGGCCGCCAACGCCGGCGGGAAGGGGCTGGTTAGGTTCGAGACGGCTGCCAAGCGTGCCGAGGTCGCGCTTTACAAGGAGGAGACTG GGTTAGGAAGGTGTACCGCGCCCTGGTAGCGGTGGAGGGTGGTGTTAGTGAGGTGGATGTTGAAGGGTTGAGGAGGGCTCTCGAGGGCGCGGTTATAATGCAGAGGACGCCCTCCAGGGTCCTCCATAGGAGGCCGGATATACTGAGGA GAGGCTCTACAGCCTAGACTGCAGCCCCCTGGAGGGGGCGCCTCTGATGGAGTGCATATTGGAGGCGGAAGGGGGTCTCTACATCAAGGAGCTGGTCAGCGGTGATGGCGGGAGAACCAGGCCAAGCTTCGCTGAGGTCCTCGGCAGGG TGTGTGTATAGAGCTCGACGTGGTGTGGAGCATGAAGCTCCAGCCGCACCCGGCTAAATTAAGCTGGGCTGAGCAAAATACCGGGGGGAGCGTAGGTTGGTCAAGGCACCTAGAGGCTATAGGAACAGGACTAGGAGGC GAGGAAGCCTGTGAGGGAGAAGGGCAGCATACCCAGGCTCAGCACCTTAGGGAGTACAGGGTGGGCGATAAGGTGGCTATAATCATAAACCCCTCCTTCCCAGACTGGGGCATGCCCCACAGGAGGTTCCACGGGCTGACGGGAA GGTGGGGAAGAGGGGCGAGGCCTACGAGGTAGAGGTCTATCTGGGTAGGAAGACCCTCTTCGTCCCCCCCGTGCACCTCAAACCCCTCAGCACAGCCGCCGAGAGGCGGGGCAGCTAGAGCTGTCCCCACGGTTCCACGCTGG GGGGGTGCTAGTGTTGGAGAGGAGGATCCTAGAGTATAAGGCGGTGCCCTACCAGGTAGCCAAGAAGTATATGTACGAGAGGGTTAGGGCGACATAATATCGATACAGGAGTCGACTTGGGAGTACTTCAGGAAGGTAGTGTTCT CGACCCGGAGGCTGCCTCCGAGCTTGTTGAGGAGATTGTGAAGGAGGGTGTCAGCCGTGAGGCGCGGCGAACATCGCGAGCATATGCCCCAAGACCGAGGGCGAGCTCAGGAGCATTCTCGAGATGGACAGGAGCATAACCTCCGTACA ATGGCTAGCAAACTGTACCCCATAGTTTCCAAATACTGCAAGGACTAGACCCCGCCCCCCTTCAGCCCGGGGATTAACAGTTTAATCTCCGCGTCCCAACCATATTTATGTTGATAGCGGCTGTACGGAGAGTGTTGAGAAGTGTCTAG CCCCGCGACAGGAAGCCCCCCCACCAGGGGAGGCCGCAGCCCCACATCGCCGCCCTTGAGGTGGAGGCTATAGTTCTGGACTACATACCCGAGGGCTACCCGAGAGACCCCCACAGGGAGCACCGCAGTAAGCCCGTCGTTCA CTCGGGGTTAGGAGGCTGCACCTAGTCGACGGTGTCCCCCTCCATGAGGTCGATATACTGGAGCGGGTCACCCTGGCTAGGGAGGTTGTGTATAGCGTCCCCATAGTGGCCCGGCTCCCCGGGGGGGTCGAGAGGAGGGTGAAAAGTGT GTCGCGGTAACATGCCTCCCCGGCCAGGCGCGGGAGGGCGGGGTCAGGGAGATATACTGCTACCCCCTCTCCTACGCCGACCAGGCGACCCTGGAGGCGCTGCAGCAGCTCCTGGGTGAGGGGGACGAGAGGCACAGGTATATACTTGT TCCCCCGACAAGCTCTCCGAGGTGGCCAGAGGTCACGGCCTCTCGGGGAAGATAGTGAGCACGCCCAGAGACCCTATATCCTACCAGGACCTCACCGACGTCGCCAGGGCTACGCTGCCGGACGCTGTGAGGAAGCTGGTCAGGGAGAG GACTTCTTCGTGGAGTTCTTCAACGTGGCCGATAAACATAAGGATACACGCGCTGGAGGCCCTAAAGGGTGTGGGTAAGAAGATGGCTAGGCACCTCCTCCTCGAGAGGCGTAGGTTCACGAGTTTCGAGGAGGTGAA Génome humain 3. 2 milliards de pb 2. 7 milliards de $ (coût en 2000) 100 $ (coût en 2008 ? )

Le génome humain (3ème version) contient actuellement encore 341 « trous » (essentiellement vers les centromères/télomères, régions répétitives) Nature (oct 2004), 431, 931

Contenu des banques de données de séquences en acides nucléiques EMBL/Gen. Bank/DDBJ http: //www. ebi. ac. uk/embl/index. html Octobre 2004 http: //www 3. ebi. ac. uk/Services/DBStats/ Craig Venter Ex: mer des Sargasses 1 milliard pb/semaine

Tous ces sites sont constamment remis à jour ! http: //www. ncbi. nlm. nih. gov/mapview/map_search. cgi http: //www. ncbi. nlm. nih. gov/Genomes/index. html

Bioinformatique - application 3: Analyse de séquence ADN • • • Détection des régions codantes; Recherche de similarité (BLAST) Analyse des sites de restriction (enzymes); Traduction ADN en protéine; Détection de régions de basse complexité; Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc. ; • Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc. ; • Détection de séquences de t. ARN et autres types de ARN (exemples: r. ARN, u. ARN, tm. ARN).

Détection des régions codantes (gènes) • Problème assez facile chez les bactéries; très difficile chez les eucaryotes “supérieurs” (homme, drosophile, etc. ); • Chez l’homme: moins de 5 % du gènome est « codant » (transcrit en m. ARN). • Techniques diverses: recherche de signaux, approches statistiques (biais des codons); similarité avec des séquences connues….

Recherche de « signaux » dans une petite partie du promoteur d’une protéine (apo AII) • Premiers exons • TATA box • GC et CAT box • Région régulatrices

Une séquence ADN de C. elegans) (~25’ 000 bp) …

Approche 1: Genebuilder http: //l 25. itba. mi. cnr. it/~webgene/genebuilder. html

Schéma récapitulatif Genebuilder prédiction 1003 5’ 1 1083 1406 1452 2 1305 3 1661 1914 4 1997 3’ exons 1 2 3 4 ADN génomique Splicing / Epissage « in silico » 1 2 3 4 m. ARN mature

Bioinformatique - application 3: Analyse de séquence ADN • • • Détection des régions codantes; Recherche de similarité (BLAST) Analyse des sites de restriction (enzymes); Traduction ADN en protéine; Détection de régions de basse complexité; Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc. ; • Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc. ; • Détection de séquences de t. ARN et autres types de ARN (exemples: r. ARN, u. ARN, tm. ARN).

Approche 2: Aligner la séquence génomique avec des m. ARNs (BLAST contre ESTs) Qu’est-ce qu’un BLAST ? Outil informatique très efficace, permettant de faire des recherche de similarité à partir d'une séquence (protéine ou nucléique) sur les séquences existantes (banques de données) Qu’est-ce que les ESTs ? “Expressed sequence tags” : c. DNAs (m. ARNs) qui ont été rapidement séquencés, souvent incomplets. -> Très utiles pour connaître les régions génomiques “actives” (transcrites) et la structure des gènes. (~24 mo de séquences “publiques”; 6 mo (homme))

http: //www. ncbi. nlm. nih. gov/BLAST /

Approche 2: Aligner la séquence génomique avec des m. ARNs (BLAST contre ESTs) ? Intron

exons 1 2 3 4 g. DNA Splicing 1 2 3 4 Mature m. ARN (-> EST) EST => c. DNA

1003 1 1083 1305 2 1406 1452 3 1661 1914 4 1997 Séquence codante de notre « gène » (sans les introns = correspondant au m. ARN)

Bioinformatique - application 3: Analyse de séquence ADN • • • Détection des régions codantes; Recherche de similarité (BLASTN) Analyse des sites de restriction (enzymes); Traduction ADN en protéine; Détection de régions de basse complexité; Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc. ; • Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc. ; • Détection de séquences de t. ARN et autres types de ARN (exemples: r. ARN, u. ARN, tm. ARN).

Les 3 phases de lecture…

Traduction avec « traduction multiple » http: //www. infobiogen. fr/services/menuserv. html Met Stop

Recherche de similarité (contre les séquences de protéines déjà connues: BLAST)

Conclusion de l’analyse • La séquence de la protéine est MKVETCVYSGYKIHPGHGKRLVRTDGKVQIFLSGKALKGAKLRRNPRDIR WTVLHRIKNKKGTHGQEQVTRKKTKKSVQVVNRAVAGLSLDAILAKRNQT EDFRRQQREQAAKIAKDANKAVRAAKAAANKEKKASQPKTQQKTAKNVKT AAPRVGGKR • Bonne prédiction par tous les logiciels, bons ESTs • Notre gène inconnu est en fait déjà connu: il code pour une protéine ribosomale de type L 24.

Des cas moins idéaux… Ex: Chromosome 21

Combien de protéines humaines ? Banques de données de séquences de protéines: (Swiss-Prot + Tr. EMBL = Uni. Prot) 11’ 415 + 44’ 860 22’ 000 Estimation du nombre de gènes humains: 20’ 000 -25’ 000 MS proteomics has verified more than 10% of human genes products, but has not identified significant numbers of unpredicted proteins (Southan C, Proteomics, 2004) En cours: « peptide mapping » du génome, R. Aebersold, 21 % protéines humaines « vérifiées » ….

-> ~ 1’ 200’ 000 protéines (estimation) http: //www. expasy. org/sprot/

C’est pas fini…

Bioinformatique- application 4: analyse de la séquence primaire des protéines • Caractérisation physicochimique • Prédiction de la localisation subcellulaire (“signal séquences”, “transit peptides”); • Recherche de régions transmembranaires; • Recherche des régions fonctionnelles (domaines conservés) • Recherche de sites de modifications posttraductionelles (PTM). • Recherche de régions antigéniques; • Recherche de régions dont la composition est biaisée (“low complexity sequences”);

http: //www. expasy. org/

Séquence d’une protéine « inconnue » de C. elegans • • • • • • >seq 4 MSTNNYQTLSQNKADRMGPGGSRRPRNSQHATASTPSASSCKEQQKDVEH EFDIIAYKTTFWRTFFFYALSFGTCGIFRLFLHWFPKRLIQFRGKRCSVE NADLVLVVDNHNRYDICNVYYRNKSGTDHTVVANTDGNLAELDELRWFKY RKLQYTWIDGEWSTPSRAYSHVTPENLASSAPTTGLKADDVALRRTYFGP NVMPVKLSPFYELVYKEVLSPFYIFQAISVTVWYIDDYVWYAALIIVMSL YSVIMTLRQTRSQQRRLQSMVVEHDEVQVIRENGRVLTLDSSEIVPGDVL VIPPQGCMMYCDAVLLNGTCIVNESMLTGESIPITKSAISDDGHEKIFSI DKHGKNIIFNGTKVLQTKYYKGQNVKALVIRTAYSTTKGQLIRAIMYPKP ADFKFFRELMKFIGVLAIVAFFGFMYTSFILFYRGSSIGKIIIRALDLVT IVVPPALPAVMGIGIFYAQRRLRQKSIYCISPTTINTCGAIDVVCFDKTG TLTEDGLDFYALRVVNDAKIGDNIVQIAANDSCQNVVRAIATCHTLSKIN NELHGDPLDVIMFEQTGYSLEEDDSESHESIESIQPILIRPPKDSSLPDC QIVKQFTFSSGLQRQSVIVTEEDSMKAYCKGSPEMIMSLCRPETVPENFH DIVEEYSQHGYRLIAVAEKELVVGSEVQKTPRQSIECDLTLIGLVALENR LKPVTTEVIQKLNEANIRSVMVTGDNLLTALSVARECGIIVPNKSAYLIE HENGVVDRRGRTVLTIREKEDHHTERQPKIVDLTKMTNKDCQFAISGSTF SVVTHEYPDLLDQLVLVCNVFARMAPEQKQLLVEHLQDVGQTVAMCGDGA NDCAALKAAHAGISLSEAEASIAAPFTSKVADIRCVITLISEGRAALVTS YSAFLCMAGYSLTQFISILLLYWIATSYSQMQFLFIDIAIVTNLAFLSSK TRAHKELASTPPPTSILSTASMVSLFGQLAIGGMAQVAVFCLITMQSWFI PFMPTHHDNDEDRKSLQGTAIFYVSLFHYIVLYFVFAAGPPYRASIASNK AFLISMIGVTVTCIAIVVFYVTPIQYFLGCLQMPQEFRFIILAVATVTAV ISIIYDRCVDWISERLREKIRQRRKGA

Bioinformatique- application 4: analyse de la séquence primaire des protéines • Caractérisation physicochimique • Prédiction de la localisation subcellulaire (“signal séquences”, “transit peptides”); • Recherche de régions transmembranaires; • Recherche des régions fonctionnelles (domaines conservés) • Recherche de sites de modifications posttraductionelles (PTM). • Recherche de régions antigéniques; • Recherche de régions dont la composition est biaisée (“low complexity sequences”);

Déterminer les caractéristiques physico -chimiques http: //www. expasy. org/tools/protparam. html

Bioinformatique- application 4: analyse de la séquence primaire des protéines • Caractérisation physicochimique • Prédiction de la localisation subcellulaire (“signal séquences”, “transit peptides”); • Recherche de régions transmembranaires; • Recherche des régions fonctionnelles (domaines conservés) • Recherche de sites de modifications posttraductionelles (PTM). • Recherche de régions antigéniques; • Recherche de régions dont la composition est biaisée (“low complexity sequences”);

Localisation subcellulaire ? PSORT II

Bioinformatique- application 4: analyse de la séquence primaire des protéines • Caractérisation physicochimique • Prédiction de la localisation subcellulaire (“signal séquences”, “transit peptides”); • Recherche de régions transmembranaires (TM); • Recherche des régions fonctionnelles (domaines conservés) • Recherche de sites de modifications posttraductionelles (PTM). • Recherche de régions antigéniques; • Recherche de régions dont la composition est biaisée (“low complexity sequences”);

Résumé des différents résultats obtenus par différents programmes de prédiction de TM HMMTOP 1 in grande boucle 1130 PSORT II 1 1130 TMpred 1 in 1130 TMHMM 1 out 1130

Bioinformatique- application 4: analyse de la séquence primaire des protéines • Caractérisation physicochimique • Prédiction de la localisation subcellulaire (“signal séquences”, “transit peptides”); • Recherche de régions transmembranaires; • Recherche des régions fonctionnelles (domaines conservés) • Recherche de sites de modifications posttraductionelles (PTM). • Recherche de régions antigéniques; • Recherche de régions dont la composition est biaisée (“low complexity sequences”);

http: //www. expasy. org/prosite/

Recherche des régions fonctionnelles Il s’agit probablement d’une ATPase

Bioinformatique- application 4: analyse de la séquence primaire des protéines • Caractérisation physicochimique • Prédiction de la localisation subcellulaire (“signal séquences”, “transit peptides”); • Recherche de régions transmembranaires; • Recherche des régions fonctionnelles (domaines conservés) • Recherche de sites de modifications posttraductionelles (PTM). • Recherche de régions antigéniques; • Recherche de régions dont la composition est biaisée (“low complexity sequences”);

http: //www. cbs. dtu. dk/services/Net. Phos/ Sequence Sequence 484 487 499 501 503 ISPTTINTCGAI CFDKTGTLTED TGTLTEDGL 0. 065 0. 029 0. 077 0. 845 0. 533 . . . *T* Prédiction des sites de phosphorylation (Importance des données expérimentales !)

Sulfatation Glycosylation Sulfinator

Conclucion de l’analyse in silico de notre protéine inconnue Poids moléculaire: 126 k. D; Fonction: ATPase potentielle; Localisation subcellulaire: Membrane plasmique. Transmembranaire (~10 hélices); N terminal: intracellulaire; C terminal: intracellulaire) PTM: Phosphorylée Ça me semble biologique …mais reste à le prouver !

Bioinformatique - application 5: alignement de 2 séquences • Mettre en relation 2 séquences en comparant les acides aminés à chaque position et en tenant compte de leur probabilité de mutation au cours de l’évolution; MY-TAIL--ORIS-RICH#x #### x#x# #### MONTAILLEURESTRICHE (algorithme pour comparer des chants d’oiseaux)

BLAST

BLAST « la pierre angulaire de la bioinformatique »

Bioinformatique - application 6: Alignement multiple Exemples: Clustal W, T-coffee tr|Q 9 N 323 sp|Q 21286|YBF 7_CAEEL sp|Q 9 H 7 F 0|ATY 3_HUMAN sp|Q 9 NQ 11|ATY 1_HUMAN sp|O 74431|ATC 9_SCHPO sp|Q 12697|ATC 9_YEAST LVLVCNVFARMAPEQKQLLVEHLQDVGQTVAMCGDGANDCAALKAAHAGISLSEAEASIA ITAMCDVYARMAPDQKAQLIGALQEIGAKVSMCGDGANDCAALKAAHAGISLSQAEASIA LMLHGTVFARMAPDQKTQLIEALQNVDYFVGMCGDGANDCGALKRAHGGISLSELEASVA VLVQGTVFARMAPEQKTELVCELQKLQYCVGMCGDGANDCGALKAADVGISLSQAEASVV ILLKAQIFARMSPSEKNELVSCFQNLNYCVGFCGDGANDCGALKAADVGISLSEAEASVA ILLNSSIYARMSPDEKHELMIQLQKLDYTVGFCGDGANDCGALKAADVGISLSEAEASVA : : : ***: *. : * *: : ****. *****: .

Alignement multiple et dendogramme Exemple d’un dendrogramme obtenu à partir d’un résultat de CLUSTALW à l’aide du programme « phylodendron » http: //www. es. embnet. org/Doc/phylodendron/treeprint-form. html

Bioinformatique - application 7: phylogénétique • Reconstruction de l’évolution moléculaire des familles de protéines; • Reconstruction de l’évolution des espèces; création d’arbres taxonomique; • Reconstruction de l’évolution des chemins métaboliques.

Computational Challenges from the Tree of Life The biology community has embarked on an enormously ambitious project, the assembly of the Tree of Life -- the phylogeny of all organisms on this planet. This project presents a true computational grand challenge: - current phylogenetic methods can barely handle a few hundred organisms. - yet the Tree of Life has an estimated 10 -100 million organisms. November 8, 17: 15, EPFL INM 202 Bernard Moret University of New Mexico Albuquerque, USA

Bioinformatique - application 8 analyse de la structure secondaire & modélisation des protéines MSTNNYQTLSQNKADRMGPGGSRRPRNSQHATASTPSASSCKEQQKDVEH EFDIIAYKTTFWRTFFFYALSFGTCGIFRLFLHWFPKRLIQFRGKRCSVE NADLVLVVDNHNRYDICNVYYRNKSGTDHTVVANTDGNLAELDELRWFKY RKLQYTWIDGEWSTPSRAYSHVTPENLASSAPTTGLKADDVALRRTYFGP NVMPVKLSPFYELVYKEVLSPFYIFQAISVTVWYIDDYVWYAALIIVMSL YSVIMTLRQTRSQQRRLQSMVVEHDEVQVIRENGRVLTLDSSEIVPGDVL VIPPQGCMMYCDAVLLNGTCIVNESMLTGESIPITKSAISDDGHEKIFSI DKHGKNIIFNGTKVLQTKYYKGQNVKALVIRTAYSTTKGQLIRAIMYPKP ADFKFFRELMKFIGVLAIVAFFGFMYTSFILFYRGSSIGKIIIRALDLVT IVVPPALPAVMGIGIFYAQRRLRQKSIYCISPTTINTCGAIDVVCFDKTG TLTEDGLDFYALRVVNDAKIGDNIVQIAANDSCQNVVRAIATCHTLSKIN NELHGDPLDVIMFEQTGYSLEEDDSESHESIESIQPILIRPPKDSSLPDC Séquence d’une protéine ? Structure d’une protéine

Bioinformatique - application 8 analyse de la structure secondaire & tertiaire des protéines • Détermination de la structure tertiaire à partir de la séquence (“ab-initio”); problème non-résolu ! • Prédiction de la structure secondaire (hélices…) • Modélisation par homologie: prédire la structure d’une nouvelle protéine ressemblant à une dont la structure est déjà connue; en plein développement… • Programme de visualisation pour la structure 3 D • Prédiction de “docking” entre protéines ou entre une protéine et une petite molécule ( « drug design » )

Exemple de données de cristallographie aux rayons X Coordonnées atomiques - données expérimentales CRYST 1 ORIGX 2 ORIGX 3 SCALE 1 SCALE 2 SCALE 3 ATOM ATOM ATOM ATOM ……. 42. 700 41. 700 73. 000 90. 00 104. 60 1. 000000 0. 000000 1. 000000 0. 023419 0. 000000 0. 006100 0. 000000 0. 023981 0. 000000 0. 014156 1 N TRP 5 8. 519 -0. 751 2 CA TRP 5 7. 743 -1. 668 3 C TRP 5 6. 786 -2. 502 4 O TRP 5 6. 422 -2. 085 5 CB TRP 5 6. 997 -0. 917 6 CG TRP 5 5. 784 -0. 209 7 CD 1 TRP 5 5. 681 1. 084 8 CD 2 TRP 5 4. 417 -0. 667 9 NE 1 TRP 5 4. 388 1. 418 10 CE 2 TRP 5 3. 588 0. 375 11 CE 3 TRP 5 3. 837 -1. 877 12 CZ 2 TRP 5 2. 216 0. 208 13 CZ 3 TRP 5 2. 465 -2. 043 14 CH 2 TRP 5 1. 654 -1. 001 90. 00 P 21 0. 00000 10. 738 1. 00 11. 585 1. 00 10. 667 1. 00 9. 607 1. 00 12. 645 1. 00 12. 221 1. 00 11. 797 1. 00 12. 221 1. 00 11. 515 1. 00 11. 797 1. 00 12. 645 1. 00 11. 656 1. 00 12. 504 1. 00 12. 009 1. 00 2 13. 37 13. 42 13. 47 13. 57 13. 34 13. 40 13. 29 13. 34 13. 30 13. 35 13. 39 13. 33 13. 34 12 CA 82 12 CA 83 12 CA 84 12 CA 85 12 CA 86 12 CA 87 12 CA 88 12 CA 89 12 CA 90 12 CA 91 12 CA 92 12 CA 93 12 CA 94 12 CA 95 12 CA 96 12 CA 97 12 CA 98 12 CA 99 12 CA 100 12 CA 101 12 CA 102 http: //www. rcsb. org/pdb/

Programme de visualisation de la structure tridimentionnelle (Chime, Rasmol, PDB viewer…) Interaction entre un facteur de transcription (dimère) et l’ADN

C’est beau…mais y a du boulot !

HIV: exemple d’application de la bioinformatique • 1984: identification du virus; • 1985: séquençage du génome de HIV-1 ; (4 laboratoires dont Montagnier/France et Gallo (USA) (? ? )) • 1985 -1989: caractérisation des protéines; • 1989: structure X-ray de la protéase; • 1990: premiers inhibiteurs modélisés à partir de la structure 3 D de la protéase • Novembre 1995: premier médicament (Invirase) approuvé par la FDA (trithérapie).

Structure 3 D de la protease de HIV

Structure 3 D de la protease de HIV + inhibiteur

Conclusions Extraordinaire potentiel de la bioinformatique… mais ne elle ne remplace(ra) pas les expériences «wet lab» génomiques, protéomiques et autres, ni l’esprit critique humain (contexte biologique) ! La bioinfo fournit des outils performants aux chercheurs… Les données expérimentales des chercheurs permettent d’améliorer les programmes bioinformatiques (prédiction)…

Avant … Après …

Si vous êtes intéressés: CPTIC 288 Explorer les génomes en classe 26 novembre 2004 http: //www. webpalette. ch/dyn/4207. htm Acquérir une vue d'ensemble des potentiels “éducatifs” des bases de données (issues du séquençage du génome humain notamment) http: //tecfa. unige. ch/%7 elombardf/projets/odyssee-genomes/

La taille des génomes (en nombre de bases) Viroide Petit phage (virus infectant une bactérie) Virus du SIDA Virus de l’herpès Mycoplasma genitalium (bactérie parasite) Bactérie Levure du boulanger Drosophile (mouche) Poisson fugu Homme Pin Salamandre Amibe 300 2, 000 10, 000 150, 000 600, 000 1 à 13 millions 180 millions 360 millions 3. 2 milliards 68 milliards 81 milliards 670 milliards