Bienvenue GATTACA Le travail termin le rsultat est

  • Slides: 24
Download presentation
Bienvenue à GATTACA "Le travail terminé, le résultat est apparu au milieu de la

Bienvenue à GATTACA "Le travail terminé, le résultat est apparu au milieu de la nuit, sous les néons du centre informatique de l’Institut Pasteur de Paris. Un long mot de dix mille lettres, A, T, G, C sur un listing d’ordinateur. Merveilleux. L’ennemi s’étalait sur une feuille de papier". Pierre Sonigo. Ni dieu ni gène. Seuil Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Une nécessité Explosion de la quantité de données biologiques http: //www. ddbj. nig. ac.

Une nécessité Explosion de la quantité de données biologiques http: //www. ddbj. nig. ac. jp/statistics-e. html Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Une évolution In vivo Bioinformatique In situ In vitro Stage Marseille / Cannes In

Une évolution In vivo Bioinformatique In situ In vitro Stage Marseille / Cannes In silico Mostafa Kriat 2008

Une évolution Activité Études biologique biochimiques Bioinformatique Séquence protéique Stage Marseille / Cannes Gène

Une évolution Activité Études biologique biochimiques Bioinformatique Séquence protéique Stage Marseille / Cannes Gène GATTACA Mostafa Kriat 2008

Une évolution ANALYSES DE SEQUENCES Activité Études biologique biochimiques Bioinformatique Séquence protéique Stage Marseille

Une évolution ANALYSES DE SEQUENCES Activité Études biologique biochimiques Bioinformatique Séquence protéique Stage Marseille / Cannes Gène GATTACA Mostafa Kriat 2008

Une histoire < 1980 Première banque de séquences protéiques (PIR) Algorithme de comparaison de

Une histoire < 1980 Première banque de séquences protéiques (PIR) Algorithme de comparaison de séquences (Needleman) ~1980 Banques de données (EMBL, GENBANK) Début de la micro-informatique ~1990 Développement de l’Internet et des réseaux Apparition des logiciels d’alignement (FASTA et BLAST) Projets de séquençage de génomes complets ~2000 Séquençage du génome humain (Première ébauche) Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Bioinformatique ? Analyse "in silico" de l'information biologique contenue dans les séquences nucléiques et

Bioinformatique ? Analyse "in silico" de l'information biologique contenue dans les séquences nucléiques et protéiques “Bioinformatics” Ensemble de méthodes et de logiciels qui permettent de gérer, manipuler, traiter et analyser les données biologiques “computational biology” Biologie Informatique Bioinformatique Mathématiques Stage Marseille / Cannes Statistiques Mostafa Kriat 2008

Thèmes et objectifs - Acquérir, stocker, gérer les données >> bases de données -

Thèmes et objectifs - Acquérir, stocker, gérer les données >> bases de données - Développer des outils >> analyse/prédiction/visualisation - Analyser, interpréter, prédire >> fonction du gène/protéine Tenter de répondre aux problèmes posés par la biologie : évolution, fonctionnement, pathologies, thérapies… Gén Transcript Proté Interact Métabol Physi Bioinformatique ome Stage Marseille / Cannes Mostafa Kriat 2008

Banques de données Collections de données (bibliographie, séquences, structures…) organisées à l’aide de bases

Banques de données Collections de données (bibliographie, séquences, structures…) organisées à l’aide de bases de données, interrogeables et distribués (Internet). AATDB, Ace. Db, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, As. Db, BBDB, BCGD, Beanref, Biolmage, Bio. Mag. Res. Bank, BIOMDB, BIND, BLOCKS, Bov. GBASE, BOVMAP, BSORF, BTKbase, CANSITE, Carb. Bank, CARBHYD, CATH, CAZY, CCDC, CD 4 OLbase, CGAP, Chick. GBASE, Colibri, COPE, Cotton. DB, CSNDB, CUTG, Cyano. Base, db. CFC, db. EST, db. STS, DDBJ, DGP, Dicty. Db, Picty_c. DB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC, ECGC, EC 02 DBASE, Eco. Cyc, Eco. Gene, EMBL, EMD db, ENZYME, EPD, Epo. DB, ESTHER, Fly. Base, Fly. View, GCRDB, GENATLAS, GENBANK Gene. Cards, Genline, Gen. Link, GENOTK, Gen. Prot. EC, GIFTS, GPCRDB, GRAP, GRBase, g. RNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2 DPAGE, He. XAdb, HGMD, HIDB, HIDC, Hl. Vdb, Hot. Molec. Base, HOVERGEN, HPDB, HSC-2 DPAGE, ICN, ICTVDB, IL 2 RGbase, IMGT, Kabat, KDNA, Klotho, LGIC, MAD, Maize. Db, MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP 5 Micado, Mito. Dat, MITOMAP, MJDB, Mmt. DB, Mol-R-Us, MPDB, MRR, Mut. Base, Myc. DB, NRSub, 0 lyc. Base, OMIA, OMIM, OPD, ORDB, ORPHANET, OWL, PAHdb, Pat. Base, PDB, PDD, Pfam, Phospho. Base, Pig. BASE, PIR, PKR, PMD, PPDB, PRESAGE, PRINTS, Pro. Dom, Prolysis, PROSITE, PROTOMAP, Pub. Chem, Pub. Med, Rat. MAP, RDP, REBASE, RGP, SBASE, SCOP, Seq. Anai. Ref, SGD, SGP, Sheep. Map, Soybase, SPAD, SRNA db, SRPDB, STACK, Sty. Gene, Sub 2 D, Subti. List, SWISS 2 DPAGE, SWISS-3 DIMAGE, SWISS-MODEL, SWISS-PROT, Taxonomy, Tel. DB, TGN, tm. RDB, TOPS, TRANSFAC, TRR, Uni. Gene, Uniprot, URNADB, V BASE, VDRR, Vector. DB, WDCM, WIT, Worm. Pep, YEPD, YPM, … Multitude de banques généralistes ou spécialisées Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Portails de bioinformatique NCBI : National Center for Biotechnology Information >> BLAST, ORFinder, Genbank,

Portails de bioinformatique NCBI : National Center for Biotechnology Information >> BLAST, ORFinder, Genbank, Tax. Browser, Pub. Med, Pub. Chem, OMIM… EBI : The European Bioinformatics Institute >> EMBL, Clustal. W, Align… EXPASY : Proteomics server : EXpert Protein Analysis System >> Swiss-Prot, Enzyme, Swiss-2 D Page, Tools and software, Prolune… KEGG : Kyoto Encyclopedia of Genes and Genomes >> DDBJ, Genes, Pathway, Ligand… Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Entrez au NCBI Compounds Bio. Assays Substances OMIM Pub. Med Central Journals 3 D

Entrez au NCBI Compounds Bio. Assays Substances OMIM Pub. Med Central Journals 3 D Domains Books Structure Taxonomy CDD/CDART Entrez Protein Genome Uni. STS Homolo. Gene SNP Uni. Gene GEO/GDS Pop. Set Bioinformatique Stage Marseille / Cannes Nucleotide Mostafa Kriat 2008

Comparaison de séquences La comparaison de séquences comme méthode de prédiction Activité principale en

Comparaison de séquences La comparaison de séquences comme méthode de prédiction Activité principale en bioinformatique Alignement : processus de comparaison de séquences permettant d'obtenir le maximum de correspondances entre les lettres qui les composent. Il est quantifié par un score de similarité Similarité : mesure du degré de ressemblance entre séquences, quantifié par un score, calculé à l’aide d’une matrice de score. Homologie : parenté évolutive. Inférence déduite à partir du degré de similitude. Mais deux séquences similaires ne sont pas forcément dérivées d'un ancêtre commun. Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Comparer pour prédire Alignement de séquences Matrice de score Score de similitude nt identiques

Comparer pour prédire Alignement de séquences Matrice de score Score de similitude nt identiques > 70% aa identiques > 25% Degré d’homologie Prédiction propriétés, structure, fonction Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Score et matrice de scores Score d’alignement : Sscores élémentaires - Spénalités Matrice de

Score et matrice de scores Score d’alignement : Sscores élémentaires - Spénalités Matrice de score : table décrivant la probabilité qu’un acide aminé ou un nucléotide soit remplacé par un autre au cours de l'évolution. Les pénalités : attribuées aux brèches qui peuvent résulter d’insertion/délétion. Elles doivent être suffisamment coûteuses pour éviter les alignements sans signification biologique. Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Matrices nucléiques A C G T A 1 0 0 0 A 3 0

Matrices nucléiques A C G T A 1 0 0 0 A 3 0 1 0 C 0 1 0 0 C 0 3 0 1 G 0 0 1 0 G 1 0 3 0 T 0 0 0 1 T 0 1 0 3 Matrice unitaire Bioinformatique Matrice transitiontransversion Stage Marseille / Cannes Mostafa Kriat 2008

Matrice protéique Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Matrice protéique Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Alignement global Alignement de 2 séquences sur la totalité de leur longueur Déterminer le

Alignement global Alignement de 2 séquences sur la totalité de leur longueur Déterminer le degré de similarité de 2 séquences Logiciels : ALIGN, LALIGN, Needle Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Homme = gorille ! # # # # 1: HBB_GORGO 2: HBB_HUMAN Length: 147

Homme = gorille ! # # # # 1: HBB_GORGO 2: HBB_HUMAN Length: 147 Identity: 146/147 (99. 3%) Similarity: 147/147 (100. 0%) Gaps: 0/147 ( 0. 0%) Score: 777. 0 Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Alignement multiple Alignement de plusieurs séquences sur la totalité de leur longueur Rechecher des

Alignement multiple Alignement de plusieurs séquences sur la totalité de leur longueur Rechecher des motifs conservés, prédire une structure, phylogénie Clustal. W, T-Coffee, Phylip Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Homme cousin du gorille ! Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Homme cousin du gorille ! Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Alignement local Alignement sur des segments de séquences Comparer une séquence inconnue avec une

Alignement local Alignement sur des segments de séquences Comparer une séquence inconnue avec une banque de séquences FASTA (Fast Alignment Search Tool) BLAST (Basic Local Alignment Search Tool) Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Mysterious sequence >Mysterious_Sequence CCAGGAAAGCGACTTCACCGCACCTGATGTGTGGTACCCTGGCGGCATGGTGAGCAGAGTGCCCTATCCC AGTCCCACTTGTGTCAAAAGCGAAATGGGCCCCTGGATAGCTACTCCGGACCTTACGGGGACATGC GTTTGGAGACTGCCAGGGACCATGTTTTGCCCATTGACTATTACTTTCCACCCCAGAAGACCTGAT Database: All Gen. Bank+EMBL+DDBJ+PDB sequences (but no EST,

Mysterious sequence >Mysterious_Sequence CCAGGAAAGCGACTTCACCGCACCTGATGTGTGGTACCCTGGCGGCATGGTGAGCAGAGTGCCCTATCCC AGTCCCACTTGTGTCAAAAGCGAAATGGGCCCCTGGATAGCTACTCCGGACCTTACGGGGACATGC GTTTGGAGACTGCCAGGGACCATGTTTTGCCCATTGACTATTACTTTCCACCCCAGAAGACCTGAT Database: All Gen. Bank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, environmental samples or phase 0, 1 or 2 HTGS sequences) 6, 705, 617 sequences; 23, 530, 056, 687 total letters CTGTGGAGATGAAGCTTCTGGGTGTCACTATGGAGCTCTCACATGTGGAAGCTGCAAGGTCTTCTTCAAA AGAGCCGCTGAAGGGAAACAGAAGTACCTGTGCGCCAGCAGAAATGATTGCACTATTGATAAATTCCGAA Bioinformatique Stage Marseille / Cannes Query= Length=350 Mostafa Kriat 2008

Enseignement Les outils bioinformatiques Les banques de données bibliographiques Les banques de données de

Enseignement Les outils bioinformatiques Les banques de données bibliographiques Les banques de données de séquences Les outils d’alignement Analyses simples d’une séquence (SMS) Traduction, recherche d’ORF Calcul Tm, Recherche d’amorces Paramètres physicochimiques d’une protéine Structures secondaires Modélisation tridimensionnelle Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008

Bibliographie Introduction à la bioinformatique C. Gibas, P. Jambeck. O'Reilly Bioinformatics for dummies J.

Bibliographie Introduction à la bioinformatique C. Gibas, P. Jambeck. O'Reilly Bioinformatics for dummies J. M. Claverie, C. Notredame. Wiley Publishing Bioinformatique. Génomique et post-génomique F. Dardel, F. Képès. Editions de l'école polytechnique Travaux dirigés de biochimie, biologie moléculaire et bioinformatique G. Coutouly, E. Klein, E. Barbieri, M. Kriat. Edition Doin Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008