Bienvenue GATTACA Le travail termin le rsultat est
Bienvenue à GATTACA "Le travail terminé, le résultat est apparu au milieu de la nuit, sous les néons du centre informatique de l’Institut Pasteur de Paris. Un long mot de dix mille lettres, A, T, G, C sur un listing d’ordinateur. Merveilleux. L’ennemi s’étalait sur une feuille de papier". Pierre Sonigo. Ni dieu ni gène. Seuil Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008
Une nécessité Explosion de la quantité de données biologiques http: //www. ddbj. nig. ac. jp/statistics-e. html Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008
Une évolution In vivo Bioinformatique In situ In vitro Stage Marseille / Cannes In silico Mostafa Kriat 2008
Une évolution Activité Études biologique biochimiques Bioinformatique Séquence protéique Stage Marseille / Cannes Gène GATTACA Mostafa Kriat 2008
Une évolution ANALYSES DE SEQUENCES Activité Études biologique biochimiques Bioinformatique Séquence protéique Stage Marseille / Cannes Gène GATTACA Mostafa Kriat 2008
Une histoire < 1980 Première banque de séquences protéiques (PIR) Algorithme de comparaison de séquences (Needleman) ~1980 Banques de données (EMBL, GENBANK) Début de la micro-informatique ~1990 Développement de l’Internet et des réseaux Apparition des logiciels d’alignement (FASTA et BLAST) Projets de séquençage de génomes complets ~2000 Séquençage du génome humain (Première ébauche) Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008
Bioinformatique ? Analyse "in silico" de l'information biologique contenue dans les séquences nucléiques et protéiques “Bioinformatics” Ensemble de méthodes et de logiciels qui permettent de gérer, manipuler, traiter et analyser les données biologiques “computational biology” Biologie Informatique Bioinformatique Mathématiques Stage Marseille / Cannes Statistiques Mostafa Kriat 2008
Thèmes et objectifs - Acquérir, stocker, gérer les données >> bases de données - Développer des outils >> analyse/prédiction/visualisation - Analyser, interpréter, prédire >> fonction du gène/protéine Tenter de répondre aux problèmes posés par la biologie : évolution, fonctionnement, pathologies, thérapies… Gén Transcript Proté Interact Métabol Physi Bioinformatique ome Stage Marseille / Cannes Mostafa Kriat 2008
Banques de données Collections de données (bibliographie, séquences, structures…) organisées à l’aide de bases de données, interrogeables et distribués (Internet). AATDB, Ace. Db, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, As. Db, BBDB, BCGD, Beanref, Biolmage, Bio. Mag. Res. Bank, BIOMDB, BIND, BLOCKS, Bov. GBASE, BOVMAP, BSORF, BTKbase, CANSITE, Carb. Bank, CARBHYD, CATH, CAZY, CCDC, CD 4 OLbase, CGAP, Chick. GBASE, Colibri, COPE, Cotton. DB, CSNDB, CUTG, Cyano. Base, db. CFC, db. EST, db. STS, DDBJ, DGP, Dicty. Db, Picty_c. DB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC, ECGC, EC 02 DBASE, Eco. Cyc, Eco. Gene, EMBL, EMD db, ENZYME, EPD, Epo. DB, ESTHER, Fly. Base, Fly. View, GCRDB, GENATLAS, GENBANK Gene. Cards, Genline, Gen. Link, GENOTK, Gen. Prot. EC, GIFTS, GPCRDB, GRAP, GRBase, g. RNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2 DPAGE, He. XAdb, HGMD, HIDB, HIDC, Hl. Vdb, Hot. Molec. Base, HOVERGEN, HPDB, HSC-2 DPAGE, ICN, ICTVDB, IL 2 RGbase, IMGT, Kabat, KDNA, Klotho, LGIC, MAD, Maize. Db, MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP 5 Micado, Mito. Dat, MITOMAP, MJDB, Mmt. DB, Mol-R-Us, MPDB, MRR, Mut. Base, Myc. DB, NRSub, 0 lyc. Base, OMIA, OMIM, OPD, ORDB, ORPHANET, OWL, PAHdb, Pat. Base, PDB, PDD, Pfam, Phospho. Base, Pig. BASE, PIR, PKR, PMD, PPDB, PRESAGE, PRINTS, Pro. Dom, Prolysis, PROSITE, PROTOMAP, Pub. Chem, Pub. Med, Rat. MAP, RDP, REBASE, RGP, SBASE, SCOP, Seq. Anai. Ref, SGD, SGP, Sheep. Map, Soybase, SPAD, SRNA db, SRPDB, STACK, Sty. Gene, Sub 2 D, Subti. List, SWISS 2 DPAGE, SWISS-3 DIMAGE, SWISS-MODEL, SWISS-PROT, Taxonomy, Tel. DB, TGN, tm. RDB, TOPS, TRANSFAC, TRR, Uni. Gene, Uniprot, URNADB, V BASE, VDRR, Vector. DB, WDCM, WIT, Worm. Pep, YEPD, YPM, … Multitude de banques généralistes ou spécialisées Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008
Portails de bioinformatique NCBI : National Center for Biotechnology Information >> BLAST, ORFinder, Genbank, Tax. Browser, Pub. Med, Pub. Chem, OMIM… EBI : The European Bioinformatics Institute >> EMBL, Clustal. W, Align… EXPASY : Proteomics server : EXpert Protein Analysis System >> Swiss-Prot, Enzyme, Swiss-2 D Page, Tools and software, Prolune… KEGG : Kyoto Encyclopedia of Genes and Genomes >> DDBJ, Genes, Pathway, Ligand… Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008
Entrez au NCBI Compounds Bio. Assays Substances OMIM Pub. Med Central Journals 3 D Domains Books Structure Taxonomy CDD/CDART Entrez Protein Genome Uni. STS Homolo. Gene SNP Uni. Gene GEO/GDS Pop. Set Bioinformatique Stage Marseille / Cannes Nucleotide Mostafa Kriat 2008
Comparaison de séquences La comparaison de séquences comme méthode de prédiction Activité principale en bioinformatique Alignement : processus de comparaison de séquences permettant d'obtenir le maximum de correspondances entre les lettres qui les composent. Il est quantifié par un score de similarité Similarité : mesure du degré de ressemblance entre séquences, quantifié par un score, calculé à l’aide d’une matrice de score. Homologie : parenté évolutive. Inférence déduite à partir du degré de similitude. Mais deux séquences similaires ne sont pas forcément dérivées d'un ancêtre commun. Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008
Comparer pour prédire Alignement de séquences Matrice de score Score de similitude nt identiques > 70% aa identiques > 25% Degré d’homologie Prédiction propriétés, structure, fonction Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008
Score et matrice de scores Score d’alignement : Sscores élémentaires - Spénalités Matrice de score : table décrivant la probabilité qu’un acide aminé ou un nucléotide soit remplacé par un autre au cours de l'évolution. Les pénalités : attribuées aux brèches qui peuvent résulter d’insertion/délétion. Elles doivent être suffisamment coûteuses pour éviter les alignements sans signification biologique. Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008
Matrices nucléiques A C G T A 1 0 0 0 A 3 0 1 0 C 0 1 0 0 C 0 3 0 1 G 0 0 1 0 G 1 0 3 0 T 0 0 0 1 T 0 1 0 3 Matrice unitaire Bioinformatique Matrice transitiontransversion Stage Marseille / Cannes Mostafa Kriat 2008
Matrice protéique Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008
Alignement global Alignement de 2 séquences sur la totalité de leur longueur Déterminer le degré de similarité de 2 séquences Logiciels : ALIGN, LALIGN, Needle Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008
Homme = gorille ! # # # # 1: HBB_GORGO 2: HBB_HUMAN Length: 147 Identity: 146/147 (99. 3%) Similarity: 147/147 (100. 0%) Gaps: 0/147 ( 0. 0%) Score: 777. 0 Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008
Alignement multiple Alignement de plusieurs séquences sur la totalité de leur longueur Rechecher des motifs conservés, prédire une structure, phylogénie Clustal. W, T-Coffee, Phylip Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008
Homme cousin du gorille ! Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008
Alignement local Alignement sur des segments de séquences Comparer une séquence inconnue avec une banque de séquences FASTA (Fast Alignment Search Tool) BLAST (Basic Local Alignment Search Tool) Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008
Mysterious sequence >Mysterious_Sequence CCAGGAAAGCGACTTCACCGCACCTGATGTGTGGTACCCTGGCGGCATGGTGAGCAGAGTGCCCTATCCC AGTCCCACTTGTGTCAAAAGCGAAATGGGCCCCTGGATAGCTACTCCGGACCTTACGGGGACATGC GTTTGGAGACTGCCAGGGACCATGTTTTGCCCATTGACTATTACTTTCCACCCCAGAAGACCTGAT Database: All Gen. Bank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, environmental samples or phase 0, 1 or 2 HTGS sequences) 6, 705, 617 sequences; 23, 530, 056, 687 total letters CTGTGGAGATGAAGCTTCTGGGTGTCACTATGGAGCTCTCACATGTGGAAGCTGCAAGGTCTTCTTCAAA AGAGCCGCTGAAGGGAAACAGAAGTACCTGTGCGCCAGCAGAAATGATTGCACTATTGATAAATTCCGAA Bioinformatique Stage Marseille / Cannes Query= Length=350 Mostafa Kriat 2008
Enseignement Les outils bioinformatiques Les banques de données bibliographiques Les banques de données de séquences Les outils d’alignement Analyses simples d’une séquence (SMS) Traduction, recherche d’ORF Calcul Tm, Recherche d’amorces Paramètres physicochimiques d’une protéine Structures secondaires Modélisation tridimensionnelle Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008
Bibliographie Introduction à la bioinformatique C. Gibas, P. Jambeck. O'Reilly Bioinformatics for dummies J. M. Claverie, C. Notredame. Wiley Publishing Bioinformatique. Génomique et post-génomique F. Dardel, F. Képès. Editions de l'école polytechnique Travaux dirigés de biochimie, biologie moléculaire et bioinformatique G. Coutouly, E. Klein, E. Barbieri, M. Kriat. Edition Doin Bioinformatique Stage Marseille / Cannes Mostafa Kriat 2008
- Slides: 24