MODULARIZACE VUKY EVOLUN A EKOLOGICK BIOLOGIE CZ 1
MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ. 1. 07/2. 2. 00/15. 0204 >gi|5835135|ref|NC_001644. 1| Pan paniscus mitochondrion, complete genome GTTTATGTAGCTTACCCCCTTAAAGCAATACACTGAAAATGTTTCGACGGGTTTATATCACCCCATAAACAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCCGTCCCGTGAG TCACCCTCTAAATCACCATGATCAAAAGGAACAAGTATCAAGCACACAGCAATGCAGCTCAAGACGCTTA GCCTAGCCACACCCCCACGGGAGACAGCAGTGATAAACCTTTAGCAATAAACGAAAGTTTAACTAAGCCA TACTAACCTCAGGGTTGGTCAATTTCGTGCTAGCCACCGCGGTCACACGATTAACCCAAGTCAATAGAAA CCGGCGTAAAGAGTGTTTTAGATCACCCCCAATAAAGCTAAAATTCACCTGAGTTGTAAAAAACT CCAGCTGATACAAAATAAACTACGAAAGTGGCTTTAACACATCTGAACACACAATAGCTAAGACCCAAAC TGGGATTAGATACCCCACTATGCTTAGCCCTAAACTTCAACAGTTAAATTAACAAAACTGCTCGCCAGAA CACTACGAGCCACAGCTTAAAACTCAAAGGACCTGGCGGTGCTTCATATCCCTCTAGAGGAGCCTGTTCT GTAATCGATAAACCCCGATCAACCTCACCGCCTCTTGCTCAGCCTATATACCGCCATCTTCAGCAAACCC TGATGAAGGTTACAAAGTAAGCGCAAGTACCCACGTAAAGACGTTAGGTCAAGGTGTAGCCTATGAGGCG GCAAGAAATGGGCTACATTTTCTACCCCAGAAAATTACGATAACCCTTATGAAACCTAAGGGTCGAAGGT GGATTTAGCAGTAAACTAAGAGTGCTTAGTTGAACAGGGCCCTGAAGCGCGTACACACCGCCCGT CACCCTCCTCAAGTATACTTCAAAGGATATTTAACTTAAACCCCTACGCATTTATATAGAGGAGATAAGT CGTAACATGGTAAGTGTACTGGAAAGTGCACTTGGACGAACCAGAGTGTAGCTTAACATAAAGCACCCAA CTTACACTTAGGAGATTTCAACTTGACCACTCTGAGCCAAACCTAGCCCCAAACCCCCTCCACCC TACTACCAAACAACCTTAACCATTTACCCAAATAAAGTATAGGCGATAGAAATTGTAAATCGGCG CAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTACACCCAAGCATAATACAGCAAGGACTAACCCC TGTACCTTTTGCATAATGAATTAACTAGAAATAACTTTGCAAAGAGAACTAAAGCCAAGATCCCCGAAAC CAGACGAGCTACCTAAGAACAGCTAAAAGAGCACACCCGTCTATGTAGCAAAATAGTGGGAAGATTTATA GGTAGAGGCGACAAACCTACCGAGCCTGGTGATAGCTGGTTGTCCAAGATAGAATCTTAGTTCAACTTTA AATTTACCTACAGAACCCTCTAAATCCCCCTGTAAATTTAACTGTTAGTCCAAAGAGGAACAGCTCTTTA GACACTAGGAAAAAACCTTATGAAGAGAGTAAAAAATTTAATGCCCATAGTAGGCCTAAAAGCAGCCACC AATTAAGAAAGCGTTCAAGCTCAACACCCACAACCTCAAAAAATCCCAAGCATACAAGCGAACTCCTTAC GCTCAATTGGACCAATCTATTACCCCATAGAAGAGCTAATGTTAGTATAAGTAACATGAAAACATTCTCC TCCGCATAAGCCTACTACAGACCAAAATATTAAACTGACAATTAACAGCCCAATATCTACAATCAACCAA FYLOGENETICKÁ ANALÝZA I.
Definice základních pojmů fylogenetický strom = fylogenie (phylogeny): s kořenem, bez kořene větve (branches, edges): vnější, vnitřní, centrální uzly (nodes, vertices): vnitřní, terminální (externí) dichotomie, polytomie OTU, HTU topologie dráha linie
Definice základních pojmů linie
Kolik existuje stromů? > Avogadrova konstanta > počet elektronů ve viditelném vesmíru
Jaké typy dat můžeme použít? DATA Diskrétní znaky Distance Imunologie DNA-DNA hybridizace Binární Vícestavové 11010010011 ABCDEF neseřazené ACGTTAGCT seřazené A B C
Typy dat Nukleotidové a proteinové sekvence: H_sapiens MTPMRKINPLMKLINHSFIDLPTPSNISAWWNFGS báze = stav znaku P_troglod ATGACCCCGACACGCAAAATTAACCCACTAATAAA pozice (site) = znak
Typy dat retroelementy: SINE (Alu, B 1, B 2), LINE mikrosatelity, SNP
Problém homologie sekvencí Pozor, ani jednotlivá místa v sekvenci DNA nejsou vzájemně zcela nezávislá!
Práce se sekvencemi DNA databáze: EMBL (European Molecular Biology Laboratory) – European Bioinformatics Institute, Hinxton, UK: http: //www. ebi. ac. uk/embl/ Gen. Bank – NCBI (National Center for Biotechnology Information), Bethesda, Maryland, USA: http: //www. ncbi. nlm. nih. gov/Genbank/ DDBJ (DNA Data Bank of Japan) – National Institute of Genetics, Mishima, Japan: http: //www. ddbj. nig. ac. jp/
Práce se sekvencemi Proteinové databáze: SWISS-PROT – University of Geneve & Swis Institute of Bioinformatics: http: //www. expasy. ch/sprot/ a http: //www. ebi. ac. uk/swissprot/ PIR (Protein Information Resource) – NBRF (National Biomedical Research Foundation, Washington, D. C. , USA) & Tokyo University & JIPID (Japanese International Protein Information Database, Tokyo) & MIPS (Martinsried Institute for Protein Sequences, Martinsried, Germany): http: //www-nbrf. georgetown. edu/ PRF/SEQDB (Protein Resource Foundation) – Ósaka, Japan: http: //www. prf. or. jp/en/os. htm PDB (Protein Data Bank) – University of New Jersey, San Diego & Super-computer Center, University of California & National Institute of Standards and Technology: http: //www. rcsb. org/pdb/
Formáty souborů FASTA: >H_sapiens ATGACCCCAATACGCAAAATTAACCCCCTAATAAAATTAACCACTCATCGACCTCCCCACCC CATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGATCCTCCAAATCACCAC AGGACTATTCCTAGCCATACACTACTCACCAGACGCCTCAACCGCCTTTTCATCAATCGCCCACATCACT CGAGACGTAAATTATGGCTGAATCATCCGCTACCTTCACGCCAATGGCGCCTCAATATTCTTTATCTGCC TCTTCCTACACATCGGGCGAGGCCTATATTACGGATCATTTCTCTACTCAGAAACCTGAAACATCGGCAT. . . >P_troglod ATGACCCCGACACGCAAAATTAACCCACTAATAAAATTAATCACTCATTTATCGACCTCCCCACCC CATCCAACATTTCCGCATGATGGAACTTCGGCTCACTTCTCGGCGCCTAATCCTTCAAATTACCAC AGGATTATTCCTAGCTATACACTACTCACCAGACGCCTCAACCGCCTTCTCGTCGATCGCCCACATCACC CGAGACGTAAACTATGGTTGGATCATCCGCTACCTCCACGCTAACGGCGCCTCAATATTTTTTATCTGCC TCTTCCTACACATCGGCCGAGGTCTATATTACGGCTCATTTCTCTACCTAGAAACCTGAAACATTGGCAT. . . >P_paniscus ATGACCCCAACACGCAAAATCAACCCACTAATAAAATTAATCACTCATTTATCGACCTCCCCACCC CATCCAATATTTCCACATGATGAAACTTCGGCTCACTTCTCGGCGCCTAATCCTTCAAATCACCAC AGGACTATTCCTAGCTATACACTACTCACCAGACGCCTCAACCGCCTTCTCATCGCCCACATTACC CGAGACGTAAACTATGGTTGAATCATCCGCTACCTTCACGCTAACGGCGCCTCAATACTTTTCATCTGCC TCTTCCTACACGTCGAGGCCTATATTACGGCTCATTTCTCTACCTAGAAACCTGAAACATTGGCAT. . .
Formáty souborů Gen. Bank: ORIGIN 1 61 121 181 241 301 361 421 481 541 601 661 721 781 841 901 961 1021 // tgaaatgaag cacccaaagc tagtacattt ttaatcaatg ttatactaat tacagtcata taccatcctc attaaacttg catcaaatgc ctaatcagcc cctactttca tacggtgaag ttagacataa cttaatgcca ccctatgtcc aaaattttac aatattaaca taattttatc atattctctt tggcattcta atgtatatcg atataggcca acatcaaatt aactcttctc cgtgaaacca ggggtagcta gttatcgccc catgaccaac tcaacatagc aatcattagt atgctactca aaccccaaaa tgatcgattc aaaatcatgc agttaatgta cca ctcaagacat attaaactac tacattaaac taaaacaatt aatgctttaa ttccatatga acaacccgcc aactgaaact atacgttccc ataactgtgg cgtcaaggca ccgcaaaacc ataccaaatt acactaagaa tagtagttcc tccgtgaacc gcttaataac caagaagaag ttcttgtgta tattttcccc atcaacataa agacatatct ctatcccctt caccaatgcc ttatcagaca cttaaataag tgtcatgcat tgaaaggaca caatcaccta ttaactctcc cttgaaagac caaaatatga aaaactctaa aaagc gaactactcc cataaattta aagcatataa actgatacaa gtgttatctg ccccatttgg cctcttctcg tctggttctt acatctcgat ttggtatttt gcacacagtc aggctaatta aaacccccca atatattatt ctcatatttt tcacactcta actgaaaatg ccaccaccag catagtacaa gcaagtacat accatgaata acatacacca tctattaatc ctccgggccc acttcagggc ggtatcgggt tttattttgg tagacgcacc ttcatgcttg accccctcct aactatcaaa agtacttgta ttacgcaata cttagatgga
Formáty souborů PHYLIP (“interleaved” format): 6 1120 H_sapiens P_troglod P_paniscus G_gorilla P_pygmaeus H_lar ATGACCCCAA ATGACCCCGA ATGACCCCAA ATGACCCCTA ATGACCCCAA ATGACCCCCC TACGCAAAAT CACGCAAAAT TACGCAAAAC TGCGCAAAAC TAACCCCCTA TAACCCACTA CAACCCACTA TAACCCACTA ATAAAATTAA GCAAAACTAA ATAAAATTAA ATAAAACTAA TTAACCACTC TTAATCACTC TTAACCACTC TCAACCACTC ATTCATCGAC ATTTATCGAC ATTCATTGAC ACTCATCGAC ACTTATCGAC CTCCCCACCC CTCCCTACCC CTCCCCACCC CTTCCAGCCC CATCCAACAT CATCCAATAT CGTCCAACAT CATCAAACAT CATCCAACAT CTCCGCATGA TTCCACATGA CTCTGCATGA TTCTATATGA TGAAACTTCG TGGAACTTCG TGAAACTTTG
Formáty souborů NEXUS (PAUP*, “interleaved”): #NEXUS begin data; dimensions ntax=6 nchar=1120; format datatype=DNA interleave datatype=DNA missing=? gap=-; matrix P_troglod ATGACCCCGACACGCAAAATTAACCCACTAATAAAATTAATCACTC P_paniscus ATGACCCCAACACGCAAAATCAACCCACTAATAAAATTAATCACTC H_sapiens ATGACCCCAATACGCAAAATTAACCCCCTAATAAAATTAACCACTC G_gorilla ATGACCCCTATACGCAAAACTAACCCACTAGCAAAACTAATTAACCACTC P_pygmaeus ATGACCCCAATACGCAAAACCCACTAATAAAATTAACCACTC H_lar ATGACCCCCCTGCGCAAAACTAACCCACTAATAAAACTAATCAACCACTC P_troglod ATTTATCGACCTCCCCATCCAACATTTCCGCATGATGGAACTTCG P_paniscus ATTTATCGACCTCCCCATCCAATATTTCCACATGATGAAACTTCG H_sapiens
Formáty souborů Clustal X: P_troglod P_paniscus H_sapiens G_gorilla P_pygmaeus H_lar ATGACCCCGACACGCAAAATTAACCCACTAATAAAATTAATCACTCATTTATCGAC ATGACCCCAACACGCAAAATCAACCCACTAATAAAATTAATCACTCATTTATCGAC ATGACCCCAATACGCAAAATTAACCCCCTAATAAAATTAACCACTCATCGAC ATGACCCCTATACGCAAAACTAACCCACTAGCAAAACTAATTAACCACTCATTGAC ATGACCCCAATACGCAAAACCCACTAATAAAATTAACCACTCATCGAC ATGACCCCCCTGCGCAAAACTAACCCACTAATAAAACTAATCAACCACTTATCGAC ******* *** ****** *** P_troglod P_paniscus H_sapiens G_gorilla P_pygmaeus H_lar CTCCCCATCCAACATTTCCGCATGATGGAACTTCGGCTCACTTCTCGGCGCCTGC CTCCCCATCCAATATTTCCACATGATGAAACTTCGGCTCACTTCTCGGCGCCTGC CTCCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGC CTCCCTACCCCGTCCAACATCTCCACATGATGAAACTTCGGCTCACTCCTTGGTGCCTGC CTCCCCATCAAACATCTCTGCATGATGGAACTTCGGCTCACTTCTAGGCGCCTGC CTTCCAGCCCCATCCAACATTTCTATATGATGAAACTTTGGTTCACTCCTAGGCGCCTGC ** ** ***** ** ******
BLAST Gen. Bank Clustal. X
Seřazení sekvencí (alignment) Sekvence 1 Sekvence 2 TTGTACGACGG TTGTACGACG TTGT---ACGACGG TTGTACGACG gap penalty Sekvence 1 Sekvence 2 ACTTGTGCTTC ACGTGCTGCTC Path 1 ACTTG-TGCTTC ACGTGCTGCTC Path 2 ACTTGTGCTTC AC--GTGCTGCTC GP = g + hl g - gap penalty h – gap extension penalty l – gap length
Progresivní seřazení - Clustal. X 3 fáze: 1. Seřazení dvojic sekvencí párové distance 2. Konstrukce „guide tree“ (NJ) 3. Seřazení všech sekvencí podle stromu I. II. III.
Problém progresivního seřazení 6 druhů: gorila kůň panda AGGTT AG-TT AGGTT AG-TT tučňák kuře pštros gorila kůň panda tučňák kuře pštros AGGTT AG-TT A-GTT AGGTT A-GTT AGGTT
Rozdělení metod Typy dat algorithms kritérium optimality Metody konstrukce stromů distance znaky • UPGMA • neighborjoining • Fitch. Margoliash • minimum evolution • maximum parsimony • maximum likelihood • Bayesian a.
Jak hodnotit jednotlivé metody? výkonnost (efficiency): jak rychlá je metoda? síla (power): kolik znaků je třeba? konzistence (consistency): vede zvyšující se počet znaků ke správnému stromu? robustnost (robustness): jak metoda funguje při neplatnosti předpokladů? falzifikovatelnost (falsifiability): umožňuje testování platnosti předpokladů?
Maximální úspornost (maximum parsimony, MP) William of Occam (c. 1285 - c. 1349): Occamova břitva I II III A 1 0 1 B 0 0 1 C 1 0 0 D 0 1 0 1 minimální počet kroků = 3 E skutečný počet kroků = 5 2 extra kroky homoplasie 2 kroky 1 krok 2 kroky
Odhad počtu kroků: Fitchův algoritmus 1. arbitrární kořen
Odhad počtu kroků: Fitchův algoritmus 1. arbitrární kořen 2. Shora dolů: w = C, nebo T x = T y = A, nebo T z = T
Odhad počtu kroků: Fitchův algoritmus 1. arbitrární kořen 2. Shora dolů: w = C, nebo T x = T y = A, nebo T z = T 3. Zdola nahoru: z = T, nebo A celková délka = 3
Odhad počtu kroků: Fitchův algoritmus 1. arbitrární kořen 2. Shora dolů: w = C, nebo T x = T y = A, nebo T z = T 3. Zdola nahoru: z = T, nebo A celková délka = 3 DELTRAN ACCTRAN (DELayed TRANsformation) (ACCelerated TRANsformation)
Problém homoplasie: parsimony-informative and non-informative characters (sites) - invariant sites (symplesiomorphies) - singletons (autapomorphies) index konzistence (consistency i. , CI) retenční index (retention i. , RI) upravený CI (rescaled CI, RC) index homoplasie (homoplasy i. , HI) RC = CI RI HI = 1 - CI m = min. no. of possible steps s = min. no. needed for explaining the tree g = max. no. of steps for any tree
Metody parsimonie Fitch parsimony: X Y a Y X neseřazené znaky (A T nebo A G etc. ) Wagner parsimony: X Y a Y X seřazené znaky (1 2 3) Dollo parsimony: X Y a Y X, potom nelze X Y … restriction-site and restriction-fragment data Camin-Sokal p. : X Y, ne Y X … SINE, LINE weighed (transversion) p. “relaxed Dollo criterion” generalized parsimony: cost matrix (step matrix)
Parsimonie a konzistence “správný” “chybný” p>>q ((A, B), (C, D)) ((A, C), (B, D))
Parsimonie a konzistence „Felsensteinova zóna“ Ve Felsensteinově zóně je parsimonie nekonzistentní
Parsimonie a konzistence
Parsimonie a konzistence dlouhé větve „přitažlivost dlouhých větví“ (long-branch attraction, LBA)
Evoluční modely a distanční metody Původní báze Q = A C G T Jukes-Cantor (JC): Báze po substituci A C G -¾ ¼ ¼ ¼ T ¼ ¼ ¼ -¾ stejné frekvence bází stejné frekvence substitucí
Kimura 2 -parameter (K 2 P): transice ≠ transverze Q = Jestliže = , K 2 P = JC
Felsenstein (F 81): různé frekvence bází Q = A A A C C G G T T T Jestliže A = C = G = T, F 81 = JC Hasegawa-Kishino-Yano (HKY): Q = A A A C C C různé frekvence bází transice ≠ transverze G G T T T General time-reversible (GTR, REV): různé frequence bází různé frekvence všech substitucí
Jukes-Cantor (JC) A= C= G= T = nestejné frekvence bází Felsenstein (F 81) A C G T = Felsenstein (F 84) A C G T a=c=d=f=1, b=(1+K/ R), e=(1+K/ Y), kde R= A+ G Y= C+ T 2 typy transicí více než 1 typ substituce Kimura‘s twoparameter (K 2 P) A= C= G= T Hasegawa-Kishino-Yano (HKY) A C G T Tamura-Nei (Tr. N) A C G T Kimura’s threesubstitution-type (K 3 ST) A= C= G= T General-time reversible (GTR) A C G T a, b, c, d, e, f
Heterogenita substitučních rychlostí v různých částech sekvence Gama (Γ) rozdělení: parametr tvaru α diskrétní gama model invariantní pozice GTR+ Γ+I čím je vyšší, tím jsou frekvence substitucí homogennější
Porovnání modelů Který model vybrat? Likelihood ratio test (LRT): nested models LR = 2(ln. L 2 – ln. L 1) Chi-square, p 2 – p 1 d. f. Akaike information criterion (AIC): nonnested models AIC = -2 ln. L + 2 p, where p = number of free parameters better model smaller AIC Bayesian information criterion (BIC): nonested models BIC = -2 ln. L + pln. N, where N = sample size
Porovnání modelů hierarchický LRT – Model. Test (Crandall and Posada)
Porovnání modelů dynamický LRT
Porovnání modelů chyba! Více parametrů více realismu, ale … … také více neurčitosti, protože jsou odhadovány ze stejného množství dat
Distance počítány pro každý pár taxonů, z matice distancí (nebo podobností) konstruován strom distanční metody založeny na předpokladu, že pokud bychom znali skutečné distance mezi všemi studovanými taxony, mohli bychom velmi jednoduše rekonstruovat správnou fylogenii výhoda: velmi rychlé a jednoduché (lze i na kalkulačce)
Distance 10 20 30 sekvence 1: ACCCGTTAAGCTTAACGTACTTGGATCGAT sekvence 2: ACCCGTTAGGCTTAATGTACGTGGATCGAT p-distance: p = k/n = 3/30 = 0. 10 problém saturace:
Distance pro některé modely:
Distance pro některé modely:
Shluková analýza - UPGMA šimpanz (Š) bonobo (B) gorila (G) člověk (Č) orangutan (O) šimp. -0, 0118 0, 0427 0, 0382 0, 0953 bonobo gorila člověk orang. -0, 0416 0, 0327 0, 0916 -0, 0371 0, 0965 -0, 0928 -- 1. Najdi min d(ij) 2. Vypočítej novou matici d(ŠB-k) = [d(B-k)+d(Š-k)]/2 3. Opakuj 1 a 2. ŠB gorila (G) člověk (Č) orangutan (O) ŠB -0, 0422 0, 0355 0, 0935 Š gorila člověk orang. -0, 0371 0, 0965 -0, 0928 -- UPGMA: d[(BŠČ)G] = {d(BG)+d(ŠG)+d(ČG)}/3 WPGMA: d[(BŠČ)G] = {d[(BŠ)G] + d(ČG)}/2 single-linkage complete-linkage B Č G O
UPGMA a konzistence aditivní distance: d. AB + d. CD max (d. AC + d. BD, d. AD + d. BC) tj. vzdálenost mezi 2 taxony je rovna součtu větví, které je spojují ultrametrické distance: d. AC max (d. AB, d. BC) aditivní strom A C ultrametrický strom A B D C B
UPGMA a konzistence
Spojení sousedů (neighbor-joining, NJ) Algoritmická metoda Princip minimální evoluce minimalizuje součet délek větví S Každý pár uzlů adjustován na základě divergence od ostatních Konstrukce jediného aditivního stromu hvězdicový strom nalezení nejbližších sousedů S = 32, 4 přepočítání distancí S = 29, 5 S = 28, 0 opakování postupu …
Nevýhody distančních dat: 1. ztráta části informace během transformace 2. jakmile data transformována na distance, nelze se vrátit zpět (odlišné sekvence mohou dát stejné distance) 3. nelze sledovat evoluci na různých částech sekvence 4. obtížná biologická interpretace délek větví 5. nelze kombinovat různé distanční matice
- Slides: 50