Bioinformatik og molekylr evolution En praktisk introduktion til

Bioinformatik og molekylær evolution En praktisk introduktion til brugen af bioinformatik i undervisning M L C G N Y M A M * L V L * C G * MEGA * G * N * * Y * M * * V * A C A * V L V * * * Kursushjemmeside https: //sites. google. com/a/toerringgym. dk/bioinformatik-i-gymnasiet/ Frank Grønlund Jørgensen fg@toerring-gym. dk Tørring Gymnasium

Bioinformatik og molekylær evolution En praktisk introduktion til brugen af bioinformatik i undervisning Dagens program Indledning Alignment af genetiske sekvenser • Generel teori om similaritet, homologi og alignments • Håndlavede alignments og dotplots • Alignments i MEGA Introduktion til programmet MEGA 5 • Alignment Explorer – Byg og manipuler alignments • Databasesøgning - Blast teori og praksis med MEGA • Alignment i MEGA Konstruktion af fylogenetiske træer • UPGMA teori og praksis • Trækonstruktion i MEGA • Kalibrering af molekylært ur i MEGA

”Bioinformatik, tværfagligt forskningsfelt inden for biologien, hvori moderne informationsteknologiske metoder anvendes til analysen af biologiske data. ” Den store danske. “life which is forged not by Darwinian evolution but created by human intelligence” Craig Venter, om syntetisk liv – I foredraget A DNA driven world. Hvad er bioinformatik? ”Bioinformatik handler om at bruge computere til at opnå ny erkendelse indenfor biologiske og medicinske fagområder. ” Bioinformatik-centret, Københavns Universitet. “Bi. RC has a strong emphasis on molecular evolution, molecular population genetics, and statistical and algorithmic approaches to bioinformatics, and our research spans from addressing purely theoretical questions, to program development, applications and empirical collaborations. “ Bi. RC hjemmeside.

Den praktiske forklaring: Fordi det er en relativ let og meget billig måde at lave bioteknologiske øvelser og opgaver i biologi Den didaktiske forklaring: Fordi det giver eleverne mulighed for at arbejde med kernestof på forskellige måder på en naturlig tværfaglig måde. Hvorfor skal vi undervise i bioinformatik i gymnasiet? Den kedelige forklaring: Fordi det nu indgår i læreplanen for Biologi A – eksempler på anvendt bioteknologi, herunder bioinformatik Den bedste forklaring: Fordi bioinformatik er et spændende biologisk forskningsområde der i netop disse år gang på gang præsenterer banebrydende nye opdagelser der har direkte relevans for mennesker og menneskers levevilkår.

Bioinformatik er et stort og bredt forskningsfelt der dækker mange forskellige emner og arbejdsmetoder og vi kan selvfølgelig ikke arbejde med det hele i gymnasiet hvert år. Bioinformatik er en naturlig tværfaglig disciplin der spænder over så forskellige fag som matematik og statistik, fysik, kemi, medicin samt biologi og bioteknologi. Afhængig af emnevalg vil eleverne få brug forskellige kompetencer. Vigtige didaktiske overvejelser før vi går i gang. Meget tilgængeligt undervisningsmateriale er enten engelsksproget eller på, efter min mening, et for højt fagligt niveau. Teori og praksis kan og bør følges naturligt ad i arbejdet med bioinformatik og bioinformatikken kan både bruges som indgang eller overbygning til bioteknologien.

Genetiske sekvenser • Indenfor bioinformatik taler vi ofte om genetiske sekvenser men hvad er det egentlig? • Nukleotidsekvenser (DNA / RNA) – Alfabeter med hver kun 4 forskellige bogstaver • Aminosyresekvenser (Protein) – Alfabet med normalt 20 forskellige bogstaver • Begge type sekvenser kan også indeholder karakterer som ”? ” og ”-” • En genetisk sekvens er blot en ordnet række af karakterer som læses fra venstre mod højre og indeholder altså normalt ikke nogen information om struktur udover den primære struktur og hvad derudaf let kan udledes. Eksempler • Nukleotidsekvenser - første 60 nukleotider fra det splicede m. RNA for menneskets Hæmoglobin Alpha gen (startende fra start kodon) ATGGTGCTGTCTCCTGCCGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCG • Protein sekvenser – Første 20 aminosyrer af koden af det ovenstående gen. MVLSPADKTNVKAAWGKVGA • Oversættelsen fra DNA/RNA til protein er sket ved hjælp af den genetiske kode, et kodon af gangen startende i læseramme 1, med ATG som det første kodon.

Genetiske kode U C A G UUU UUC UUG UUA CUU CUC CUA CUG AUU AUC AUA AUG GUU GUC GUA GUG U Fenylalanin (F) Leucin (L) Leucin (L) Isoleucin (I) Methionin (M) Valin (V) UCU UCC UCA UCG CCU CCC CCA CCG ACU ACC ACA ACG GCU GCC GCA GCG C Serin (S) Prolin (P) Threonin (T) Alanine (A) UAU UAC UAA UAG CAU CAC CAA CAG AAU AAC AAA AAG GAU GAC GAA GAG A Tyrosin (Y) Stopkodon Histidin (H) Glutamin (Q) Asparagin (N) Lysin (K) Asparaginsyre (D) Glutaminsyre (E) UGU UGC UGA UGG CGU CGC CGA CGG AGU AGC AGA AGG GGU GGC GGA GGG G Cystein (C) Stopkodon Tryptofan (W) Arginin (R) Serine (S) Arginin (R) Glycine (G) Den vidste kode er den vi normalt kalder den universelle genetiske kode, men det er værd at bemærke at den ikke er universel! Enkelte organismer har genetiske koder er en smule anderledes.

Similaritet • At to sekvenser har en høj similaritet betyder at de er meget ens men ikke nødvendigvis at de er specielt tæt beslægtede. Eksempel på høj similaritet – Hemoglobin Alfa genet fra ko og menneske. Menneske Ko ATGGTGCTGTCTCCTGCCGACAAGACCAACGTCAAGGCGCCTGGGGTAAGGTCGGCGCG ATGGTGCTGTCTGCCGCCGACAAGGGCAATGTCAAGGCGCCTGGGGCAAGGTCGGCGGC ****** ********* Sekvenserne ovenfor er så ensartede at de er lette at aligne. • Høj similaritet tolkes ofte som bevis for homologi, men pas på! • Nukleotidsekvenser vil oftere have ensartede stykker ved et tilfælde da de kun har fire bogstaver at gøre godt med – dog er længere ens stykker sjældent tilfældige! • Repetitivt DNA er en stor del af mange eukaryote genomer • Proteinsekvenser vil ofte være ens på grund af delvis eller fuldstændig genduplikation førende til paraloge sekvenser – mange domæner går igen i mange forskellige proteiner

Homologi • At to sekvenser er homologe betyder at de to sekvenser stammer fra samme fælles forfader sekvens. • I en alignment repræsenterer kolonner af karakterer det vi forventer er homologe karakterer. 5’ – ATGATGATG - 3’ 5’ – ATGAAGATGATG - 3’ 5’ – ATGATGATGAGG – 3’ Menneske: 5’ – ATGAAGATGATG - 3’ ||||||||||| | Chimpanse: 5’ – ATGATGATGA GG - 3’

Ortologe og paraloge sekvenser • Ortologe sekvenser – To sekvenser er orthologe hvis og kun hvis sekvenserne er direkte efterkommere af den samme oprindelige sekvens i en forfaderorganisme • Paraloge sekvenser – En sekvens er paralog hvis den er en kopi af den ortologe sekvens. • Synteny er ofte bedste hjælp til adskillelse af ortologe og paraloge sekvenser • Efter genduplikationer udvikler det ene gen sig ofte meget hurtigere end det andet. Paraloge Ortologe

Alignment • En alignment af to eller flere genetiske sekvenser illustrerer sekvensernes similaritet • Man kan sagtens aligne ikke homologe sekvenser, men giver det mening? • Målet med alignments er normalt at maksimere ligheden mellem to sekvenser givet en form for scoringssystem. • Når to sekvenser er ca. lige lange og har høj similaritet er det ofte trivielt at lave den parvise alignment der giver højest similaritetsscore med et givent scoringssystem Eksempel Sammenligning Score Identitet 3 Mismatch 0 Åben indel -5 Fortsæt indel -1 Menneske Ko Score ialt = MVLSPADKTNVKAAWGKVGA MVLSAADKGNVKAAWGKVGG 33330333330 51 Menneske Ko Score ialt = MVLSP-ADKT-NVKAAWGKVGAMVLS-AADK-GNVKAAWGKVG-G 3333553333355 36 • Desværre er det ikke altid helt så let! En god måde at lede efter den bedste parvise alignment i hånden er det såkaldte dotplot.

Dotplot parvis alignment Menneske Ko MVLSPADKTNVKAAWGKVGA NVKAAWGKVGGHAAEYGAEA • Ved at opstille de to sekvenser i en matrix som vist herunder og sætte en prik i de felter hvor karakteren i de sekvenser er ens kan man ofte se den bedst mulige alignment. Stykker alignment der har høj similaritet optræder som diagonaler. Sekvens 2 M V L S P N V ∙ K A A W G K V ∙ G G H A A E Y G A E A Sekvens 1 A D K T N V K A A W G K V G A ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ Et dotplot er relativt let at lave i hånden på et stykke ternet papir, men man kan også bruge Excel til at gøre det markant hurtigere. Opgave 1 – Åbn Excelarket Dotplot. Maker. xls og løs den udleverede opgave.

Dotplot parvis alignment - Eksempler A R W G P V G A ∙ ∙ ∙ ∙ ∙ ∙ Menneske MVLSPADKTNVEARWGPVGA Ko MVLSPADEVNTKDAWGPVGA ****** * * ****** Inversion Menneske MVLSPADKTNVEARWGPVGA Ko MVLSPADKTNVEDAWGPVGA ****** Sekvens 1 M V L S P A D K T N V E A P V G A P G E M ∙ V ∙ ∙ ∙ D ∙ K ∙ T ∙ N ∙ V ∙ ∙ ∙ E ∙ ∙ A ∙ ∙ ∙ R W G ∙ ∙ P ∙ ∙ ∙ V ∙ ∙ ∙ G ∙ ∙ A ∙ ∙ ∙ P ∙ ∙ ∙ G ∙ ∙ E ∙ ∙ N ∙ Sekvens 2 Sekvens 1 M V L S P A D K T N V E M ∙ V ∙ ∙ L ∙ S ∙ P ∙ A ∙ D ∙ E ∙ V ∙ ∙ N ∙ T ∙ K ∙ D ∙ A ∙ W G P ∙ V ∙ ∙ G A ∙ Menneske MVLSPADKTNVEA---PVGAPGEKo MV----DKTNVEARWGPVGAPGEN Insertioner eller deletion, i en parvis alignment kan vi Ikke sige hvilken af de to type mutationer der er sket. Transversioner og inversioner kan normalt ikke håndteres Af alignment programmer, derfor er dotplots gode!

Alignmentprogrammer • Der findes et utal af forskellige alignment programmer der benytter mange forskellige teknikker til at finde den bedste alignment. • Alignmentprogrammer kan normalt inddeles i globale og lokale alignmentprogrammer. • Alignment programmer bruger ofte en form for dynamisk algoritme hvor den matematisk bedste alignment given en scoringsmatrice er garanteret. Vi vil ikke gå i detaljer her. I stedet tager vi en praktisk tilgang til problematikken. • Disse programmer kan være langsomme hvis man arbejder med store datamængder som eksempelvis databasesøgning. • BLAST og lignende programmer til databasesøgning garanterer ikke den optimale alignment, men er derimod mange gange hurtigere end normale alignment programmer. I MEGA kan man vælge at bruge 2 forskellige alignment programmer • Clustal – Et klassisk program der har været brugt i stor stil i årtier • Muscle – En viderebygning der har vist sig bedre i nogle situationer Før vi kommer så langt skal vi dog lige have styr på MEGA programmets basale funktioner.

Introduktion til programmet MEGA Til de forskellige øvelser vi vil lave i dag vil vi benytte programmet MEGA 5. Hvis du ikke allerede har downloadet og installeret programmet sig til så jeg kan hjælpe med at få det gjort. MEGA 5 er et imponerende stykke software gratis tilgængeligt til undervisningsbrug under visse betingelser. Programmet er state-of-the-art og bruges i frontforskning verden over. Åbn MEGA 5 - Når programmet er åbnet skulle det gerne se ud som vist herunder

Introduktion til programmet MEGA • Programmet har en lang række avancerede funktioner vi ikke vil tage i brug i dette kursus. • Første ting vi skal lære er at oprette eller indlæse og manipulere med et datasæt • Et datasæt kan bestå af nukleotidsekvenser eller aminosyresekvenser, her vil vi starte med nukleotidsekvenser • Tryk på ”Align” knappen og vælg ”Edit/Build Alignment” • Vi får nu følgende muligheder, vælg ”Create a new alignment” • Nu skal du vælge hvilken type alignment du vil lave, vælg ”DNA”

MEGA 5 - Alignment Explorer • Vinduet der er vist herunder vil nu dukke op – Vælg ”Edit” og følgende muligheder dukker op. • Vælg ”Insert Blank Sequence” • Vinduet vil nu se ud som vist herunder – Indtast en sekvens og skift sekvensnavnet (HC)

MEGA 5 - Alignment Explorer • Herunder er vist et eksempel på hvordan det kunne se ud, jeg har indlæst hele mitokondriet for den amerikanske sort bjørn (Ursus americanus). • Erstat din indtastede sekvens med den jeg har herunder – sekvensen findes på hjemmesiden eller kan findes på Genbank med accessioncode AF 303109. • Som i kan se har de 4 baser forskellige farver. • Da dette er et r. RNA gen koder det ikke for et protein så det giver ikke biologisk mening at oversætte det til protein, men man kan selvfølgelig godt gøre det hvis man vil.

MEGA 5 - Alignment Explorer • • Lad os nu prøve at tilføje en anden sekvens ved at hente den fra Genbank. Dette gøres ved at gå ind under menupunktet ”Web” og vælge ”Query Genbank” Der åbnes nu et specielt browser vindue som ser ud som vist herunder Der er et søgefelt hvor man som sædvanlig vis kan søge i Genbank, men derudover er der en speciel knap øverst med titlen ”Add to Alignment”

MEGA 5 - Alignment Explorer • Prøv at skrive Genbank accession koden ”L 21889” i søgefeltet og tryk enter • Du bør nu få følgende informationer frem på skærmen. Vinduet kan selvfølgelig gøres større og der kan scrolles osv. Læg mærke til at den unikke accession kode vi indtastede giver adgang til 12 S r. RNA genet fra en anden bjørn Ursus arctos (Brun bjørn)

MEGA 5 - Alignment Explorer • • Tryk på knappen ”Add to Alignment” hvorefter du ser følgende vindue åbne op. I Nederste tekstfelt skriver du navnet på denne sekvens, jeg har valgt artsnavnet som før Slut af med at trykke på ”OK” knappen. Nu vises følgende skærmbillede igen. I kan se vi nu har to sekvenser i vores datasæt. Marker og vælg derved den nye sekvens.

MEGA 5 - Alignment Explorer • Det er desværre sjældent så let at vi kender accession nummeret på det gen eller den sekvens vi ønsker at tilføre, i stedet vil vi blot finde homologe sekvenser fra andre arter. Dette kan gøres med programmet BLAST. • Vælg menuen ”Web” og ”Do BLAST search” med den anden sekvens markeret • Følgende vindue dukker nu op – Læg mærke til at sekvensen er overført til søgefeltet

MEGA 5 - Alignment Explorer • Vi bliver nød til lige at ændre en enkelt ting i standardopsætningen for BLAST for at få fornuftige resultater frem, vi skal have ændret databasen den søger i. Standard er ”Human genomic plus transcript (Human G + T)” men da vi leder efter andre bjørne er det åbenlyst ikke den rigtige database. Vælg i stedet ”Reference Genomic Sequences (refseq genomics) som vist herunder, og tryk herefter på den blå BLAST knap.

MEGA 5 - Alignment Explorer • Nu går søgningen i gang og den kan godt tage et par minutter, men nogle gange går det meget hurtigt. Det afhænger af søgesekvensen, databasen og hvor mange andre der bruger databasen i det pågældende øjeblik. Når søgningen er færdigt kommer resultatvinduet og det skulle gerne se ud nogenlunde som vist herunder. • Maksimer vinduet og undersøg resultaterne nærmere

MEGA 5 - Alignment Explorer • Alignments kommer i prioriteret rækkefølge med den sekvens der er mest ens med søgeskevensen øverst og så følger de ellers nedefter. • Jeg har valgt at ændre opsætningen så jeg kun får de 10 bedste hits, normalt er standard 100 hits. • Som man kan se så er det bedste hit i databasen en mitokondriesekvens fra Ursus maritimus (Isbjørn). Tryk på linket til venstre for dette navn (jeres viser noget andet!)

MEGA 5 - Alignment Explorer • Vi ser nu Genbank information for den valgte sekvens, læg mærke til at den sekvens vi får frem er det komplette mitokondriegenom, og altså ikke kun 12 S r. RNA genet. • Vi kan løse det problem på flere måder, men i dag gør vi det ved alignment trinnet om lidt, så lad os bare tilføje hele sekvensen til vores alignment, på samme måde som før. Husk at give sekvensen et fornuftigt navn.

MEGA 5 - Alignment Explorer • Vi har nu 3 sekvenser af forskellige længde, prøv at scrolle igennem alignment og se om det passer. • Vi skal nu have sekvenserne alignet så homologe nukleotider står ovenfor hinanden (det er i hvert fald teorien, i princippet placerer vi dem udfra similaritet og håber det svarer til homologi). • Marker alle 3 sekvenser og vælg menuen ”Alignment” og ”Align by Muscle”. Vælg ”compute” med standard opsætningen.

MEGA 5 - Alignment Explorer • Når alignmenten er udført vil i se et skærmbillede i stil med det der er vist herunder • Som i kan se har programmet indsat en masse ”-” tegn i en eller flere af sekvenserne. • I princippet indikerer de at der enten er sket en deletion i de to sekvenser eller en insertion i den nederste sekvens, men forklaringen her er nok nærmere at vi ikke har sammenlignet hele gener. Vi har sammenlignet et komplet mitokondrie genom, hele eller delvise 12 S r. RNA gener. Lad os slette alle kolonner med ”-”

MEGA 5 - Alignment Explorer • Nu gemmer vi vores data så vi kan arbejde med det. Dette gøres ved at vælge menuen ”Data” og ”Export Data” ”Mega format”. Gem også lige din alignment session for en sikkerhedsskyld. Dette gøres under ”Data” og ”Save Session” (gemmer i MAS format). • Du vil nu blive bedt om at give dine data en titel, undgå danske bogstaver æ, ø, å og mærkelige tegn, hold jer til bogstaver og tal, ellers opfører programmet sig forkert! • Din alignment er nu gemt og du kan lukke alignment Explorer ned.

MEGA 5 – Indlæsning af data og dataanalyse • Nu skal vi indlæse noget data og arbejde med det, vi henter filen ” 12 S r. RNA - 8 bjorne Alignet og cut. meg” filen kan findes på hjemmesiden. • Indlæsningen af data i MEGA foregår som i mange andre software under file menuen, vælg ”Open a File/Session …” • Der er selvfølgelig også muligheden for at vælge en af de senest åbnede filer • Andre væsentlige ting i ”File” menuen er konverteringsværktøjet der kan konvertere eksempelvis FASTA filer downloadet fra Genbank til MEGA format.

MEGA 5 – Indlæsning af data og dataanalyse • Skærmbilledet skulle gerne se ud som vist herunder. • Vi forlader nu programmet og ser lidt på teorien omkring analyse af alignments. • Lad bare programmet være åbnet i baggrunden, vi får brug for det snarligt.

Stamtræer Beskrivelse af slægtskabsforhold mellem arter

90 MYA 60 MYA 30 MYA

Stamtræer – Motivation Pattedyrenes stamtræ kan fortælle os noget om vores ophav Elefant Hyrax Armadillo Sloth Microbat Megabat Hund Kat Pangolin • Flere skriftlige eksamensopgaver er begyndt at inddrage stamtræsanalyser på den ene eller anden måde Tenrec Shrew Hedgehog Ko Gris Egern Kanin Menneske Chimpansen Bushbaby Tree shrew Mus Marsvin

Stamtræer • Stamtræer viser hvor tæt beslægtede forskellige individer/arter/grupper er med hinanden. • Informationen i et stamtræ er i princippet 1 -dimensionelt, idet den ene akse viser slægtskabet og den anden blot adskiller grupperne grafisk. Der findes en lang række grafisk forskellige men indholdsmæssigt ens måder at tegne stamtræer på. Det er ikke alle typer træer der er lige lette at afslæse. • Hvis to grupper er tæt forbundet i stamtræet er de tæt beslægtede og hvis de er langt fra hinanden i træet er de fjernt beslægtet. • Den evolutionære afstand måles i antal forskelle. • Data til bestemmelse af antal forskelle kan være både A morfologisk og genetisk. A B C A B B C C Opgave Prøv at optegne et stamtræ for de fem viste arter som viser hvordan du umiddelbart tror de er beslægtede.

Antal mulige stamtræer • Antal stamtræer vokser ekstremt hurtigt med voksende antal arter der skal sammenlignes • Antal rodede bifurkerende træer = (2 n-3)! / 2 n-2(n-2)! • Antal urodede træer er lig antal rodede træer for n-1 arter. Antal rodede træer Antal taxa Antal urodede træer Antal rodede træer 3 4 5 6 7 8 9. . . 30 1 3 15 105 945 10, 395 135, 135. . . 36 ~3. 58 x 10 3 15 105 945 10, 395 135, 135 2, 027, 025. . . 38 ~2. 04 x 10 A B C B A A B C C A 10000000 100000 1000 10 1 3 5 7 9

Stamtræer • Der findes et væld af forskellige metoder til at bygge stamtræer • Her vil vi blot se på to forskellige typer • Parsimony (urodede træer, intet krav om ur) • UPGMA (rodede træer + molekylært ur) • Men der er mange andre alment anvendte metoder, herunder • Neighbour-joining metoder • Maksimum likelihood • Bayesianske fylogenier • Minimum evolution træer A B C D A E B C D E

Parsimony - Bygger på Ockhams ragekniv princip (lex parsimoniae) Hvis der findes to forklaringer på det samme fænomen er den simpleste at foretrække Fordele • Evaluerer alle mulige træer og finder det der kræver færrest mutationer • Giver i princippet mulighed for at inferere ancestrale sekvenser i et stamtræ • Er hurtigt og intuitivt let forståeligt på små datasæt • Bruger kun informative karakterer Milliard år 260 255 250 Computeren regner færdig og ender med 2. 8 millioner lige sandsynlige topologier. Desværre er der ingen der interesserer sig for resultatet længere. Neutralt • Metoden giver et urodet træ Ulemper • Metoden bygger ikke på nogen evolutionær model, udover princippet om at den simpleste forklaring ofte er den rigtige. • Er blevet bevist at den giver systematisk forkerte fylogenier når der er stor forskel på de evolutionære rater (long branch attraction problem). • Bruger kun informative karakterer • Antal mulige træer vokser ekstremt hurtigt så kan kun bruges på små datasæt hvis man vil tjekke alle træer! Mørke (Solen dør) 20 15 10 5 I dag -5 -10 -15 Aliens finder det interessant! Stjæler computer Elev dør mens han venter. Computeren fortsætter Optimistisk elev starter en udtømmende søgning af trærum med 20 sek. Jorden dannes Big Bang Livet opstår på jorden

Parsimony – Kortfattet teori bag metoden Hvis der findes to forklaringer på det samme fænomen er den simpleste at foretrække • Princippet bag parsimony metoder er meget 1 2 simpelt. Vi ser på en alignment kolonne af Sek 1 A C gangen og vurderer så hvert muligt træ. • Kun informative kolonner bruges i analysen. Sek 2 C C • En kolonne er kun informativ hvis den har Sek 3 G G mindst to forskellige karakterer og mindst to Sek 4 T G karakterer optræder mere end en gang i kolonnen. U/I U I • Med 4 sekvenser har vi 3 urodede træer. Kolonne 5 Kolonne 6 Kolonne 2 3(T) 1(T) 3(G) 1(C) 3(G) 1(A) 2(C) *1 2(C) 1(A) 1(C) * 4(G) 3(G) 4(G) *1 2(A) 2 2 * 4(G) 2(C) *3(G) * 3(T) 2(A) 2 1(A) 4(T) * 4(T) 2(A) * 2 *3(T) 2(G) * 2 1(T) * 3(G) 1(T) 4(T) * 4(T) 2(G) 2 *1 * 4(T) 2(G) 3 G G U 4 A T T T U 5 A A T T I 6 T G G T I 7 A A U Total 1 3 2 1 * 4 * ** 6 * 3* **4 1 2 * 5 *3 4* * * 2

Parsimony – Praktisk analyse i MEGA • Hvis man har et alignet datasæt indlæst i MEGA, kan man hurtigt og let lave et fylogenetisk træ • Åbn datasættet ” 12 S r. RNA - 8 bjorne Alignet og cut. meg”, hvis ikke det allerede er åbent. • Vælg knappen ”Phylogeny” og undermenuen ”Construct/Test Maximum Parsimony Tree(s)” • Følgende muligheder kommer nu frem. Vælg ”Compute” knappen.

Parsimony – Praktisk analyse i MEGA • Vi får nu et urodet fylogenetisk træ, og spørgsmålet er jo så altid om vi på nogen måde kan sætte en rod på træet. • Andre undersøgelser har vist at Pandaen kunne være et godt bud på den af bjørnene der er fjernest beslægtede med de andre og derfor kunne det måske give mening at sætte roden på Panda grenen. • Tryk på knappen ”Place root on branch” og tryk derefter på grenen der går ud til Pandaen.

Parsimony – Praktisk analyse i MEGA Lad os prøve at udforske resultat i lidt større detalje. A. Læg mærke til at i bunden af skærmbilledet står længden på træet antal mutationer krævet. B. Vælg ”Ancestors” og vælg ”Show All” – Prøv at bladre i de forskellige kolonner og se hvordan data ser ud C. Afvælg ”Display only topology” – Hvad skete der? D. Prøv nu at ændre illustrationsmåden så i ser billedet vist i D. E. Prøv at slå gruppen af brun bjørn og isbjørn sammen som vist i E. A D B C E

Parsimony – Praktisk analyse i MEGA • I MEGA indlæses datasættet ”Tigre DNA alignment” • Lav et fylogenetisk træ i MEGA ved hjælp af maksimum parsimony. • Besvar spørgsmål 5. Ny ordning – Vejledende opgaver sæt 2 – opgave 2 – Truede tigre 1. Forklar, hvorfor indavl kan være en trussel for små bestande. 2. Angiv mulige fordele ved at anvende mt. DNA i stedet for kerne-DNA til slægtskabsundersøgelser? 3. Forklar, hvorfor der anvendes to forskellige primere ved opformering af et DNA fragment. 4. Opgør, med udgangspunkt i figur 2, antallet af forskellige basepar mellem sibirisk tiger og de øvrige tigres mt. DNA i det nedenstående skema. 5. Tegn et muligt slægtskabstræ for tigrene, og diskuter det rimelige i at udskille indokinesisk tiger II som en særskilt underart (Malaytiger). 6. Giv forslag til, hvordan de viste resultater kan anvendes.

UPGMA En simpel matematisk algoritme til at lave stamtræer over forskellige arter Fordele • Metoden er simpel at udføre i hånden for mindre datasæt og relativ let at forklare. • Metoden kan bruges både på morfologiske og genetiske data og de kan sågar kombineres • Metoden giver mulighed for at lave molekylær ur beregninger til at datere hændelser • Metoden er implementeret i de fleste software pakker og er hurtig selv på meget store datasæt • Metoden giver ofte ret enslydende resultater i forhold til andre mere avancerede metoder. Neutralt • Metoden giver et rodet træ Ulemper • Metoden er i mange tilfælde for simpel og bygger på en række biologiske antagelser der ikke altid er rimelige • UPGMA har en række klassiske problemer der beviseligt giver forkerte fylogenier hvis der er stor forskel i de forskellige arters udviklingshastighed. • UPGMA antager en konstant udviklingsrate (molekylært ur) og kan derfor ikke adskille hurtigt og langsomt udviklende arter, de vil blive tvunget til at udvikle sig lige hurtigt i denne algoritme.

UPGMA - Flowchart Genetiske sekvenser skal alignes før de kan sammenlignes Udvælg organismer der skal sammenlignes og udvælg karakterer der skal sammenlignes Samlede datasæt kan bestå af både genetiske og morfologiske karakterer Morfologiske karakterer skal udvælges omhyggeligt så man undgår for mange analoge karaktertræk Afstandsmatricen konstrueres. Parvise afstande beregnes UPGMA algoritmen 1. Find organismer der har færrest parvise afstande i afstandsmatricen. Slå dem sammen til første gruppe med halvdelen af afstanden på hver udviklingslinje. 2. Udregn nye afstandsmatricer i forhold til gruppen/grupperne 3. Udvælg par med kortest afstand og grupper disse som i 1. 4. Gentag indtil alle organismer er med i træet.

Teori • De tættest beslægtede arter i det vidste stamtræ er arterne B og C illustreret med rød. • Siden de to arter havde en fælles forfader (illustreret med en * på figuren) har de hver især udviklet sig en lille smule. Ifølge den viste figur har de begge udviklet lige mange forskelle i forhold til stamfaderen, hvilket betyder at den evolutionære rate i dette tilfælde er den samme i de to arter. • Den evolutionære afstand mellem to arter kan beskrives som det samlede antal forskelle mellem dem, og hvis vi antager at den evolutionære rate er den samme kan vi også udregne afstanden hver i sær har i forhold til stamfaderen som samlet antal delt med 2. * A B C D E forskelle Placer dyrene på stamtræet som du tror de fordeler sig.

UPGMA Metoden - Afstandsmatricen • En lang række stamtræs algoritmer baserer sig på en såkaldt afstandsmatrice, der viser de parvise afstande mellem de undersøgte organismer i de undersøgte markører. Egenskab Lægger æg Pingvin X Har pels Bærer unger i pung Mælk Brystvorter med mælk Panda X X X Menneske X X X Næbdyr X Kænguru Pingvin Panda Menneske Næbdyr Kænguru X X X Hale Næb Fjer X X X X Tænder X X Pingvin Panda Menneske Næbdyr Kænguru 0 7 8 4 8 0 1 3 1 0 4 4 0

UPGMA Metoden - Afstandsmatricen • Genetiske karakterer er lige så lette at bruge, og dem vil vi fokusere på her. Nedenstående er et hypotetisk eksempel på en protein alignment af et ukendt gen fra de 5 organismer. Pingvin Panda Menneske Næbdyr Kænguru MALWMRRLPLLKKLALWAPDPAAAFVNWHLCGSHLVEALYL* MLLWMRLLPLLALLALWGPDPALKFVNQHLCEDHDVDDLYD* MLLWMRLLPLLALLALWGPDPALKFVNQHLCDDHDVKDLYD* MLLNKLLLPLLALLALWGPDPALKFVNWHLCGDHLVDWEYL* MLLWMRDLPLLNLLALWGPDPALKFVNKHLCDDHDVDDLYD* Pingvin Panda Menneske Næbdyr Kænguru 0 ? ? ? 0 ? 0

UPGMA Metoden - Afstandsmatricen • Vi kan udregne antallet af forskelle mellem et vilkårligt par som vist herunder. Alt i alt skal vi med N arter lave N*(N-1)/2 parvise forskelle. Pingvin Panda MALWMRRLPLLKKLALWAPDPAAAFVNWHLCGSHLVEALYL* MLLWMRLLPLLALLALWGPDPALKFVNQHLCEDHDVDDLYD* 1 1 11 1 MLLWMRLLPLLALLALWGPDPALKFVNQHLCDDHDVKDLYD* MLLNKLLLPLLALLALWGPDPALKFVNWHLCGDHLVDWEYL* MLLWMRDLPLLNLLALWGPDPALKFVNKHLCDDHDVDDLYD* Menneske Næbdyr Kænguru Pingvin Panda Menneske Næbdyr Kænguru 0 14 ? ? ? 0 ? 0

UPGMA Metoden - Afstandsmatricen • På fuldstændig tilsvarende vis laves nu den næste parvise sammenligning. I dette tilfælde pingvin med menneske, læg mærke til vi blot har ændret den indbyrdes rækkefølge af arterne. Det er stadig den samme alignment. Pingvin MALWMRRLPLLKKLALWAPDPAAAFVNWHLCGSHLVEALYL* Menneske MLLWMRLLPLLALLALWGPDPALKFVNQHLCDDHDVKDLYD* 1 1 11 1 Panda MLLWMRLLPLLALLALWGPDPALKFVNQHLCEDHDVDDLYD* Næbdyr MLLNKLLLPLLALLALWGPDPALKFVNWHLCGDHLVDWEYL* Kænguru MLLWMRDLPLLNLLALWGPDPALKFVNKHLCDDHDVDDLYD* Pingvin Panda Menneske Næbdyr Kænguru 0 14 14 ? ? 0 ? 0

UPGMA Metoden - Afstandsmatricen • I kan lave den 3. sammenligning, pingvin med næbdyr, de andre parvise afstande er allerede lavet og udfyldt i skemaet. Pingvin Næbdyr MALWMRRLPLLKKLALWAPDPAAAFVNWHLCGSHLVEALYL* MLLNKLLLPLLALLALWGPDPALKFVNWHLCGDHLVDWEYL* Menneske Panda Kænguru MLLWMRLLPLLALLALWGPDPALKFVNQHLCDDHDVKDLYD* MLLWMRLLPLLALLALWGPDPALKFVNQHLCEDHDVDDLYD* MLLWMRDLPLLNLLALWGPDPALKFVNKHLCDDHDVDDLYD* Pingvin Panda Menneske Næbdyr Kænguru 0 14 14 ? ? 0 ? 0

UPGMA Metoden - Afstandsmatricen • I kan lave den 3. sammenligning, pingvin med næbdyr, de andre parvise afstande er allerede lavet og udfyldt i skemaet. Pingvin Næbdyr MALWMRRLPLLKKLALWAPDPAAAFVNWHLCGSHLVEALYL* MLLNKLLLPLLALLALWGPDPALKFVNWHLCGDHLVDWEYL* 1 1111 1 1 111 MLLWMRLLPLLALLALWGPDPALKFVNQHLCDDHDVKDLYD* MLLWMRLLPLLALLALWGPDPALKFVNQHLCEDHDVDDLYD* MLLWMRDLPLLNLLALWGPDPALKFVNKHLCDDHDVDDLYD* Menneske Panda Kænguru Pingvin Panda Menneske Næbdyr Kænguru 0 14 14 0 2 9 4 0 10 4 0 11 0

UPGMA Metoden – Konstruktion af stamtræ Pingvin Panda Menneske Næbdyr Kænguru 0 14 14 0 2 9 4 0 10 4 0 11 Menneske Næbdyr Kænguru 0 • Efter vi har lavet vores afstands matrice er vi klar til at konstruere vores UPGMA træ. • Vi udvælger det par af organismer der har den mindste parvise afstand, i dette tilfælde er det menneske-panda med 2 forskelle. • Vi tegner gruppen og laver deres udviklingslinjer lige lange i dette tilfælde 2/2 = 1 forskel i hver udviklingslinje siden deres fælles forfader. • Vi skal nu lave en ny afstandsmatrice hvor menneske og panda er grupperet. Dette gøres for hver af de andre arter ved at man udregner den gennemsnitlige afstand til den nye gruppe. Ex. Menneske/Panda – Pingvin afstand. M/Pa–Pi = (M-Pi + Pa-Pi)/2 M/Pa–Pi = (14 + 14)/2 = 14 Forskelle

UPGMA Metoden – Konstruktion af stamtræ Pingvin Panda/Menneske Næbdyr Kænguru 0 14 14 14 0 9, 5 4 0 11 Panda/Menneske Næbdyr Kænguru 0 • Det er nu let at se at den næste gruppe der skal dannes er gruppen Panda/Menneske/Kænguru da der her kun er 4 forskelle mellem kænguruen og panda/menneske gruppen. • Vi skal nu beregne de parvise afstande fra denne 3 organisme gruppe til de to resterende arter. M/Pa/K–Pi = (M-Pi + Pa-Pi+K-Pi)/3 M/Pa/K–Pi = (14 + 14)/3 = 14 M/Pa/K-N = (M-N + Pa-N + K-N)/3 M/Pa/K-N = (10 + 9 + 11)/3 = 10 Forskelle

UPGMA Metoden – Konstruktion af stamtræ Pingvin Panda/Menneske/Kænguru Næbdyr 0 14 14 0 10 Panda/Menneske/Kænguru Næbdyr 0 • Det er nu let at se at den næste gruppe der skal dannes er gruppen Panda/Menneske/Kænguru/Næbdyr. • Da den gennemsnitlige afstand er 10, må 5 af forskellene være sket på næbdyres udviklingslinje og de sidste 5 være sket på de resterende linjer. • Vi skal nu beregne de parvise afstande fra denne 4 organisme gruppe til de pingvinen M/Pa/K/N–Pi = (M-Pi+Pa-Pi+K-Pi+N-Pi)/4 M/Pa/K/N–Pi = (14 + 14+14)/4 = 14 Vi kan nu endelig danne det endelige træ Forskelle

UPGMA Metoden – Konstruktion af stamtræ Pingvin Panda/Menneske/Kænguru/Næbdyr 0 14 Pingvin Panda/Menneske/Kænguru/Næbdyr 0 Det endelige stamtræ stemmer fint overnes med vores forventninger. De 2 placentale pattedyr er tætbeslægtede, deres nærmeste slægtning er pungdyrene, efterfulgt af kloakdyrene og den fjernest beslægtede gruppe er selvfølgelig fuglene. 7 5 2 2 1 3 1 1 Forskelle

UPGMA Metoden – Det molekylære ur Grenlængder i en fylogeni kan omregnes til tid hvis vi har et kalibreringspunkt fra eksterne kilder som eksempelvis fossiler. Tæt beslægtede arter har få genetiske forskelle mens fjernere beslægtede arter har flere forskelle. Antagelse bag det molekylære ur at den evolutionære rate er konstant over tid og mellem arter. Vi ved i dag at denne antagelse ofte ikke er korrekt. Vi kan teste antagelsen i et givent eksempel med den såkaldte relativ rate test A C B D A+B+C = A+B+D

UPGMA Metoden – Det molekylære ur Vi ved fra fossiler at fugle og pattedyr splittet sker for ca. 287 mio år siden. Og vi kan se at at der er opstået 7 forskelle på disse 287 mio år, det betyder at der er sket en forskel i gennemsnit hvert 41 mio år. Vi kan nu let omregne grenlængerne i træet til en tidskala. Resultatet er ikke specielt overbevisende, men det er også et meget lille datasæt. 7 5 2 2 1 3 1 1 287 246 205 164 123 82 41 Mio år

Stamtræer – Forskellige metoder i MEGA • Indlæs datasættet ”Slaegtskabsanalyse. meg” - Lav en afstandsmatrice og besvar opgave 1. • Prøv at lave fylogenetiske træer med parsimony og UPGMA - Sammenlign træernemed opgavens træ. • Besvar opgave 3 og 4. 2008 – August – Opgave 3 - Slægtskabsanalyser 1. Angiv antallet af forskelle i basepositioner mellem blåhvalen og de øvrige pattedyr i figur 2. Anvend vedlagte bilag. 2. Forklar blåhvalens placering i stamtræet i figur 3. Inddrag figur 2 i dit svar. 3. Vurder ud fra figur 3, om tilpasning til livet i vand er opstået en eller flere gange. Begrund dit svar. 4. Hvilke fordele er der ved at anvende hurtigt muterende introns til at skelne mellem populationer og genet for cytokrom b til at skelne mellem arter? 5. Vurder DNA-sekvensanalysers betydning for moderne slægtskabsanalyser og deres anvendelse til kortlægning af organismers evolution.

Menneskets udvikling – Et studie af mitokondrier • • • Mitokondrier er udelukkende maternelt nedarvet hos primater Ingen rekombination i mitokondrier Haplotyper kan bruges til at inferere historisk tilhørsforhold Hent alignmentfilen ”Menneske mitokondrie genomer. meg” Udfør en fylogenetisk analyse af data og forklar resultater • Hent alignmentfilen ”Primat Mitokondrier. meg” • Udfør en fylogenetisk analyse og kalibrer det molekylære ur med et menneskechimpanse split på 5 mio år. • Hvornår opsplittede mennesket og neadertalernes udviklingslinje?

Tak for i dag – spørgsmål? Frank Grønlund Jørgensen Tørring Gymnasium, Nucleus (+45) 60607862 fg@toerring-gym. dk Forventet udgivelse juni 2012