UNIVERSITATEA POLITEHNICA TIMIOARA MASTER SIIS Sisteme Informatice n

  • Slides: 26
Download presentation
UNIVERSITATEA POLITEHNICA TIMIŞOARA MASTER SIIS Sisteme Informatice în Îngrijirea Sănătății 1

UNIVERSITATEA POLITEHNICA TIMIŞOARA MASTER SIIS Sisteme Informatice în Îngrijirea Sănătății 1

www. medinfo. umft. ro/dim/bioinf ormatica. htm 2

www. medinfo. umft. ro/dim/bioinf ormatica. htm 2

BIOINFORMATICA Prof Dr George I Mihalaş UMF Victor Babeş 3

BIOINFORMATICA Prof Dr George I Mihalaş UMF Victor Babeş 3

CURSUL 12 4

CURSUL 12 4

ANALIZA FILOGENETICA 5

ANALIZA FILOGENETICA 5

Planul cursului 1. Introducere: terminologie, tipuri, aplicaţii 2. Număr de arbori 3. Metode de

Planul cursului 1. Introducere: terminologie, tipuri, aplicaţii 2. Număr de arbori 3. Metode de construcţie: – Metode bazate pe distanţe • • • – Algoritmul UPGMA Ceasul molecular, date ultrametrice Metoda Neighbor Joining Metode bazate pe parsimonie • • Algoritmul lui Fitch Parsimonie ponderată 6

Noţiuni generale (i) 1. Definiţie: ţie un arbore (tree) este un graf aciclic, nedirecţionat

Noţiuni generale (i) 1. Definiţie: ţie un arbore (tree) este un graf aciclic, nedirecţionat 2. Structura unui arbore: arbore – – Frunze (leaves) – obiecte (ex secvenţe de proteine, gene) = noduri exterioare, de grad “ 1”; sunt notate: 1, …, n Noduri (nodes) – intersecţie de ramuri; se numerotează de la n+1 în sus Ramuri – legături între noduri; au deseori o “lungime” calculată după diverse criterii OBS: taxon (pl: taxa) – frunze care reprezintă specii 7

Noţiuni generale (ii) 3. Istoric: Zuckerkandl şi Pauling (1960) 4. Tipuri: – – –

Noţiuni generale (ii) 3. Istoric: Zuckerkandl şi Pauling (1960) 4. Tipuri: – – – Fără rădăcină (unrooted trees) – specifică relaţii Cu rădăcină (rooted trees) – “rădăcina” este ultima ramură de la ultimul nod; se stabileşte o ierarhie (dendrogramă); calea de la rădăcină la un nod reprezintă o cale de evoluţie Topologia arborelui – dacă ramurilor nu le sunt asociate “lungimi” 5. Inferenţă filogenetică – stabilirea unui arbore filogenetic care caracterizează linia evolutivă între specii sau gene 8

Noţiuni generale (iii) 6. Utilitate / motivaţie • a înţelege relaţiile evolutive a speciilor

Noţiuni generale (iii) 6. Utilitate / motivaţie • a înţelege relaţiile evolutive a speciilor • a înţelege cum au evoluat diverse funcţii • informaţii pentru alinierea multiplă • a identifica ce este mai important / conservat in unele clase de secvenţe 9

Ex: Arbore al genelor: Globine 10

Ex: Arbore al genelor: Globine 10

Ex: Arbore al speciilor: Babuinii 11

Ex: Arbore al speciilor: Babuinii 11

Arbori cu şi fără rădăcină 12

Arbori cu şi fără rădăcină 12

Numărul de arbori posibili • Nr. Arbori Fără Rădăcină • Pornim de la arbore

Numărul de arbori posibili • Nr. Arbori Fără Rădăcină • Pornim de la arbore cu 3 frunze și incrementăm Nr. frunze Nr. noduri Nr. ramuri Nr. arbori 3 4 5 … n 4 6 8 … 2 n 2 3 5 7 … 2 n 3 … (2 n 5)!! 3× 5 1 3× 5 × 7 13

Numărul de arbori posibili • Nr. Arbori cu Rădăcină • Pornim de la arbore

Numărul de arbori posibili • Nr. Arbori cu Rădăcină • Pornim de la arbore cu 3 frunze și incrementăm 14

Numărul de arbori posibili 15

Numărul de arbori posibili 15

Date pentru construcţia arborilor 1. Distanţe – măsuri / estimări ale distanţelor între specii

Date pentru construcţia arborilor 1. Distanţe – măsuri / estimări ale distanţelor între specii sau între gene 2. Caractere – aspecte morfologice (ex nr de picioare), secvenţe de ADN sau proteine 3. Ordinea genelor – după ordinea lineară a genelor ortoloage in genomurile date 16

Metode de construcţie a arborilor filogenetici 1. Metoda grupării – bazată pe distanţe –

Metode de construcţie a arborilor filogenetici 1. Metoda grupării – bazată pe distanţe – arborele explică distanţele evolutive estimate 2. Parsimonie – arborele care necesită numărul minim de “schimbări” pentru a explica datele 3. Asemănarea maximă – arborele care maximizează asemănarea datelor (neighbour joining) 17

Comparație metode 18

Comparație metode 18

Abordări bazate pe distanţe Punerea problemei: problemei fiind dată o matrice M a distanţelor

Abordări bazate pe distanţe Punerea problemei: problemei fiind dată o matrice M a distanţelor Mij între taxonii i şi j, de dimensiune n × n (n = nr de taxoni / frunze), să se construiască un arbore cu ramuri ponderate (“edgeweighted tree”) Mij. 19

 • Proprietăţile distanţelor • Date Ultrametrice: – Ipoteza Ceas ului Molecular: se presupune

• Proprietăţile distanţelor • Date Ultrametrice: – Ipoteza Ceas ului Molecular: se presupune că divergenţa secvenţelor apare cu aceeaşi rată în orice punct din arbore – date ultrametrice – Ipoteza nu este în general valabilă – procesul de selecţie variază în diverse perioade de timp, variază cu organismul, genele unui organism sau regiunile unei gene 20

Metoda UPGMA Unweighted Pair Group Method using Arithmetic Averages Ideea de bază: bază -

Metoda UPGMA Unweighted Pair Group Method using Arithmetic Averages Ideea de bază: bază - se compun doi taxoni / clustere, formând un (nou) cluster - se creează un nou nod pentru noul cluster - distanţa între două clustere (distanţa între perechi de taxoni din fiecare cluster): 21

Algoritmul UPGMA - Se consideră fiecare taxon ca un cluster Se defineşte o frunză

Algoritmul UPGMA - Se consideră fiecare taxon ca un cluster Se defineşte o frunză pentru fiecare taxon; se plasează la înălţimea “ 0” pe scara distanţelor Când sunt mai mult de două clustere: - - Se aleg două clustere, i şi j, pentru care distanţa dij este minimă Se defineşte un nou cluster Ck = Ci U Cj Se defineşe un nod k părinte al i şi j; se plasează la înălţimea dij / 2 Se înlocuiesc clusterele i şi j cu k Se calculează distanţa între k şi celelalte clustere Ultimele două clustere i şi j se unesc cu o rădăcină la înălţimea dij / 2 22

Metoda UPMGA Unweighted Pair Group Method with Arithmetic mean 23

Metoda UPMGA Unweighted Pair Group Method with Arithmetic mean 23

Ex. 2 24

Ex. 2 24

Metoda Neighbor Joining Deosebiri faţă de UPGMA: UPGMA - nu aplică ipoteza ceasului molecular

Metoda Neighbor Joining Deosebiri faţă de UPGMA: UPGMA - nu aplică ipoteza ceasului molecular - se creează un arbore fără rădăcină - presupune “aditivitate”: distanţa între perechi de frunze este suma lungimilor ramurilor care le conectează Algoritmul – iterativ, asemănător cu UPGMA, cu unele diferenţe (nu trebuie început cu distanţa minimă, sunt alte formule de calcul). 25

PAUZA 26

PAUZA 26