Sistematica Biologica 6 Valutazione di alberi vs Valutazione
Sistematica Biologica 6 Valutazione di alberi vs. Valutazione di tutti gli alberi Quanti alberi esistono? Metodi esaustivi Metodi euristici È possibile esplorarli e valutarli tutti? È possibile trovare il migliore (o i migliori)? È possibile sostenere statisticamente tale ricerca?
Algoritmo di Sankoff È questo l’albero che meglio rispecchia la reale filogenesi del gruppo? Ci sono alberi dal costo totale superiore o inferiore? È misurabile statisticamente la bontà di questo albero?
Maximum Parsimony Tra tutti i possibili alberi trovare l’albero tale che sia minima L( ): L( ) = B N k=1 j=1 wj diff (xk’j , xk’’j) L = “tree length” B = numero dei rami (branches) k’ e k’’ = nodi del ramo k xk’j e xk’’j = elementi della matrice o stati assegnati ai nodi diff (y, z) = funzione specificante il costo della trasformazione dallo stato y allo stato z lungo qualunque ramo.
Maximum Parsimony Tra tutti i possibili alberi trovare l’albero tale che sia minima L( ): B L( ) = N k=1 j=1 wj diff (xk’j , xk’’j) Quanti alberi esistono? È possibile esplorarli e valutarli tutti? È possibile trovare il migliore (o i migliori)? È possibile sostenere statisticamente tale ricerca?
Quanti alberi esistono? A DC B A D C B C A C B D A B C D A C B A C D B A D C B
Quanti alberi esistono? Il taxon n può essere aggiunto in (2 n-3) posizioni. Questo produce un numero di possibili vie per costruire alberi a n taxa, dato dalla formula: 3 5 7 9 11 13 …. (2 n-3)! 2 n-1(n-1)! È quindi possibile calcolare quanti alberi esistono per n taxa, senza conoscerli tutti.
Quanti alberi esistono? Numero di elettroni nell’universo: 1575 × 10 79 (Sir Arthur Eddington: “Mathematical Theory of Relativity”, 1923).
Valutazione di alberi Tra tutti i possibili alberi trovare l’albero tale che sia minima L( ): B L( ) = N k=1 j=1 wj diff (xk’j , xk’’j) Metodi euristici Metodi esaustivi
Metodi esaustivi Numero di elettroni nell’universo: 1575 × 10 79 (Sir Arthur Eddington: “Mathematical Theory of Relativity”, 1923). ……. . OK: con gli elettroni ce la vediamo in seguito!!
Metodi euristici Spazio degli alberi possibili max L( ) min L( ) B L( ) = N k=1 j=1 wj diff (xk’j , xk’’j)
Metodi euristici Spazio degli alberi possibili 3 D > 2 D 1 2 3 4 5 6 …. . . (2 n-3)!! Criterio di valutazione L( ): (2 n-3)!! 1 L( ): 2 3 …. . . min L( )
Metodi euristici Spazio degli alberi possibili Criterio di valutazione L( ): min L( ) si inizia “stimando” un albero (la maggior parte dei metodi (es. per distanza) troverà alberi “in zona”) ed eseguendo quindi piccoli riarrangiamenti locali. . .
Metodi euristici Spazio degli alberi possibili L( ) L( 1) 1 Albero stimato iniziale 1 L( 1)
Metodi euristici Spazio degli alberi possibili Riarrangiamenti locali per individuare nuovi alberi “neighbouring” L( ) L( 2) L( 1) L( 3) 2 1 3 Riarrangiamento locale = nuovo albero 2 L( 2) Riarrangiamento locale = nuovo albero 3 L( 3) L( 2) > L( 1) L( 3) < L( 1) Nuovo minimo locale per L( ) trovato con 3
Metodi euristici Riarrangiamenti locali per individuare nuovi alberi “neighbouring” L( ) Riarrangiamento locale = nuovo albero tale che qualunque nuovo albero x: L( x) L( min) min L( x) > L( min) min L( min) Minimo per L( ) trovato con min
Metodi di riarrangiamento - NNI - Nearest Neighbor Interchange: Ciascuna linea interna (tratteggiata) in un albero ha 4 diramazioni connesse (tra loro “nearest neighbors” a coppie). La linea che porta a "C” è originalmente connessa al suo nearest neighbor che posta ad (A B), e ci sono due possibili “nearest neighbor interchanges” (verde). Questo è il risultato di uno dei possibili NNI tra C e (F G). Metodi euristici
Metodi di riarrangiamento - SPR - Subtree Pruning Regrafting: ciascun ramo dell’albero può essere potato, producendo un sottoalbero. Potando (pruning off) ad esempio (F G), ne risulta una diramazione che può essere riattaccata a qualunque altra linea dell’albero originario. In quest’esempio il subtree è stato riattaccato (regrafted) all’albero originale sulla linea che portava ad A. Metodi euristici
Metodi euristici Metodi di riarrangiamento - TBR - Tree Bisection Reconnection: come nel Subtree Pruning Regrafting, anche in questo metodo l’albero può essere rotto in qualunque punto. E B D C A G F I due sottoalberi risultanti vengono però considerati come senza radice (unrooted), e possono essere ri-connessi in qualunque punto. Ad esempio, nei due sottoalberi ((A B) C) e ((D E) (F G)), la linea che porta ad A è connessa alla linea che porta ad E.
Spazio degli alberi possibili L( ): 1 2 Metodi euristici (2 n-3)!! 3 …. . . Criterio di valutazione L( ): Minimi locali vs. MINIMO minimi locali possono rappresentare delle trappole importanza del punto di partenza
Metodi euristici Spazio degli alberi possibili Criterio di valutazione L( ): 1 2 (2 n-3)!! 3 …. . . Più repliche con diversi punti di partenza (alberi) metodo di costruzione dell’albero di partenza
Metodi euristici Spazio degli alberi possibili Criterio di valutazione L( ): 1 2 (2 n-3)!! 3 …. . . Più repliche con diversi punti di partenza (alberi) metodo di costruzione dell’albero di partenza metodi che tentano di minimizzare L( ) nel processo di costruzione “Sequential addition”; “Star decomposition”
Metodi euristici Spazio degli alberi possibili Criterio di valutazione L( ): 1 2 (2 n-3)!! 3 …. . . I metodi euristici garantiscono di trovare alberi buoni, localmente ottimi, ma non possono garantire di trovare sempre il “global optimum” ovvero l’albero o gli alberi migliori
Metodi esaustivi … o qualcosa di simile L( ): 1 2 (2 n-3)!! 3 …. . . Esiste un metodo per circoscrivere la ricerca ad un limitato numero di alberi e al contempo essere sicuri di aver trovato il “global optimum”?
Qualcosa di simile Branch and Bound Hendy MD & Penny D, 1982. Branch and bound algorithms to determine minimal evolutionary trees. Mathematical Biosciences 60: 133 -142 Si costruisce un albero aggiungendo i taxa uno alla volta in tutti le possibili posizioni Si scartano via intere classi di alberi che “non possono certamente essere corretti”, senza la necessità di esaminarli uno ad uno Il metodo è garantito per trovare l’albero o gli alberi migliori
Ailsa Land Alison Doig A. H. Land A. G. Doig (1960). "An automatic method of solving discrete programming problems". Econometrica. 28 (3). pp. 497– 520. doi: 10. 2307/1910129.
Branch and bound Un esempio non biologico 7 3 5 8 6 9 4 2 1 10 Dati 10 punti di coordinate X e Y trovare il percorso più breve che unisca i punti da 1 a 10.
Branch and bound Un esempio non biologico 7 3 5 8 6 9 4 2 1 10 In un sistema ad n punti, da un qualsiasi punto avremo n-1 possibili scelte; dal successivo n-2 …. In totale esistono n! possibili soluzioni.
Branch and bound Un esempio non biologico 7 3 5 8 6 9 4 Dati 10 punti, avremo quindi 10! soluzioni, cioè 3. 628. 800 soluzioni. Buon Lavoro !!!!! 2 1 10
Branch and bound Un esempio non biologico 7 3 5 8 6 9 4 Tentativi empirici: da 1 a 10 …. Lunghezza = 5. 4342 2 1 10 Possiamo fare di meglio? Avete dei suggerimenti?
Branch and bound Un esempio non biologico 7 3 5 8 6 9 4 2 1 10 Tentativi empirici: “nearest neighboring path” da un punto n qualsiasi, troviamo il punto più vicino, e così via …. Lunghezza del percorso migliore (ve ne sono 10 con media 3. 6974) = 2. 8027 Possiamo fare di meglio? … [effettivamente esiste una soluzione migliore]
Branch and bound Un esempio non biologico 7 7 3 3 5 5 8 6 9 4 4 2 2 1 10 shortest “nearest neighboring path” L = 2. 8027 1 shortest path L = 2. 7812 10
Branch and bound Un esempio non biologico Ricerca esaustiva: 10! soluzioni, cioè 3. 628. 800 (1, 2, 3, 4, 5, 6, 7, 8, 9, 10) (1, 2, 3, 4, 5, 6, 7, 8, 10, 9) (1, 2, 3, 4, 5, 6, 7, 9, 8, 10) (1, 2, 3, 4, 5, 6, 7, 9, 10, 8) (1, 2, 3, 4, 5, 6, 7, 10, 8, 9) (1, 2, 3, 4, 5, 6, 7, 10, 9, 8) …………. (10, 9, 8, 7, 6, 5, 4, 3, 2, 1) Ricerca esaustiva può essere convertita (o riorganizzata) in una albero di ricerca: le soluzioni restano 10! cioè 3. 628. 800 ma con un po’ di ingegno …. . .
Branch and bound Un esempio non biologico si parte da: 1 2 connetti a: 2 3 connetti a: 3 4 5 connetti a: 9 10 10 9 (1, 2, 3, 4, 5, 6, 7, 8, 10, 9) (1, 2, 3, 4, 5, 6, 7, 8, 9, 10) L 10 3 etc. . . 4 5 etc. . . Un albero di ricerca può essere “traversato” (to traverse a tree) esplorativamente. Si giunge ad un nodo terminale (in questo caso, ad esempio 10) e si prende nota dello score.
Branch and bound Un esempio non biologico si parte da: 1 2 connetti a: 2 3 4 etc. . . 3 connetti a: 5 4 etc. . . X [LX] 5 etc. . . Disponendo a questo punto di un valore minimo (al momento Lmin= L 10), si torna al nodo immediatamente superiore e prima di ridiscendere si calcola lo score a quel nodo. Se il valore è inferiore a Lmin si scende lungo un’altra linea a partire da quel nodo. 9 10 9 (1, 2, 3, 4, 5, 6, 7, 8, 10, 9) L 9 (1, 2, 3, 4, 5, 6, 7, 8, 9, 10) L 10 3 10 Se il valore è già superiore a Lmin si abbandona quella linea, si sale ancora al nodo superiore e così via
Branch and bound Nei primi cicli è frequente dover discendere le ramificazioni fino in fondo. Poi aumentano progressivamente i casi in cui un nodo X, anche precoce nell’albero, mostrerà valori Lx maggiori del minimo registrato fino a quel punto. Questo permetterà di evitare l’analisi di tutti i nodi a seguire, cioè di classi intere di nodi terminali. Con il Branch-and-Bound è garantito che il nodo terminale o i nodi terminali con i valori Lmin minimi in assoluto saranno individuati infallibilmente. È evidente il passaggio all’uso nella valutazione di alberi in filogenesi, dove la funzione criterio da minimizzare è L( ): B L( ) = N k=1 j=1 wj diff (xk’j , xk’’j)
Branch and bound Alpha Delta Gamma Beta Epsilon 6 5 4 4 5 2 3 1 Totale cambiamenti evolutivi (Chr 1 -6) = 8 Alpha Delta Gamma Beta Epsilon Steps (Chr 1) = 1 Steps (Chr 2) = 2 Steps (Chr 3) = 1 Steps (Chr 4) = 2 Steps (Chr 5) = 2 Steps (Chr 6) = 1 Totale cambiamenti evolutivi (Chr 1 -6) = 9 2 4 6 5 5 4 2 3 1
Branch and bound B A D D E A A B C E D C C D B B A C C C D E A B B A C B D C C A D B B E A C D A B B E B B C A C B E C A A C E A C D B D C E A B D E C D A B D E B D D B E
Branch and bound A B C D 11 E A B A C B A D 9 E D 7 3 B A B C C C D B E B A D 9 C C A E 9 B C E D B A A 9 C B E A B C A D C C A D B B E A C D A B E A D C A C D B D C E A B D E C D A B D E B D D B E
Branch and bound A B C D 11 E A B A C B A D 9 E D 7 3 B A B C C C D B E B A D 9 C C A E 9 B C E D B A A 9 C B 8 C A D C A B D E E B C A C D A 10 D B 11 E B E A 8 C D A E B 10 B E A D C A C C D A D C B 11 E C D A B D E B D D B E
Branch and bound A B C D 11 E A B A C B A D 9 E D 7 3 B A B C C C D B E B A D 9 C C A E 9 B C E D B A A 9 C B 8 C A D C A B D E E B C A C D A 10 D B 11 E B A E 8 C D A E B 10 B E A D C A C C D A D C B 11 E C D A B D E B D D B E
Branch and bound A B C D 11 E A B A C B A D 9 E D 7 3 B A C C 9 B C D B E B A D 9 C C A E 9 B C E D B A A 9 C B 8 C A D C A B D E E B C A C D A 10 D B 11 E B A E 8 C D A E B 10 B E A D C A C C D A D C B 11 E C D A B D E B D D B E
Branch and bound A B C D 11 E A B A C B A D 9 E D 7 3 B A C C 9 B C D B E B A D 9 C C A E 9 B C E D B A A 9 C B 8 C A D C A B D E E B C A C D A 10 D B 11 E B A E 8 C D A E B 10 B E A D C A C C D A D C B 11 E C D A B D E B D D B E
Stati ancora assenti: Metodi per migliorare la ricerca Se nei taxa ancora da aggiungere agli alberi in costruzione, sono presenti stati non ancora apparsi nei taxa inclusi, è possibile calcolare di quanto aumenterà la lunghezza degli alberi. Caratteri incompatibili: Se nei taxa ancora da aggiungere agli alberi in costruzione, sono presenti caratteri “incompatibili”, è possibile calcolare di quanto aumenterà la lunghezza degli alberi. Taxa “identici” per stati dei caratteri: Se sono presenti taxa con dataset identici è opportuno eliminarli tutti tranne uno. Gruppi sempre monofiletici: Se sono presenti gruppi di taxa che costituiscono un gruppo monofiletico in tutti gli alberi più parsimioniosi, ed è possibile definirli (Zharkikh, 1977), è opportuno ridurre il gruppo ad un dummy taxon (corrispondente all’ancestore del gruppo monofiletico) con gli stati dei caratteri determinati con l’algoritmo di Fitch. Caratteri autapomorfici: Caratteri autapomorfici non sono filogeneticamente informativi e vanno rimossi.
- Slides: 43