UNIVERSITA DI MILANOBICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso

UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 3 Mappe genetiche

Alfabeti, parole, linguaggi Alfabeto = insieme finito S di elementi detti lettere, caratteri o simboli Esempi S = {0, 1} Alfabeto binario S = {a, b, c, . . . , v, z} Alfabeto italiano S = {A, C, G, T} Alfabeto del DNA S = {GLY, ALA, VAL, LEU, …} Alfabeto delle proteine 2

Alfabeti, parole, linguaggi Parola, stringa o sequenza su S = lista ordinata di simboli di S scritti consecutivamente da sinistra a destra Formalmente: Una stringa w = a 1 a 2…an è una funzione w: {1, 2, …, n} S con: Ø w(i) = ai carattere i-esimo di w Ø n lunghezza di w (denotata anche con |w|) ESEMPIO: w = AATGCA Parola vuota e |w| = 6 |e| = 0 L’insieme delle parole su S viene indicato con S* (chiusura di S) 3

Alfabeti, parole, linguaggi Sottosequenza di w = sequenza ottenuta per cancellazione di uno o più caratteri di w Esempio w = AATGCATTCGCT Supersequenza di w’ w’= A TG AT CG T Sottosequenza di w 4

Alfabeti, parole, linguaggi Sottostringa di w = stringa formata da caratteri consecutivi di w Esempio w = AATGCATTCGCT Superstringa di w’ w’= Sottostringa di w TGCATTC Una sottostringa di w è anche sottosequenza di w (ma non vale il viceversa) 5

Alfabeti, parole, linguaggi Concatenazione di w e v, w v = stringa formata dai caratteri di w, seguiti da quelli di v Esempio v = AATGC w = ATTCGCT vw = AATGCATTCGCT 6

Alfabeti, parole, linguaggi Prefisso di w = stringa v tale che w = vt per qualche t S* Esempio w=AATGCATTCGCT Suffisso di w = stringa t tale che w = vt per qualche v S* Esempio w=AATGCATTCGCT 7

Gene hunting Ricerca del gene responsabile di un particolare evento (in genere malattia) Esempio 4 Malattia: fibrosi cistica (frequenza 1/2500) 4 Causa: gene alterato presente con frequenza 1/25 (se ereditato da ambedue i genitori causa la malattia) 4 Scoperte: 4 primi anni ‘ 80: inizia la ricerca del gene responsabile della FC (per diagnosi prenatale e cura) 4 1985: viene individuato il cromosoma 7 su cui risiede il gene 4 1989: il gene viene localizzato sul cromosoma 7 (la proteina corrispondente comprende 1480 aminoacidi) 8

Mappaggio genetico Posizionamento approssimato di un gene su un particolare cromosoma (prima fase del gene hunting) Idea generale: analizzare la frequenza di diverse combinazioni di fenotipi nella discendenza per determinare l’ordine dei geni Prima mappa genetica: sei geni della Drosophila Melanogaster (Sturtevant, 1913) 9

Mappaggio genetico: un esempio Organismo modello semplice (unico cromosoma) 4 Numero di geni: 3 (colore di occhi, pelle, capelli) 4 Ogni gene può essere nello stato NB: per la stessa posizione di 4 R: fenotipo rosso 4 V: fenotipo verde ricombinazione, l’insieme degli stati poteva anche essere (p 1, m 2, m 3) 4 Dati un individuo madre (m 1, m 2, m 3) e un individuo padre (p 1, p 2, p 3), con mi e pi stati dei geni, un figlio è un individuo con insieme degli stati fornito da una particolare posizione di ricombinazione i compresa tra 0 e 3 (ad esempio (m 1, p 2, p 3) per i=1) 4 Ogni coppia di individui può dare luogo a 8 ricombinazioni diverse 4 La probabilità di ricombinazione alla posizione i è pari a 1/4 10

Mappaggio genetico: un esempio Gen 1 Gen 2 abc def abc aef abc def dbc def Dati i fenotipi di un grande numero di figli di un genitore tutto rosso e uno tutto verde, si vuol trovare l’ordine dei geni 11

Mappaggio genetico: un esempio Le diverse possibilità di ricombinazione tra un individuo (R, R, R) e uno (V, V, V) sono: ü per i=0: (V, V, V) o (R, R, R) ü per i=1: (R, V, V) o (V, R, R) ü per i=2: (R, R, V) o (V, V, R) ü NB: per i=3: (R, R, R) o (V, V, Mappe genetiche) - Probabilità di avere caratteri diversi per i geni in posizione 1 e 2: 1/4 - Probabilità di avere caratteri diversi per i geni in posizione 2 e 3: 1/4 - Probabilità di avere caratteri diversi per i geni in posizione 1 e 3: 1/2 12

Mappaggio genetico: un esempio Generalizzando si ottiene 4 Numero di geni: n 4 Ogni gene può essere nello stato 4 R: fenotipo rosso 4 V: fenotipo verde 4 Dati un individuo madre (m 1, m 2, …, mn) e un individuo padre (p 1, p 2, …, pn), con mi e pi stati dei geni, un figlio è un individuo con insieme degli stati fornito da una particolare posizione di ricombinazione i compresa tra 0 e n ((m 1, …, mi, pi+1, …, pn) o (p 1, …, pi, mi+1, …, mn)) 4 Ogni coppia di individui può dare luogo a 2(n+1) ricombinazioni diverse 4 La probabilità di ricombinazione alla posizione i (probabilità di avere diversi i caratteri per i geni nelle posizioni i e i+1) è pari a 1/(n+1) 4 La probabilità di avere diversi i caratteri per i geni non consecutivi è pari a d/(n+1) con d distanza tra i caratteri 13

Mappaggio genetico: un esempio INPUT: INPUT un elevato numero di figli di un individuo tutto rosso (R, R, …, R) e di uno tutto verde (V, V, …, V) OUTPUT: OUTPUT ordine (g 1, g 2, …, gn) dei geni nell’organismo modello Misurando la frequenza dei caratteri diversi nella popolazione dei figli, si risale alla stima delle distanze tra i geni gi e quindi al loro ordine sul cromosoma 14

Mappaggio fisico del DNA ü Mappa fisica : = localizzazione di marcatori lungo la sequenza del DNA ü Tecnica: RFLP (Restriction Fragments Length Polymorphism) Ø Esempio: Siti di restrizione § 1970: Hamilton Smith scopre che Hind. II taglia il DNA in corrispondenza di GTGCAC o GTTAAC n Il DNA umano è tagliato in circa un milione di frammenti n Mutazioni interne al sito di restrizione impediscono il taglio § 1973: Danna et al. costruiscono la prima mappa di restrizione per il DNA del Simian Virus 40 15

Mappaggio fisico del DNA Il mappaggio fisico del DNA consiste nel 4 creare alcune copie del DNA da mappare 4 frammentare con enzimi di restrizione 4 confrontare i frammenti e le loro sovrapposizioni ê Generazione di fingerprints per analisi dei siti di restrizione ê Misura della lunghezza dei frammenti 4 ibridazione ê Ricerca di piccole sequenze che legano i frammenti 4 16

Analisi dei siti di restrizione Enzima A Enzima B Enzima A+B 3 8 5 4 3 6 1 5 10 11 2 6 7 3 7 17

Problema della doppia digestione (DDP) INPUT: INPUT tre multinsiemi di numeri interi: A = {a 1, a 2, …, an} B = {b 1, b 2, …, bm} O = {o 1, o 2, …, ok}Il problema DDP è NP-completo (Goldstein e Waterman, 87) OUTPUT: OUTPUT due permutazioni di A e B, p. A e p. B, tali che, riportando su una retta gli elementi di A in segmenti consecutivi e ordinati secondo p. A e gli elementi di B in segmenti consecutivi e ordinati secondo p. B, si ottenga una suddivisione in segmenti corrispondenti agli elementi di O 18

Problema della doppia digestione (DDP) Esempio INPUT: A = {3, 6, 8, 10} B = {4, 5, 7, 11} O = {1, 2, 3, 3, 5, 6, 7} OUTPUT: p. A p. B p. A U p. B 3 4 8 3 1 11 5 4 3 6 11 10 17 7 9 5 20 2 6 3 27 27 7 19