Alineamiento de secuencias Copyright Ebiointel SL 2006 Un
Alineamiento de secuencias: © Copyright Ebiointel, SL 2006
Un alineamiento compara permitiendo: • Identificar genes homólogos/similares • Asignar funciones biológicas (reales, posibles? ) • Predecir estructura • Encontrar patrones • Reconstruir relaciones evolutivas • ……
Homología vs similitud Homólogo, similar, idéntico • Homología – dos secuencias son homólogas sólo si derivan de una ancestro común – implica una herencia compartida – cualitativo – se es homólogo o no se es • Similitud – medida cuantitativa – se puede usar una medida de similitud para inferir homología © Copyright Ebiointel, SL 2006
Alineamiento de secuencias Alineamiento Comparar dos (alineación a pares) o más (alineación múltiple) secuencias para buscar una serie de caracteres o patrón de caracteres que están en el mismo orden en las secuencias Secuencia 1: ATGCGACTGACG |||||| Secuencia 2: ATGCGACTGACG Significado de un alineamiento Estadístico Por azar (alineamiento de secuencias al azar pueden producir un 20% identidad) Biológico Comparten un ancestro común. Implica una información funcional, estructural y evolutiva © Copyright Ebiointel, SL 2006
Alineamiento de secuencias Búsqueda de una puntuación (mayor o menor, astringencia) dentro de la ventana Puntuación: valoración del aparejamiento (matrices) Astringencia: mínima coincidencia admitida Ventana: longitud del bloque a comparar
Alineamiento de secuencias Un proceso de alineamiento debe efectuar una búsqueda activa del mejor alineamiento posible y debe considerar los cambios que sufren las secuencias: • Sustituciones -> Desemparejamientos (mistmatches) • Deleciones e inserciones (indel) -> Huecos (Gaps) © Copyright Ebiointel, SL 2006
Valoración de un alineamiento Valoración (score) de un alineamiento Máxima puntuación = Alineamiento óptimo Puntuación = F (puntuación emparejamiento idéntico, puntuación emparejamiento similar, puntuación huecos –gap-) © Copyright Ebiointel, SL 2006
Valoración de un alineamiento Como valorar un alineamiento? Ejemplo Identidad = 1 Missmatch = 0 Gap = -1 Score = 10 - 4 = 6 © Copyright Ebiointel, SL 2006
Matriz para DNA Valoración de un alineamiento A G C T A +1 – 3 -3 G – 3 +1 – 3 -3 C – 3 +1 -3 T – 3 – 3 +1 Score Match: + 1 Mismatch: - 3 CAGGTAGCAAGCTTGCATGTCA || |||||| CACGTAGCAAGCTTG-GTGTCA raw score = 19 -9 = 10 Score Match: + 1 Mismatch: -10000 © Copyright Ebiointel, SL 2006
Matriz para DNA Valoración de un alineamiento Modelos evolutivos DNA Matriz de substitución para DNA Transiciones / Transversiones p(transición) > p(transversión) © Copyright Ebiointel, SL 2006 Ejemplo: A, A = 1 A, C = 0 C, T = 0, 5 Gap = -1
Matriz para Proteínas Valoración de un alineamiento Matrices de puntuación para proteínas Matriz de identidad Secuencia A Tyr Cys Asp Ala Met Secuencia B Phe Met Glu Gly Met 0 0 1 Puntuación total del alineamiento: 0+0+1 = 1 Matrices de susbtitución Secuencia A Tyr Cys Asp Ala Secuencia B Phe Met Glu Gly 3 -1 2 0 Puntuación total del alineamiento: 3 -1+2+0 = 4 © Copyright Ebiointel, SL 2006
Matriz para Proteínas Valoración de un alineamiento Modelos evolutivos Proteínas Mutaciones (código genético) Substituciones conservativas Matriz de substitución para proteínas • PAM 60, 120, 250 (Dayhoff) Extrapolación desde PAM 15 • BLOSUM 80, 62, 40 Basadas en secuencias © Copyright Ebiointel, SL 2006 BLOKCS de
Valoración de un alineamiento Matrices PAM (Percent Accepted Mutation) Evolutionary model • Derived from observation; small dataset of alignments • All calculated from PAM 1 • PAM 250 widely used Matrices BLOSUM (BLOck SUbstitution Matrices) • Derived from observation; large dataset of highly conserved blocks • Each matrix derived separately from blocks with a defined percent identity cutoff • BLOSUM 45 is derived from sequence blocks clustered at the 45% identity level • BLOSUM 62 - default matrix for BLAST © Copyright Ebiointel, SL 2006
Valoración de un alineamiento Matriz PAM 250 © Copyright Ebiointel, SL 2006
Blosum 62 Valoración de un alineamiento A 4 R -1 5 N -2 0 6 D -2 -2 1 6 C 0 -3 -3 -3 9 Q -1 1 0 0 -3 5 E -1 0 0 2 -4 2 5 G 0 -2 0 -1 -3 -2 -2 6 H -2 0 1 -1 -3 0 0 -2 8 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 L -1 -2 -3 -4 -3 2 4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 F -2 -3 -3 -3 -1 0 0 -3 0 6 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 F S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 T 0 -1 -1 -2 -2 -1 -1 -2 -1 1 5 W -3 -3 -4 -4 -2 -2 -3 -1 1 -4 -3 -2 11 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 Negative for less likely substitutions V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 Y 4 X 0 -1 -1 -1 -2 -1 -1 -1 -2 0 0 -2 -1 Positive for more likely substitutions 1 -1 D F A R N D C Q E G H I L K M F P S T W Y V X © Copyright Ebiointel, SL 2006
Valoración de un alineamiento Equivalencia PAM - BLOSUM PAM 100 ==> Blosum 90 PAM 120 ==> Blosum 80 PAM 160 ==> Blosum 60 PAM 200 ==> Blosum 52 PAM 250 ==> Blosum 45 BLOSUM: “mejor” para la detección alineamientos locales BLOSUM 62, detección similitudes débiles BLOSUM 45, detección alineamientos largos y débiles © Copyright Ebiointel, SL 2006
Valoración de un alineamiento PAM vs BLOSUM • Modelo subyacente • PAM asume un modelo evolución markoviano • BLOSUM no supone ningún modelo evolutivo explícito • Aminoácidos utilizados en las estimas de las puntuaciones • PAM considera todas las posiciones aminoacídicas • BLOSUM considera sólo los cambios en posiciones dentro de bloques conservados Conclusión: PAM es más adecuada para trazar el origen evolutivo de proteínas BLOSUM es más apropiada para hallar dominios conservados © Copyright Ebiointel, SL 2006
Valoración de un alineamiento: gaps Penalización por hueco (Gap penalty) MNLSRDTA | |||||| M SSRDTA Wx = g + rx MNLSRDTA | ||||| M SRDTA W es la puntuación x la longitud del gap g la penalización de abrir un gap r la de la extensión de un gap • Muchos programas de alineamiento sugieren los valores apropiados • Penalización al final del alineamiento • Sí en secuencias homólogas misma longitud • No en secuencias desconocidas o longitud diferente © Copyright Ebiointel, SL 2006
Valoración de un alineamiento: gaps Valores de penalización de gaps Programas de alineamiento de DNA Programa Tipo de Match Mismatch Penalización alineamiento score apertura gaps extensión gaps FASTA local 5 - 4 -16 -4 Programas de alineamiento de Proteínas Programa Tipo de Match y Mismatch Penalización alineamiento score apertura gaps extensión gaps FASTA local Valores BLOSUM 50 - 16 - 4 -12 -2 BLASP local Valores BLOSUM 62 - 6 - 4 - 8 - 2 © Copyright Ebiointel, SL 2006
Valoración de un alineamiento: gaps Efecto de la variación en la penalización de huecos (gap) (Vingron & Waterman 1994) • Si se penaliza alto (relativamente) no aparecerán en el alineamiento • Si bajo, gaps serán ubicuos • Si la penalización gaps y desemparejamientos (mismatches) es alta habrá un alineamiento local con emparejamientos exactos • Si penalización desemparejamiento es alta (doble que la de emparejamiento), la penalización del gap es crucial en el alineamiento • Si la penalización desemparejamiento es menor que el doble de la de emparejamiento, hay un amplio espectro de posibles alineamientos dependientes de la puntuación de los gaps y desemparejamientos El alineamiento de proteínas relacionadas muestran que gaps > 5 nunca ocurren © Copyright Ebiointel, SL 2006
Alineamiento: matriz de puntos Matriz de puntos (Dot matrix, Gibbs & Mc. Intyre 1970) Cualquier alineamiento se ve como una diagonal en la matriz C| X G| X A T G C T| X | | A|X A T G C +------ A T G C A| X . C| . X A T G C A G|X . X | | T| . X G A T G C A|. X +---- G A T G C © Copyright Ebiointel, SL 2006
Alineamiento: matriz de puntos Matriz de puntos (Dot matrix) A|X X X T| X X G| X . T| X . A T C A C T G T A C| X . | | | | A|X X A T C A - - G T A C| X T| X X A|X X +------ A T C A G T A Detección de indels: inserciones / deleciones © Copyright Ebiointel, SL 2006
Alineamiento: matriz de puntos Matriz de puntos de dos proteínas represoras en fagos, λ c. I y P 22 c 2 • Nucleótidos • Ventana = 11 • Astringencia = 7 • 11/7 ó 15/11 Aminoácidos • Ventana = 1 • Astringencia = 1 • 1/1 excepto búsquedas pequeños dominios 15/5 © Copyright Ebiointel, SL 2006
Alineamiento: matriz de puntos Matriz de puntos de la proteína receptora humana LDL con ella misma. • Ventana = 23 • Astringencia = 7 • Ventana = 1 • Astringencia = 1 • © Copyright Ebiointel, SL 2006
Alineamiento: matriz de puntos Representación de un alineamiento: “camino” en la matriz A AT-ACTTGAC ATGAC--GAC © Copyright Ebiointel, SL 2006 A
Métodos de alineamiento de dos secuencias Algoritmos de programación dinámica • Smith-Waterman (local) • Needleman-Wunsch (global) • Métodos heurísticos • BLAST (Basic Local Algorithm Search Tool) Altschul et al. , 1990; Gapped, Altschul et al. , 1997 • FASTA Lipman y Pearson, 1985 © Copyright Ebiointel, SL 2006
Programación dinámica Algoritmos de programación dinámica para el alineamiento de secuencias Alineamiento global de Needlman-Wunsh (1970) Alineamiento local de Smith-Waterman (1981) Encuentran el alineamiento o serie de alineamientos óptimos evitando calcular todos los alineamientos (y puntuaciones) de dos secuencias (m x n) n + m n n= 7 y m= 10 -> 19448 Uso de un algoritmo recursivo que añade residuos en una posición sobre el alineamiento mejor hasta esa posición. Una ruta óptima que termina en un nodo debe pasar por uno de los tres nodos previos © Copyright Ebiointel, SL 2006
Programación dinámica Algoritmos de programación dinámica para el alineamiento de secuencias Secuencia 1: ACGCTGA Secuencia 2: ACTGT Puntuación (score, S): 1: ACG • Identidad (match) = 3 • No idéntico (unmatched) = -1 • Hueco (gap) = -5 1: AC-G ||·| 2: ACTG ||· 2: ACT Score, S = 3+3 -1 = 5 3+3 -5+3 = 4 1: AC-GC ||·|| 2: ACTG- 1: ACGC ||·· 2: ACTG Score = 5 -1 = 4 Score = 4 -5 = -1 S(i-1, j-1) + c(i, j) S(i, j) = max S(i-1, j) + c(i, -) S(i, j-1) + c(-, j) © Copyright Ebiointel, SL 2006 1: ACGC ||· 2: ACT 3+3 -1 -5 = 0 1: ACGC ||· 2: ACT-G Score = 0 -5 = -5
Programación dinámica Preparación de una matriz n x m Alineamiento global de Needlman. Wunsh secuencia 1 = MNALSDRT secuencia 2 = MGSDRTTET GAP = - 12 - 4 (x - 1) x = longitud hueco © Copyright Ebiointel, SL 2006
Programación dinámica Poner puntuación a cada par aminoacídico (basado en matriz PAM 250) En paréntesis se dan las puntuaciones de cuatros posibles emparejamientos (matches) © Copyright Ebiointel, SL 2006
Programación dinámica Cálculo de la puntuación • Se ponen las puntuaciones máximas en cada celda. La flecha indica la celda previa de la matriz que se usó para obtener la puntuación • Cada fila y columna de la secuencia debe llenarse antes de avanzar una celda hacia la derecha y abajo © Copyright Ebiointel, SL 2006
Programación dinámica Matriz de puntuación completa • Se completa la matriz • La última fila y columna (alineamiento global) se examina y se selecciona la mayor puntuación. El valor es 5 si no consideramos gap final, sino es -5 © Copyright Ebiointel, SL 2006
Programación dinámica Matriz hacia atrás (trace-back matrix) • La matriz nos permite reconstruir el alineamiento a partir del último match T-T, que tiene la puntuación mayor. • La matriz muestra los movimientos de una posición a la otra que han dado máxima puntuación © Copyright Ebiointel, SL 2006
Programación dinámica Alineamiento 1 sequence 1 M - N A L S D R T sequence 2 M G S D R T T E T score 6 -12 1 0 -3 1 0 -1 3 = -5 Alineamiento 2 sequence 1 M N - A L S D R T sequence 2 M G S D R T T E T score 6 -12 1 0 -3 1 0 -1 3 = -5 Alineamiento 3 (no penalización de gap final) sequence 1 M N A L S D R T - - sequence 2 - - M G S D R T T E T score 0 0 -1 -4 2 4 6 3 0 0 0 = 10 © Copyright Ebiointel, SL 2006
Programación dinámica Alineamiento local con el algoritmo de Smith-Waterman • Debe haber puntuación negativa para los desemparejamientos y si la puntuación de la matriz obtiene un valor negativo se pone 0 • Así el alineamiento puede empezar en cualquier punto y se acaba cuando la puntuación alcanza el valor de 0 secuencia 1 secuencia 2 score © Copyright Ebiointel, SL 2006 S D R T 2 4 6 3 = 15
Alineamiento global y local Needleman & Wunsch (1970) Smith & Waterman (1981) Las secuencias se alinean esencialmente de un extremo a otro Las secuencias se alinean en regiones pequeñas y aisladas © Copyright Ebiointel, SL 2006
Global vs local on-line Ejemplo on-line alineamiento global vs local Preparación de una matriz n x m © Copyright Ebiointel, SL 2006
Global vs local Práctica alineamiento de pares de secuencias Objetivo Comparar los resultados obtenidos al alinear dos secuencias problema con programes de alineamiento • local Smith-Waterman (water) • global Needleman and Wunsch (needle) Alineamientos • Iniciar una sesión en EMBOSS • Introducir las secuencias • Sequence 1 NGPSTKDFGKISESREFDNQ * Sequence 2 QNQLERSFGKINMRLEDALV © Copyright Ebiointel, SL 2006 • Comparar (water o needle), visualizar y comentar
MPKRSEYRQGTPNWVDLQTTDQSAAKKFYTLFGWGYDDNPV PGGGGVYSMATLNGEAVAAIAPMPPGAPEGMPPIWNTYIAVDD VDAVVDKVVPGGGQVMMPAFDIGDAGRMSFITDPTGAAVGWQ ANRHIGATLVNETGTLIWNELLTDKPDLALAFYEAVVGLTHSSM EIAAGQNY ¿Hay en la base de datos alguna secuencia similar a mi secuencia problema? Búsquedas por similitud Resultados üSimilar to ………… üUnknown but similar to sevral hypothetical proteins from… üPutative hypothetical protein……. . © Copyright Ebiointel, SL 2006
Búsqueda de similares en una base de datos Objetivo: comparar una secuencia frente a una base de datos, comprar dos base de datos, . . • Algoritmos Exactos: Smith-Waterman (sssearch, lalign, Heurísticos: BLAST (búsqueda de “words” similares) FASTA (búsqueda de “k-tuplos” idénticos) © Copyright Ebiointel, SL 2006 . . )
Métodos heurísticos Método heurístico: prueba y error Suele encontrar secuencias relacionadas pero nunca hay garantía absoluta. Ventaja: 50 veces más rápido que programa dinámicos Usos: búsquedas sobre bases de datos de gran tamaño BLAST (Basic Local Alignment Search Tool) (Altschul, et al, 1990, J Mol Biol, 215: 403 -10) Concentra la búsqueda en patrones cortos más significativos, (palabra, word size: 3 aa / 11 nt). Rápido, menos sensible? FASTA (Lipman y Pearson, 1985; Pearson y Lipman, 1988) El algoritmo busca patrones cortos consecutivos (palabras o k-tuplos, k= 1 -2 aa / 4 -6 nt) entre la secuencia problema y las de la base de datos.
Secuencias problema üBúsquedas con secuencias de DNA o aa FASTA, BLAST >Seq. DNA_Prob 1. seq ATGAAGGACTTAGTCGATACCACAGAGATGTACTTGCGTACTATC TATGAGCTGGAAGAAGAGGGAGTCACCCCTCTTCGCGCTAGGAT CGCTGAGCG üBúsquedas con perfiles Archivos con alineamientos D-HQSNGA ESHQ-YTM EAHQSN-L EGVQSYSL ü Búsquedas con Blocks Motivos alineados sin gaps (PSSM position-specific scoring matrix) üBúsquedas de patrones y motivos PROSITE, INTERPRO, PFAM, . . DAHQS N ESHQSY EAHQS N EGVQS Y DAHQS N
Significación - Valoración de los alineamientos 1. Valoración mediante matrices 2. Penalización por disimilitud (aparición y extensión de gaps). Este valor es la Puntuación bruta (raw score, Sraw). 3. Puntuación de bits (Sbit). Permite comparar resultados obtenidos por diferentes sistemas. Se introducen parámetros utilizados por el programa de alineamiento. 4. E value alineamiento debido al azar. Los valores más cercanos a cero indican una mayor relevancia. Se puede considerar relevante cuando E < 0. 05.
Significancia Expect Value E = numero de hits esperado por azar Un E-value de 10 significa que, en una base de datos de igual tamaño, se pueden encontrar 10 alineamientos con la misma puntuación por simple azar. Valores mas bajos serán mas significativos © Copyright Ebiointel, SL 2006
(Basic Local Alignment Search Tool) Heurístico Altschul, et al, 1990, J Mol Biol, 215: 403 -10 BLAST intenta encontrar muchos matches sacrificando la especificidad por la velocidad. Se pueden perder apareamientos. Estrategia BLAST üBúsqueda de proteínas mediante criterios de semejanza (no identidad). Se utilizan matrices de semejanza üTrabaja con segmentos pequeños que permiten acelerar el proceso (High-scoring segment pair) üExtensión de los match hacia los lados üRápido y sensible Usos Glossary übúsquedas en las bases de datos üalineamiento de pares de secuencias © Copyright Ebiointel, SL 2006
Esquema BLAST © Copyright Ebiointel, SL 2006
Nucleótidos Query: GTACTGGACATGGACCCTACAGGAA Word Size = 11 GTACTGGACAT TACTGGACATG ACTGGACATGG CTGGACATGGAC GGACATGGACC GACATGGACCC ACATGGACCCT . . . © Copyright Ebiointel, SL 2006 Minimum word size =7 blastn default = 11 megablast default = 28
Proteínas Query: GTQITVEDLFYNIATRRKALKN Word Size = 3 GTQ TQI Similares QIT LTV, MTV, ISV, LSV, etc. ITV TVE VED EDL DLF . . . © Copyright Ebiointel, SL 2006
© Copyright Ebiointel, SL 2006
Selección del programa BLAST Help © Copyright Ebiointel, SL 2006
© Copyright Ebiointel, SL 2006
© Copyright Ebiointel, SL 2006
© Copyright Ebiointel, SL 2006
Opciones Conserved Domain Database © Copyright Ebiointel, SL 2006
Introducción de la Secuencia FASTA FORMAT © Copyright Ebiointel, SL 2006
Otras opciones Expect: 10, máximo de 10 al azar. Valores inferiores son mas restrictivos. Word Size: medida de los fragmentos (k-tup FASTA) © Copyright Ebiointel, SL 2006
Formatos © Copyright Ebiointel, SL 2006
Práctica Objetivo general Buscar secuencias similares a las secuencias problema. BLAST DNA Copiar la Secuencia PROBLEMA i someterla a BLAST de DNA >Seq. DNA_Prob 1. seq ATGAAGGACTTAGTCGATACCACAGAGATGTACTTGCGTACTATGAGCTGGAAGAAGAG GGAGTCA CCCCTCTTCGCGCTAGGATCGCTGAGCGTCTGGAACAATCTGGACCTACAGTTAGCCAAACCG TTGCCCG TATGGAGCGCGATGGACTTGTCGCCTCAGACCGCAGTCTACAAATGACACCGACAGG CCGCACT TTAGCGACTGCAGTTATGCGTAAACATCGCTTAGCTGAGCGCCTTCTTACCGATATCATTGGTC TAGATA TCAATAAAGTTCACGATGAAGCCTGCCGCTGGGAACACGTTATGAGTGACGAAGTTGAACGCA GGCTCGT GAAAGTATTGAAAGATGTCAGTCGGTCCCCCTTCGGAAACCCAATTCCAGGTCTCGACGAACT CGGCGTA GGCAATTCTGACGCGGCAGCCCCCGGAACTCGCGTTATTGACGCTGCCACCAGCATGCCCCG CAAAGTAC GCATTGTTCAGATTAACGAAATCTTTCAAGTTGAAACGGATCAGTTTACACAGCTCCTCGATGC TGACAT CCGTGTTGGATCAGAAGTCGAAATTGTAGAGACGGCCACATCACGTTGAGCCACAATGG AAAAGAT © Copyright Ebiointel, SL 2006 GTCGAACTCCTCGATGATCTGGCTCACACTATTCGTATCGAAGAACTCTAA
Práctica BLAST Proteína Copiar la secuencia PROBLEMA i someterla a BLAST de Proteína >Seq. Prot-Prob 1. pep MENRIDRIKKQLHSSSYKLTPQREATVRVLLENEEDHLSAEDVYLLVKEKSPEIGLATVY RTLELLTELKVVDKINFGDGVSRYDLRKEGAAHFHHHLVCMEFGAVDEIEGDLLEDVEEI IERDWKFKIKDHRLTFHGICHRCNGKETE Iniciar una sesión BLAST Protein Limitar la búsqueda a Blast de Bacteria Ejecutar Blast © Copyright Ebiointel, SL 2006
Práctica t n Proteína x DNA traducido a Proteína Objetivo Pretendemos encontrar secuencias bacterianas en diferentes genomas de microorganismos. Realizar una búsqueda t. BLASTn sobre genomas microbianos utilizando la secuencia: >Proteína problema MPKRSEYRQGTPNWVDLQTTDQSAAKKFYTSLFGWGYDDNPVPGGGGVYSMATLNGEAVAAIAPMPPGA P EGMPPIWNTYIAVDDVDAVVDKVVPGGGQVMMPAFDIGDAGRMSFITDPTGAAVGLWQANRHIGATLVNE TGTLIWNELLTDKPDLALAFYEAVVGLTHSSMEIAAGQNYRVLKAGDAEVGGCMEPPMPGVPNHWHVYFA VDDADATAAKAAAAGGQVIAEPADIPSVGRFAVLSDPQGAIFSVLKPAPQQ © Copyright Ebiointel, SL 2006
Práctica X DNA traducido a Proteína x Proteína Objetivo Detectar similares a la secuencia problema y determinar si hay errores. Realizar una búsqueda con BLASTx usando: >DNA desconocido ATGCCCAAGAGAAGCGAATACAGGCACGCCGAACTGGGTCGACCTTCAGACCACCGATCAGTCCG CCGCCAAAAAGTTCTACACATCGTTggt. GTTCGGCTGGGGTTACGACGACCCGGTCCCCGGAGGCGGTGG GGTCTATTCCATGGCCACGCTGAACGGCGAAGCCGTGGCCGCCATCGCACCGATGCCCCCGGGTGCACCG GAGGGGATGCCGCCGATCTGGAACACCTATATCGCGGTGGACGACGTCGATGCGGTGGTGGACAAGGTGG TGCCCGGGGGCAGGTGATGATGCCGGCCTTCGACATCGGCGATGCCGGATGTCGTTCATCAC CGATCCGACCGGCGCTGCCGTGGGCCTATGGCAGGCCAATCGGCACATCGGAGCGACGTTGGTCAACGAG ACGGGCACGCTCATCTGGAACTGCTCACGGAttg. GCCGGATTTGGCGCTAGCGTTCTACGAGGCTG TGGTTGGCCTCACCCACTCGAGCATGGAGATAGCTGCGGGCCAGAACTATCGGGTGCTCAAGGCCGGCGA CGCGGAAGTCGGCGGCTGTATGGAACCGCCGATGCCCGGCGTGCCGAATCATTGGCACGTCTACTTTGCG GTGGATGACGCCGACccc. ACGGCGGCCAAAGCCGCCGCAGCGGCCAGGTCATTGCGGAACCGGCTG ACATTCCGTCGGTGGGCCGGTTCGCCGTGTTGTCCGATCCGCAGGGCGCGATCTTCAGTGTGTTGAAGCC CGCACCGCAGCAATAG © Copyright Ebiointel, SL 2006
FASTA ü Alineamientos locales üFASTA utiliza una matriz de substitución sólo durante la fase de extensión üLa reducción del tiempo de búsqueda conlleva una pérdida de sensibilidad y selectividad Estrategia 1. 2. 3. 4. Búsqueda de zonas comunes por identidad y sin gaps. Uso de k-tuplo. Velocidad y sensibilidad determinadas por la longitud de la palabra usada. Las palabras cortas hacen la búsqueda más lenta y sensible. Valoración de los match por similitud y unión de las regiones con gaps Evaluación exhaustiva de los mejores alineamientos k-tup DNA: 6 Proteína: © Copyright Ebiointel, SL 2006 2
Programas FASTA Programa Funciones fasta 3 tfasta 3* DNA, proteína frente bd DNA y bd Prot (fasta) y proteínas frente bd DNA traducido (tfasta), no admite frameshifts ssearch* DNA, proteína frente bd DNA y bd Prot mediante el algoritmo Smith-Waterman Muy lento <10 fasta pero muy sensible. fastx/y 3 DNA (traducido 3 frames) frente bd proteínas. Admite gaps y frameshifts Velocidad x > y tfastx/y 3 Proteína frente bd DNA traducido 6 frames fasts 3 tfasts 3* fastf 3 tfastf 3* >mgstm 1 MILG, MLLEYTD, MGDAP >mgstm 1 MGCEN, MIDYP, MLLAY, MLLGY Mezcla de péptidos pequeños relacionados (mass-spec) frente bd proteína (fasts) o bd DNA (tfasts)* Mezcla de péptidos (obtenida por Edman o CNBr) frente bd proteína (fastf) o bd DNA (tfastf)* © Copyright Ebiointel, SL 2006
Opciones FASTA MATRIX Matriz de búsqueda GAP PENALTIES GAPOPEN: Penalización por apertura gap (-12 para proteínas, -16 para DNA). GAPEXT: Penalización extensión del gap (-2 para proteínas, -4 para DNA). HISTOGRAM Muestra el histograma con las frecuencias de las coincidencias por azar. SCORES Puntuación de los alineamientos ALIGNMENTS Número de alineamientos que se visualizaran KTUP Proteínas: 2 DNA: 6 STRAND Cadena de DNA EXPECTATION VALUE Límite superior para la presentación de un alineamiento. Valores por defecto son 10. 0 para Prot/Prot; 5. 0 para proteínas frente Prot/Prot de DNA y 2. 0 para búsquedas DNA/DNA. EXPECTATION VALUE THRESHOLD Límite inferior para la presentación de un alineamiento. © Copyright Ebiointel, SL 2006
© Copyright Ebiointel, SL 2006
Job FASTA © Copyright Ebiointel, SL 2006
Resultados FASTA © Copyright Ebiointel, SL 2006
Mview Results FASTA © Copyright Ebiointel, SL 2006
Visual FASTA © Copyright Ebiointel, SL 2006
Práctica FASTA Búsqueda por similitud • Iniciar una sesión FASTA • Seleccionar el programa y fijar los parámetros de búsqueda en función de la naturaleza de la secuencia problema. • Introducir la secuencia problema • Someter la búsqueda • Visualizar y comentar los resultados • Diferencias frente a BLAST © Copyright Ebiointel, SL 2006
© Copyright Ebiointel, SL 2006
- Slides: 71