Algoritmos heursticos FASTA y BLAST Algoritmos heursticos FASTA
Algoritmos heurísticos: FASTA y BLAST
Algoritmos heurísticos: FASTA y BLAST La PD no es adecuada para buscar en BD
Algoritmos heurísticos: FASTA y BLAST Heurística
Algoritmos heurísticos: FASTA y BLAST Un poco de historia
Algoritmos heurísticos: FASTA y BLAST
Algoritmos heurísticos: FASTA y BLAST PNAS (1988) 85, 2444 -2448 El artículo original
Algoritmos heurísticos: FASTA y BLAST ¿Bueno bonito y barato? No existe
Algoritmos heurísticos: FASTA y BLAST Mayor velocidad de computación Menor consumo de memoria Mayor sensibilidad = menos FN Mayor selectividad = menos FP selectividad = especificidad Las ventajas de FASTA
Algoritmos heurísticos: FASTA y BLAST El algoritmo FASTA
Algoritmos heurísticos: FASTA y BLAST Etapa nº 1: Identidad
Algoritmos heurísticos: FASTA y BLAST Secuencia de la BD Secuencia problema 6 for DNA = 4096 k-tuples 2 for proteins = 400 k-tuples A partir de una secuencia problema se obtienen todos los k-tuplos posibles mediante el método de la ventana deslizante. Se comparan con los de las secuencias de la BD. Las regiones idénticas aparecen como una diagonal. Se agrupan las diagonales que estén a una cierta distancia una de otra y, para cada secuencia de la BD se localizan las 10 regiones con más densidad de k-tuplos idénticos. IDENTIDAD Etapa nº 1: Localizar k-tuplos idénticos (top ten)
Algoritmos heurísticos: FASTA y BLAST Etapa nº 2: Similitud (limitada al top ten)
Algoritmos heurísticos: FASTA y BLAST Las 10 regiones con mayor densidad de k-tuplos idénticos seleccionadas en la etapa anterior se vuelven a puntuar, esta vez utilizando una matriz de sustitución. Esta puntuación es la variable init 1. Se identifican las subregiones que obtienen una mayor puntuación (las denominadas regiones iniciales). La región inicial con mayor valor init 1 aparece marcada con un asterisco. SIMILITUD Se puntúan los top ten (init 1)
Algoritmos heurísticos: FASTA y BLAST Etapa nº 3: Unión de regiones iniciales (con huecos)
Algoritmos heurísticos: FASTA y BLAST FASTA intenta unir las regiones iniciales cuya puntuación supera un determinado cutoff. Se vuelven a puntuar las regiones unidas penalizando los huecos creados. Esta puntuación se denomina initn y permite hacer un ranking con las secuencias de la BD. Las secuencias que superen cierto umbral de puntuación initn pasan a la cuarta etapa Puntuación initn y ranking de secuencias
Algoritmos heurísticos: FASTA y BLAST Etapa nº 4: Programación dinámica “bandeada”
Algoritmos heurísticos: FASTA y BLAST Se utiliza un algoritmo de PD modificado (SW bandeado) para alinear la secuencia problema con la secuencia de la BD. El alineamiento se limita a una estrecha banda centrada en el segmento init 1 y que engloba a las diagonales de mayor puntuación. La puntuación de este alineamiento es el parámetro opt, con el que se hace un ranking de alineamientos. También se determina su significación estadística (Evalue). Etapa nº 4: Alineamiento óptimo “bandeado” (opt)
Algoritmos heurísticos: FASTA y BLAST Operación Resultado Etapa nº 1 IDENTIDAD Los 10 mejores Etapa nº 2 SIMILITUD init 1 Etapa nº 3 UNIÓN (gaps) initn Etapa nº 4 PD bandeada opt + E-value Las cuatro etapas de FASTA
Algoritmos heurísticos: FASTA y BLAST http: //www. ebi. ac. uk/Tools/sss/fasta/
Algoritmos heurísticos: FASTA y BLAST Variantes del programa FASTA
Algoritmos heurísticos: FASTA y BLAST http: //fasta. bioch. virginia. edu/fasta_www 2/fasta_list 2. shtml
Algoritmos heurísticos: FASTA y BLAST
Algoritmos heurísticos: FASTA y BLAST Aplicaciones de BLAST
Algoritmos heurísticos: FASTA y BLAST 1 Uno de los artículos científicos más citados de la historia de la biología molecular. J. Mol. Biol. (1990), 403 -410
Algoritmos heurísticos: FASTA y BLAST 1. - Procesamiento previo de la secuencia problema
Algoritmos heurísticos: FASTA y BLAST Mediante el método de la “ventana deslizante” se descompone la secuencia problema en “palabras”. El parámetro W (word size) determina el número de caracteres de las palabras. Al aumentar W se gana velocidad a costa de perder sensibilidad Habitualmente, para proteínas W = 3 y para ADN W = 11 Se descompone la secuencia problema en “palabras”
Algoritmos heurísticos: FASTA y BLAST Se puntúa cada palabra aplicando una matriz de sustitución. Sólo se tendrán en cuenta las palabras cuya puntuación supere un valor T. Al aumentar T se gana velocidad a costa de perder sensibilidad A cada palabra se le asocian “vecinas” (neighbors)
Algoritmos heurísticos: FASTA y BLAST Con cada palabra se elabora una lista de “palabras parecidas” Resultado de la primera etapa de BLAST
Algoritmos heurísticos: FASTA y BLAST 2. - Se buscan coincidencias en las secuencias de la BD
Algoritmos heurísticos: FASTA y BLAST Coincidencias (word hits) entre dos secuencias
Algoritmos heurísticos: FASTA y BLAST Un valor de W pequeño aumenta la sensibilidad pero disminuye la velocidad. Un valor de T elevado disminuye la sensibilidad (se reduce le número de “hits” y se puede perder algún alineamiento significativo) pero aumenta la velocidad. Una selección adecuada de W, T y la matriz de puntuación permite controlar de manera eficaz la sensibilidad y la rapidez del algoritmo Efecto de los parámetros W (word size) y T (threshold)
Algoritmos heurísticos: FASTA y BLAST 1 intenta extender el alineamiento a ambos lados de cada coincidencia (sin dejar huecos), utilizando una variante del algoritmo de Smith-Waterman. Etapa nº 3: extensión de las “coincidencias” (hits)
Algoritmos heurísticos: FASTA y BLAST Máximo = 9 Caída (X) = 5 (se para y retrocede hasta el valor máximo) Caída (X) = 2 (sigue) ¿Cuándo se detiene la extensión? → el parámetro X
Algoritmos heurísticos: FASTA y BLAST Selección de los HSP (high scoring pairs)
Algoritmos heurísticos: FASTA y BLAST Etapa nº 4: ranking de HSP (en función del valor E)
Algoritmos heurísticos: FASTA y BLAST El valor E
Algoritmos heurísticos: FASTA y BLAST 2 Nucleic Acids Res. 25: 3389 -3402 (1997)
Algoritmos heurísticos: FASTA y BLAST-2 utiliza el algoritmo de la doble coincidencia (two -hit algorithm): una palabra sólo se extiende (sin huecos) si existe otra en la misma diagonal a una distancia menor que A. El valor del parámetro A lo establece el usuario. Esta extensión genera una serie de alineamientos con una puntuación elevada (HSP, high scoring pairs) Etapa nº 3: algoritmo de la “doble coincidencia”
Algoritmos heurísticos: FASTA y BLAST + (T = 13) • (T = 11) Este requisito reduce la sensibilidad del método (se extienden menos palabras). Esta circunstancia se puede compensar disminuyendo el parámetro T (el umbral de puntuación que se utiliza en la primera etapa para generar la lista de “palabras parecidas”). Se reduce T para compensar la menor sensibilidad
Algoritmos heurísticos: FASTA y BLAST Se hace una extensión con huecos en los mejores HSP
Algoritmos heurísticos: FASTA y BLAST Subsecuencia del HSP de 11 caracteres con la máxima puntuación Residuo central de Alanina donde comienza, en ambas direcciones, el alineamiento local con huecos ¿Dónde empieza el alineamiento con huecos?
Algoritmos heurísticos: FASTA y BLAST El alineamiento local con huecos se lleva a cabo en ambas direcciones siempre y cuando la máxima puntuación alcanzada no se reduzca en un valor superior a Xg. ¿Dónde acaba el alineamiento con huecos?
Algoritmos heurísticos: FASTA y BLAST Los alineamientos se muestran en función del valor E (ordenados de menor a mayor). El valor E indica el número de veces que uno esperaría encontrar por puro azar un alineamiento con una puntuación igual o mayor en una BD de igual tamaño y composición. Los resultados se ordenan en función del valor E
Algoritmos heurísticos: FASTA y BLAST http: //blast. ncbi. nlm. nih. gov/Blast. cgi NCBI-BLAST
Algoritmos heurísticos: FASTA y BLAST http: //www. ebi. ac. uk/Tools/sss/wublast/ WU-BLAST
- Slides: 45