PROTENAS Lic Mara Isabel Fonseca PROTENAS Niveles estructurales

PROTEÍNAS Lic. María Isabel Fonseca

PROTEÍNAS Niveles estructurales Lic. María Isabel Fonseca

PROTEÍNAS Aminoácidos Lic. María Isabel Fonseca

PROTEÍNAS Aminoácidos Lic. María Isabel Fonseca

ALINEAMIENTO DE PROTEÍNAS Lic. María Isabel Fonseca

ALINEAMIENTO DE PROTEÍNAS Lic. María Isabel Fonseca

ALINEAMIENTO DE PROTEÍNAS Secuencias muy cortas o muy similares pueden alinearse manualmente. Aun así, los problemas más interesantes necesitan alinear secuencias largas, muy variables y extremadamente numerosas que no pueden ser alineadas por humanos. optimización programación dinámica Lic. María Isabel Fonseca Algoritmos heurísticos o probabilísticos

ALINEAMIENTO DE PROTEÍNAS Programación dinámica n Para las proteínas, este método supone normalmente dos conjuntos de parámetros: una penalización por gap (o hueco) y una matriz de sustitución que asigna puntuaciones o probabilidades al alineamiento de cada posible par de aminoácidos basadas en la similitud de las propiedades químicas de los mismos o en la probabilidad evolutiva de la mutación. Lic. María Isabel Fonseca

ALINEAMIENTO DE PROTEÍNAS Las aproximaciones computacionales al alineamiento de secuencias se dividen en dos categorías Lic. María Isabel Fonseca

ALINEAMIENTO DE PROTEÍNAS n Las comparaciones de proteína conservan mas información que las de ADN y pueden detectar homología mas remota. El sistema para puntear los apareamientos entre AA debe reflejar su relación química y biológica Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS n La gran ventaja del alineamiento múltiple de secuencias (AMS) es que permite revelar mucha más información biológica que un grupo de alineamientos de pares n El AMS tiene aplicaciones importantes: q q Análisis filogenético Predicción de la estructura secundaria y terciaria de proteínas. . . Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS n n En teoría es posible usar la programación dinámica para alinear cualquier número de secuencias, sin embargo el tiempo de cálculo y la memoria requerida aumenta exponencialmente En la práctica los enfoques heurísticos son los más utilizados, reducen el tiempo para encontrar buenos (no necesariamente el óptimos) alineamientos, p. ej. , algoritmos que emplean subsecuencias, árboles, secuencias consensos, agrupamientos y moldes Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Función de puntuación OBSERVACIONES BIOLÓGICAS BUENOS ALINEAMIENTOS ESTADÍSTICA Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Función de puntuación, Matriz de sustitución n Describe el ritmo en que un carácter en una secuencia cambia a otro carácter con el tiempo aminoácido sustitución Lic. María Isabel Fonseca probabilidad

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Función de puntuación, Matriz de substitución: score de sustitución n Los elementos de la diagonal son scores dados a los aminoácidos idénticos. n Los elementos fuera de la diagonal son scores dados para los aminoácidos de substitución. Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Función de puntuación, Matriz de substitución: score de sustitución n Se tiene en cuenta: q q Similitud estructural (aminoácidos de igual tamaño) Similitud química (p. I, hidrofobicidad, etc) n La matriz que se utilice puede ser determinante en la comparación de secuencias. n Las matrices más utilizadas son: q PAM (Percent Accepted Mutation Matrix) n n q Derivadas de alineamientos globales de secuencias cercanamente relacionadas. PAM 40 PAM 250. A mayor Nº mayor distancia evolutiva BLOSUM (BLOck SUbstitution Matrix, o matriz de sustitución de bloques) n n Derivadas de alineamientos locales de secuencias distantes BLOSUM 90 BLOSUM 45 El Nº representa porcentaje de identidad Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Función de puntuación, Matriz de substitución: Matrices PAM n Esta matriz se calcula observando las diferencias en proteínas cercanamente relacionadas (con un mínimo del 85% de similitud) Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Función de puntuación, Matriz de substitución: Matrices PAM n n n La matriz PAM 1 estima qué ritmo de sustitución debería esperarse si el 1% de los aminoácidos han cambiado Otras matrices PAM se derivan de la multiplicación de la PAM 1 por sí misma, PAM 250, por ejemplo, es el resultado de elevar a la 250 potencia a PAM 1, y es equivalente a 250 sustituciones por cada cien aminoácidos (sec evolu mas lejanas). Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Función de puntuación, Matriz de substitución: Matrices BLOSUM n n Steve Henikoff (1992) Los valores están basados en la observación de frecuencias de substitución en bloques de ALINEAMIENTOS LOCALES de proteínas relacionadas De esta manera se enfoca en las regiones conservadas. BLOSUM 62, une todas las proteínas en un alineamiento que posean >=62% de identidad en sus aminoácidos. Se penalizan más para aquellas secuencias que comparten menos del 62% de identidad. Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Función de puntuación, Matriz de substitución: Matrices BLOSUM 62 fue calculada a partir de la comparación de secuencias con una divergencia mínima de 62% Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Función de puntuación, Matriz de substitución: Matrices PAM vs BLOSUM PAM BLOSUM Calculada a partir de alineamientos globales Calculada a partir de alineamientos locales Secuencias de proteínas usadas en alineamiento tienen >99% de identidad Puede seleccionar un nivel de similaridad entre las secuencias usadas en el análisis Las matrices son extrapolaciones matemáticas de la matriz PAM 1 Cada matriz es el resultado del análisis de un alineamiento de bloques conservados (análisis real) Es posible montar un modelo evolutivo y así No permite generar un modelo evolutivo generar nuevas matrices a partir de la primera Permiten detectar las mejores secuencias con relación biológica Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Función de puntuación n n El AMS consiste en acomodar las secuencias de forma tal que el máximo número de residuos de cada secuencia coincidan de acuerdo a una función de puntuación (scoring function) particular Como su nombre lo indica, es la suma de la puntuación de todos los posibles pares de secuencias en un AMS utilizando una matriz de puntuación particular Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Métodos de alineamiento Existen tres tipos de algoritmos heurísticos: q q q Alineamiento progresivo Alineamiento iterativo Alineamiento basado en bloques Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento progresivo n n Este método va ensamblando progresivamente alineamientos de pares para formar un AMS Primero se lleva a cabo un alineamiento global de pares de secuencias usando el algoritmo de Needleman-Wunsch Con los resultados se crea una matriz de distancias, esta permite ver la relación evolutiva de la secuencia con las demás Se realiza un análisis filogenético simple, dando como resultado la creación de un árbol filogenético (árbol guía) Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento progresivo n n Este árbol refleja la proximidad entre todas las secuencias y es empleado para realizar un reajuste de las secuencias Las dos secuencias más relacionadas son realineadas usando el algoritmo de Needleman. Wunsch convirtiéndose en un secuencia (consenso) Este proceso se continúa hasta que todas las secuencias quedan alineadas Clustal (http: //www. ebi. ac. uk/clustalw/index. html) es un programa que utiliza el método de alineamiento progresivo Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento progresivo Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento progresivo Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento progresivo Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento progresivo Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento progresivo Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento progresivo Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento progresivo, limitantes El método de alineamiento progresivo presenta algunas limitantes: n Este método no es adecuado para comparar secuencias de diferentes longitudes (global) n El resultado final proporcionado por éste también se ve muy influenciado por el orden de las secuencias (su fuerte dependencia de la asignación inicial del parentesco entre las secuencias, así como de la calidad del alineamiento inicial) n Debido a la naturaleza codiciosa del método el resultado depende del alineamiento inicial de pares de secuencias (propagación de errores) q q Si las dos primeras secuencias son muy similares, el alineamiento base contendrá pocos errores Si las dos secuencias son muy divergentes los errores y los huecos se irán propagando Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento progresivo, T-COFFE n n n T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation, http: //www. ebi. ac. uk/Tools/t-coffee/) realiza alineamiento progresivo al igual que Clustal La principal diferencia radica en que T-Coffee realiza un alineamiento de pares tanto local como global Para el alineamiento global usa Clustal mientras que para el alineamiento local usa Lalign (http: //www. ch. embnet. org/software/LALIGN_form. ht ml) Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento progresivo, T-COFFE n n n Los resultados de estas dos alineaciones son almacenadas para formar una biblioteca Para cada par de residuos en cada par de secuencias se calcula una puntuación de consistencia para los alineamientos globales y locales Cada alineamiento de pares se alinea con una tercera posible secuencia Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento progresivo, T-COFFE n n n El resultado es usado para refinar el alineamiento de pares original en un proceso llamado extensión de la biblioteca Basado en el refinamiento de alineamiento de pares se construye una matriz de distancias para obtener un árbol guía Finalmente se utiliza este árbol para realizar un AMS mediante el enfoque progresivo Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento progresivo, T-COFFE Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento iterativo n trabajan de forma similar a los métodos progresivos, pero realinean repetidamente las secuencias iniciales además de añadir nuevas secuencias al MSA en crecimiento Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento iterativo n n Este tipo de métodos se basan en la idea de que la solución óptima a un problema puede ser encontrada mediante la modificación iterativa de soluciones subóptimas existentes El proceso consiste en encontrar un alineamiento de “baja calidad” y mejorarlo gradualmente hasta que ya no sea posible Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento iterativo n n n PRRN (http: //align. genome. jp/prrn/) es un algoritmo para AMS que emplea una estrategia iterativa doble anidada Efectúa el AMS mediante dos conjuntos de iteraciones: la interna y la externa En la iteración externa, se genera un alineamiento inicial aleatorio que es usado para derivar un árbol UPGMA (Unweighted Pair Group Method with Arithmetic Mean, método de agrupamiento) Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento iterativo n n Los pesos son posteriormente aplicados para optimizar el alineamiento En la iteración interna, las secuencias son aleatoriamente divididas en 2 grupos El alineamiento aleatorizado es usado para cada grupo en el ciclo inicial, después de lo cual las posiciones del alineamiento en cada grupo son fijadas Los 2 grupos, cada uno tratado como una sola secuencia, son entonces alineados entre ellos usando programación dinámica global Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento iterativo n n n El proceso se repite de manera cíclica hasta que la puntuación total SP (suma de pares) no se incremente En este punto, el alineamiento resultante es usado para construir un nuevo árbol UPGMA Los nuevos pesos son aplicados para optimizar las puntuaciones del alineamiento El alineamiento optimizado es sujeto a un realineamiento en la iteración interior Este proceso es repetido durante varios ciclos hasta que no hay más mejora en las puntuaciones globales del alineamiento Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de alineamiento iterativo Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de basados en bloques n n n Las estrategias progresivas e iterativas se basan en gran medida en alineamiento global Por lo tanto surge la necesidad de generar estrategias para encontrar similitudes locales Las secuencias a alinear pueden compartir bloques más o menos conservados, separados por regiones largas bastante menos conservadas Cada bloque está construido con alineamientos locales de varios fragmentos en cada secuencia Una vez que se han fijado los bloques se utilizan otros métodos de alineamiento para alinear dichas regiones Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Método de basados en bloques n n DIALIGN 2 es un programa para encontrar similitudes locales Este método rompe las secuencias en secuencias más pequeñas y realiza todos los alineamientos de pares posibles Los segmentos con alta puntuación son denominados bloques Entre las diferentes secuencias, estos bloques son compilados de manera progresiva Lic. María Isabel Fonseca

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS n n Los modelos de Márkov ocultos (o HMM, del inglés Hidden Márkov Models) son modelos probabilísticos que asignan probabilidades a todas las posibles combinaciones de huecos, coincidencias y diferencias para determinar el más probable alineamiento múltiple de secuencias o conjunto de posibles MSA. En los términos de un típico modelo oculto de Márkov, los estados observados son las columnas individuales del alineamiento, y los estados "ocultos" representan la supuesta secuencia ancestral desde la cual las secuencias del conjunto problema se presume han descendido. Lic. María Isabel Fonseca

BÚSQUEDA DE DOMINIOS, MOTIVOS Y PATRONES Lic. María Isabel Fonseca

BÚSQUEDA DOMINIOS, MOTIVOS Y PATRONES n n n Dominio: Es una porción discreta de una proteína que se pliega independientemente del resto de la proteína y que posee su propia función. Motivo: es una región corta en una secuencia de proteína. Son partes altamente conservadas del dominio. Patrones: son posibles combinaciones de distintos tipos de residuos. Lic. María Isabel Fonseca

BÚSQUEDA DOMINIOS, MOTIVOS Y PATRONES, Pfam Lic. María Isabel Fonseca

BÚSQUEDA DOMINIOS, MOTIVOS Y PATRONES, Prosite Lic. María Isabel Fonseca

BÚSQUEDA DOMINIOS, MOTIVOS Y PATRONES, Interproscan Lic. María Isabel Fonseca

Ver más… http: //expasy. org/ Lic. María Isabel Fonseca

Ver más… http: //expasy. org/tools/#proteome n n n n Protein identification and characterization Other proteomics tools DNA -> Protein Similarity searches Pattern and profile searches Post-translational modification prediction Topology prediction Primary structure analysis Secondary structure prediction Tertiary structure Sequence alignment Phylogenetic analysis Biological text analysis Lic. María Isabel Fonseca

GRACIAS POR SU ATENCIÓN! Lic. María Isabel Fonseca
- Slides: 55