Introducci a la Bioinformtica la recerca biomdica in

Introducció a la Bioinformàtica: la recerca biomèdica in silico © 2006 Plataforma Bioinformàtica de

Motivos, estructura y función © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: Objetivos • Análisis de la secuencia de aa de una proteína • alineamiento con proteínas homólogas • búsqueda de zonas conservadas • Predecir la presencia de estructuras secundarias • Analizar la presencia de motivos © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: estructura secundaria Posibles estructuras secundarias • Hélice alfa • Random coil

Motivos y estructuras: métodos de predicción • Métodos de predicción de estructura secunadaria basados en el analisis de la estructura primaria: CHOU-FASMAN DELEAGE&ROUX GARNIER-ROBSON Perfiles de densidad de carga Perfiles de hidroafinidad (hidrofobicidad/hidrofilicidad) Perfiles de flexibilidad. (flexibilidad de la cadena peptídica) © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: métodos de predicción CHOU-FASMAN • Método estadístico basado en estructuras cristalográficas ya resueltas • Calcula un parámetro conformacional para cada residuo de la proteína • Este parámetro refleja la preferencia de este residuo en hallarse en un tipo de estructura determinado • Inicialmente se basaron en 15 proteínas, después en 24 y finalmente en 64 • Cuatro grupos de proteínas: alfa, beta, alfa+beta, alfa/beta Limitaciones: no se puede usar con proteínas muy distintas a las 64 proteínas con la estructura conocida en que se basa este método © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: métodos de predicción DELEAGE&ROUX -Método estadístico basado en tres pasos: predicción de la clase de proteína (según comp. Aa) predicción de la estructura secundaria (frecuencia de cada residuo) nueva predicción optimizando parámetros Limitaciones: si la predicción de la clase de proteína es correcto, la predicción de estructura secundaria es más acertada que en los otros métodos. Si la proteína no queda bien clasificada, la predicción no es fiable. © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: métodos de predicción GARNIER-ROBSON -Método estadístico basado en estructuras cristalográficas ya resueltas (25) -No sólo tiene encuenta la preferencia de un aa por una estructura, sino que además considera el entorno de este aa (ventana de 16 aa) -Fundamentalmente se basa en los ángulos f y y del enlace peptídico y en los puentes de hidrógeno de las estructuras secundarias. Limitaciones: la proteína problema no debe diferir substancialmente de las 25 proteínas de estructura conocida. © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: métodos de predicción Perfiles de hidroafinidad (hidrofobicidad/hidrofilicidad) -Eisemberg moment -Kyte-Doolitte Perfiles de flexibilidad. (flexibilidad de la cadena peptídica) -Karplus flexibility Perfiles de probabilidad de encontrase en la superfície de la proteína -Emini surface probability Perfiles de densidad de carga -Charge density © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: métodos de predicción • Métodos de predicción de estructura secunadaria basados NO solo en el analisis de la estructura primaria: Neural Networks Models GOR – METHOD (Garnier, Ousguthorpe and Robson) PSA – METHOD (Protein Sequence Analysis) © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: métodos de predicción GOR – METHOD (Garnier, Ousguthorpe and Robson) • Se basa en la consideración de que la estructura que adoptan los aa que flanquean un determinado aa central determinan la estructura que adapta este aa central. • El método estudia los 8 aa N-terminales y los 8 aa C-terminal. Establece tres o cuatro (GOR III /GOR IV) matrices: una cuando el aa central es alfa, otra para beta, otro para random, y otra turn. • Usa información teórica para la decisión final. © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: métodos de predicción Neural Networks Models Estos métodos contemplan tres niveles: • El primer nivel: la preedición se realiza sobre alineamientos múltiples • El segundo nivel: se consideran los elementos de estructura secundaria en las proteínas homologa • El tercer nivel: promediar las predicciones obtenidas independientemente. © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: Interpro PSA – METHOD (Protein Sequence Analysis) • Este método predice la estructura secundaria de proteínas sin homología de secuencia y sin homología de estructura. • Se basa en 15 modelos matemáticos. Se han establecido tres o cuatro superclases. Los modelos matemáticos establecen las restricciones de cada tipo de estructura alfa, beta, etc. . en cada superclase. © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: métodos de predicción • http: //cubic. bioc. columbia. edu/predictprotein/ http: //us. expasy. org • http: //bmerc-www. bu. edu/ http: //npsa-pbil. ibcp. fr/ © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: Interpro © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: métodos de predicción © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: busqueda de motivos Dominio/motivo/patron • Muchas proteínas tienen estructura «modular» • Estimación: ~ 3 dominios / proteína • Dominios (secuencias o estructuras conservadas) identificadas por alineamiento múltiple de secuencia Métodos para definir dominios • Patrones (expresión regular); usado en dominios muy conservado • Perfiles (matrices de pesos): tablas de dos dimensiones por posición específicos para match-, gap-, y insertion, derivados del alineamiento de secuencia de la familia, usado para dominios menos conservado • Hidden Markov Model (HMM); modelo probabilístico. © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: busqueda de motivos Bancos de datos de motivos/familia PROSITE Patrones / Perfiles Pro. Dom Alineado de motivos (PSI-BLAST) (Pfam B) PRINTS Alineado de motivos Pfam HMM (Hidden Markov Models) SMART HMM TIGRfam HMM DOMO Alineado de motivos BLOCKS Alineado de motivos (PSI-BLAST) CDD(CDART) PSI-BLAST(PSSM) de Pfam y SMART © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: busqueda de motivos • consiste en patrones y perfiles significativos biológicamente • ayudar a determinar a que familia de proteínas pertenece la secuencia. http: //us. expasy. org/prosite/ © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: busqueda de motivos Generar Patrón Prosite • G-H-E-x(2)-G-x(5)-[GA]-x(3) © 2006 Plataforma

Motivos y estructuras: busqueda de motivos Ejemplo Patrón Prosite <A-x-[ST](2)-x(3, 5)-{V} • < N-terminal • x cualquier aa • [ST] serina o treonina dos veces • x(3, 5) cualquier aa de 3 a 5 veces • {V} cualquier aa excepto valina © 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: busqueda de motivos Patrón Prosite • Http: //www. expasy. org/prosite/ ©

Motivos y estructuras: busqueda de motivos Patrón Prosite © 2006 Plataforma Bioinformàtica de la

Motivos y estructuras: busqueda de motivos Perfil Prosite © 2006 Plataforma Bioinformàtica de la

Motivos y estructuras: Interpro Inter. Pro integra: • • • Pfam PROSITE Pro. Dom

Motivos y estructuras: Interpro Inter. Pro www. ebi. ac. uk/interpro © 2006 Plataforma Bioinformàtica

Ejercicio 1 Determinar la predicción de estructura secundaria de las siguientes proteínas. Utilizar diferentes métodos y decidir que tipo de estructura es el mayoritario. Que proteasa utilitarias para aislar el C-terminal (aprox 100 últimos aa) de la histona H 10. Te serviría esta misma proteasa para los otros subtipos El C-terminal de esta proteína tiene putativos sitios de fosforilacions para la CK 2 y para la PKC. © 2006 Plataforma Bioinformàtica de la UAB

Secuencias: H 10, TENSTSAPAAKPKRAKASKKSTDHPKYSDMIVAAIQAEKNRAGSSRQSIQKYIKSHY KVGENADSQIKLSIKRLVTTGVLKQTKGVGASGSFRLAKSDEPKKSVAFKKTKKEIK KVATPKKASKPKKAASKAPTKKPKATPVKKAKKKLAATPKKAKKPKTVKAKPVKAS KPKKAKPVKPKAKSSAKRAGKKK H 12 SETAPAAPAAAPPAEKAPVKKKAAKKAGGTPRKASGPPVSELITKAVAASKERSGV SLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASGSFKLNKKAAS GEAKPKVKKAGGTKPKKPVGAAKKPKKAAGGATPKKSAKKTPKKAKKPAAATVTK KVAKSPKKAKVAKPKKAAKSAAKAVKPKAAKPKVVKPKKAAPKKK H 13 SETAPLAPTIPAPAEKTPVKKKAKKAGATAGKRKASGPPVSELITKAVAASKERSGV SLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASGSFKLNKKAAS GEGKPKAKKAGAAKPRKPAGAAKKPKKVAGAATPKKSIKKTPKKVKKPATAAGTK KVAKSAKKVKTPQPKKAAKSPAKAKAPKPKAAKPKSGKPKVTKAKKAAPKKK © 2006 Plataforma Bioinformàtica de la UAB

Ejercicio 2 Para una proteína dada (ejemplo TDF humana): • ¿Cómo saber si contiene dominios funcionales? • ¿Qué otras proteínas contienen ese mismo dominio funcional? © 2006 Plataforma Bioinformàtica de la UAB

Ejercico 3: Has realizado un protocoloo de purificaciónn de la prothymosin alfa humana (Q 15200). En lugar de obtener una sola proteína, obtienes tres, con las siguientes características: proteína 1 Mr: 16000 p. I: 7 proteína 2 Mr: 12000 p. I: 3. 7 proteina 3 Mr: 11000 p. I: 6 Cual de ellas es la correcta, Que estrategia puedes utilizar para comprobar que realmente esta es tu proteína. © 2006 Plataforma Bioinformàtica de la UAB

• Ejercicio 4: El domino globular de la histona H 5 (1 Hst) se ha resuelto por cristalografía. Quieres estudiar la estabilidad de la primera hélice alfa. Que aproximación puedes seguir. © 2006 Plataforma Bioinformàtica de la UAB