Breve introduccin a la bioinformtica Diego Mauricio Riao

Breve introducción a la bioinformática Diego Mauricio Riaño Pachón Septiembre 2006 diriano@uni-potsdam. de 11/1/2020

Objetivo l Mi objetivo con esta charla es que ustedes se enteren de la existencia de ciertos(as) conceptos, herramientas y estrategias básicas en bioinformática que con seguridad emplearán en el desarrollo de sus investigaciones en bioquímica y biología molecular. 11/1/2020

¿Qué es la bioinformática? CS Bio log ía , IT Bioinf h Mat 11/1/2020 at t S & • Cualquier tarea en que se usen computadores para manipular información biológica. • Uso de computadores para caracterizar moléculas biológicas y/o simular sus dinámicas. • Uso de computadores para almacenar, comparar, recuperar, o analizar información biológica.

Un poco de historia Se emplea por primera vez la palabra bioinformática en la literatura científica en 1991. l Pero se viene haciendo bioinformática desde hace, por lo menos, 40 años. l 1965. Dayhoff. Atlas de secuencias y estructuras de proteínas. 1970. Needleman-Wunsch. Algoritmo para comparación de secuencias. 1981. Smith-Waterman. Algoritmo para comparación de secuencias. 1982. Se crea Gen. Bank. 1985 Lipman & Pearson. Algoritmo FASTP para comparación “rápida” de secuencias. 1986. Se crea Swiss. Prot. Base de datos de secuencias anotadas fe proteínas. 1990. Altschul y cols. Algoritmo BLAST para comparación “rápida” de secuencias. 1988. Se establece el NCBI. 1991. Iniciativa Genoma Humano. 1995. Primer genoma secuenciado. H. influenzae. 11/1/2020

Sistemas operativos l Comunicación entre hardware y programas. Windows UNIX Open. Source Parcialmente abierto Estables, multiusuario, multitarea 11/1/2020 Cerrado, propietario ?

Principales tareas en bioinformática DNA 11/1/2020 RNA Proteína

Principales tareas en bioinformática l l l 11/1/2020 Ensamblar de genomas. Anotación de genomas (Predicción de regiones codificantes, genes de ARN). Comparación de secuencias (genes y genomas). Predicción del plegamiento de proteínas. Reconstrucción y análisis de redes (regulación, interacción, metabólicas) Mantener todo la anterior en bases de datos

Principales tareas en bioinformática l Ensamblar de genomas. http: //www. bio. davidson. edu/courses/GENOMICS/method/shotgun. html 11/1/2020

Principales tareas en bioinformática l 11/1/2020 Anotación de genomas (Predicción de regiones codificantes, genes de ARN).

Principales tareas en bioinformática l Comparación de secuencias (genes y genomas). Tomado de: http: //en. wikipedia. org/wiki/Sequence_alignment http: //genome. ucsc. edu/ http: //www. isrec. isb-sib. ch/java/dotlet/Dotlet. html 11/1/2020

Principales tareas en bioinformática l Predicción del plegamiento de proteínas. http: //folding. stanford. edu/ 11/1/2020

Principales tareas en bioinformática l Reconstrucción de redes (regulación, interacción, metabólicas), a partir de microarreglos, Y 2 H, proteómica http: //web. wi. mit. edu/young/regulator_network/ 11/1/2020 H. Jeong, S. P. Mason, A. -L. Barabási & Z. N. Oltvai, "Lethality and centrality in protein networks", Nature, Vol 411, p 41, 3 May 2001

Unidades de información l. ADN l. ARN l. Filogenias l. Rutas metabólicas l. Proteínas l. Interacciones l. Estructuras l. Mutaciones http: //www. math. ntua. gr/~sofia/DNA. jpg ACGTGGACGT … ADN, ARN, proteínas 11/1/2020 Representación Digital

¿Dónde y cómo están almacenados los datos? 11/1/2020

Bases de datos • Colección de cosas: direcciones, teléfonos, nombres, artículos. • La colección debe estar: w. Estructurada w. Búsquedas (índices) w. Actualizaciones periódicas w. Referencias cruzadas (otras DBs, entre registros) • Incluye herramientas para: actualizar, insertar, eliminar y extraer datos. • Diferentes formatos: archivos planos, DBs relacionales, XML etc. 11/1/2020

Bases de datos 11/1/2020

Bases de datos biológicas l l l l Gen. Bank, DDBJ, EMBL Secuencias de Ac. Nuc Swissprot Secuencias de a. a. MEDLINE Literatura RSCB Protein Data Bank Estructuras 3 D KEGG Rutas Metabólicas Swiss 2 DPAGE Geles 2 D, datos EM Pfam, PROSITE, Inter. Pro Dominios de proteínas TRANSFAC, PLACE Cis-Acting Regulatory Elements ¿Quieren mas? http: //www. expasy. org/links. html 11/1/2020

Bases de datos de secuencias Gen. Bank DDBJ EMBL Más de 165000 especies biológicas diferentes 11/1/2020

Formato Gen. Bank Formatos de registros en DBs 11/1/2020 Similar: SW EMBL

Formato Fasta Formatos de registros en DBs 11/1/2020 >gi|30677865|ref|NM_099983. 2| A. Thaliana m. RNA AAATTATTAGATATACCAAACCAGAGAAAACAAATACATAATCG AGAGATCGACGGCGAAGCTCTTTACCCGGAAACCATTGAAATCG AGTTGGGTTCCGAACGACGAGGAGCTCGTTGGTC AACACTAGCCGCGACGTTGAAGTAGCCATCAGCGAGGTCAACAT GCTTCCAGTCAAAGTACAAATCGAGAGATGCTATGTGGTACTTC GAATCGACAGAGCAGGACAACGGTTTCTGGTAAATGGAAGCTTA CAGTGGGGATTTTGTAGTGAGGGCTTTCGTGGTAAGATTGGTCA GAAGATACCCTGACAAAACCAAATCTGATTGGGTTATCCACGAG TCAGAGGACATATGTCATCTGCAGACTTGAGTACAAGGGTGATG AAGTATATGTAATAATAATTAGTGCATCGTTTTGTGGTGTAGTT La mayoría de programas para análisis de secuencias aceptan (o requieren) este formato.

¿Dónde buscar las información? l l l l 11/1/2020 Gen. Bank, DDBJ, EMBL Secuencias de Ac. Nuc Swissprot Secuencias de a. a. MEDLINE Literatura RSCB Protein Data Bank Estructuras 3 D KEGG Rutas Metabólicas Swiss 2 DPAGE Geles 2 D, datos SM Pfam, PROSITE, Inter. Pro Dominios de proteinas TRANSFAC, PLACE Cis-Acting Regulatory Elements

¿Dónde buscar las información? l Portales de acceso centralizado l Entrez(USA), SRS(Europa). 11/1/2020 Bases de datos Herramientas

Otros sitios importantes l EBI l Expasy http: //www. ebi. ac. uk http: //www. sanger. ac. uk http: //www. ncbi. nlm. nih. gov http: //www. isb-sib. ch/ http: //www. expasy. ch l IBUN http: //bioinf. ibun. unal. edu. co l Sanger l NCBI l SIB 11/1/2020

¿Cómo extraer secuencias de las bases de datos? Usando palabras clave 11/1/2020

Búsquedas empleando palabras clave l Búsquedas simples: http: //www. ncbi. nlm. nih. gov Base de datos 11/1/2020 Palabra(s) clave(s)

Búsquedas empleando palabras clave l Argumentos para búsquedas avanzadas: http: //www. ncbi. nlm. nih. gov/books/bv. fcgi? rid=helpentrez. table. Entrez. Help. T 8 EJEMPLO: Extraer las secuencias proteicas de la RNA polimerasa humana publicadas en 1995. 11/1/2020

Búsquedas empleando palabras clave l 11/1/2020 Resultados

¿Cómo extraer secuencias de las bases de datos? Aprovechando la similitud entre secuencias 11/1/2020

Búsquedas empleando similaridad entre secuencias Determinar la función de una secuencia (nt o a. a. ) recién determinada en el laboratorio. l Determinar los dominios presentes en una proteína. l Principios subyacentes. . . A X Y Secuencias similares, ancestría común Secuencias similar. . . Estructura similar. . . Funci ón similar 11/1/2020 . . . X Y Secuencias similares, convergencia

Alineamiento de secuencias l Identificar regiones que son históricamente similares (relacionadas por ancestría común, homología) Tomado de: http: //en. wikipedia. org/wiki/Sequence_alignment El computador siempre producirá un resultado, no es inteligente, ustedes si. 11/1/2020

Alineamiento de secuencias parámetros Penalización de “gaps”. l Evaluación de la similaridad. l Reglas de alineamiento (global, local, etc. ). l parametros ≠alineamiento Alineamiento óptimo, de un conjunto de alineamientos es el mejor dados los parámetros con que se realizó. 11/1/2020

Alineamiento de secuencias “gaps” Inserciones/deleciones en el proceso evolutivo = “gaps” en el alineamiento. l Penalización por insertar un “gap”. l Penalización por extender un “gap”. l 11/1/2020

Alineamiento de secuencias similaridad ¿Cómo evaluar la similitud? Matrices de sustitución (únicamente para proteínas) 11/1/2020

Similitud y homología Similitud Que tanto dos secuencias están relacionadas. Porcentaje de identidad o conservación de las secuencias. Identidad Que tanto dos secuencias son invariantes entre sí, idénticas. Homología Relación por divergencia evolutiva desde un ancestro común. La ‘proteína X is 43% homologa a la proteína Y’ INCORRECTO Las dos secuencias pueden ser 43% idénticas o 43% similares. No existe nada como un porcentaje de homología. Nadie-nada puede ser parcialmente homólogo: Sería como estar parcialmente muerto o parcialmente embarazada. Algo puede o no ser homólogo de algo más (es una característica binaria). Petsko 2001, Genome Biology 2(2) 11/1/2020

Similitud y homología • La similitud puede ser un indicador de homología. • Si dos secuencias son similares a lo largo de toda su longitud, generalmente son homólogas. • >40% de identidad de secuencia en proteínas es un buen indicador de homología. • 50% de similitud puede darse al azar en secuencias cortas. • Regiones de baja complejidad (repeticiones) pueden ser altamente similares sin ser homólogas. • Secuencias homólogas no siempre son altamente similares. 11/1/2020

Alineamiento de secuencias global & local l Alineamiento global (1970 por Saul Needleman and Christian Wunsch): Similares a lo largo de toda la longitud de las secuencias comparadas. LGPSTKDFGKISESREFDN | |||| | LNQLERSFGKINMRLEDA- l Alineamiento local (1981 por Temple Smith and Michael Waterman): Similaridad en un “pequeño” fragmento (subsecuencia). -----FGKI-----|||| -----FGKI----- 11/1/2020

Alineamiento de secuencias global: problema Número de posibles alineamientos globales: Un par de secuencias de 100 a. a. podrían ser alienadas en 1077 diferentes formas. Pero, se puede usar la programación dinámica, para encontrar el alineamiento óptimo en forma eficiente, en un tiempo razonable. 11/1/2020

Alineamiento de secuencias global: algoritmo Programación dinámica http: //www. sbc. su. se/~pjk/molbioinfo 2001/dynprog/dynamic. html Resolver un problema, resolviendo sub-problemas G A A T T C A G T T A (secuencia #1) G G A T C G A (secuencia #2) Sistema de puntaje Match=1 Mismatch=0 Gap=0 Reglas Gap en secuencia #2 Gap en secuencia #1 i: secuencia #2 Secuencias G A A j: secuencia #1 T T C A G T T A 0 0 0 G 0 1 1 1 G 0 1 1 1 1 2 2 A 0 1 2 2 2 2 2 3 T 0 1 2 2 3 3 3 3 C 0 1 2 2 3 3 4 4 4 G 0 1 2 2 3 3 4 4 5 5 A 0 1 2 3 3 3 4 5 5 6 S(2, 2)=max{2, 1, 1} S(3, 2)=max {1, 0, 0} S(1, 1)=max Online: http: //web. cecs. pdx. edu/~ps/Cap. Stone 03/dynvis/Similarity. Applet. html 11/1/2020 GAATTCAG T T A GGA-TC-G - - A

Alineamiento de secuencias global & local: ejemplos l ¿Cuándo usar alineamiento global? ¡ ¡ l Buscar secuencias similares a lo largo de la secuencia completa. Reconstrucciones filogenéticas. ¿Cuándo usar alineamiento local? ¡ ¡ ¡ Secuencias que comparten un motivo o dominio corto. Comparar secuencias de proteínas contra ADN genómico. Compara secuencias con altos grados de divergencia. Online: http: //web. cecs. pdx. edu/~ps/Cap. Stone 03/dynvis/Similarity. Applet. html 11/1/2020

¿Usar smith-waterman para hacer búsquedas en Gen. Bank? NO! Se necesitan atajos. A menos que se cuente con hardware especialmente diseñado. 11/1/2020

BLAST: Basic Local Alignment Search Tool Buscar regiones de similaridad local entre secuencias http: //www. ncbi. nlm. nih. gov/Education/BLASTinfo/BLAST_algorithm. html 11/1/2020

BLAST: Basic Local Alignment Search Tool Programas de BLAST 11/1/2020 http: //www. ncbi. mln. nih. gov/BLAST

BLAST: Basic Local Alignment Search Tool Parametros de búsqueda 11/1/2020

BLAST: Basic Local Alignment Search Tool Resultados 11/1/2020

BLAST: Basic Local Alignment Search Tool Idéntica 11/1/2020

BLAST: Basic Local Alignment Search Tool Idéntidad Conservación 11/1/2020

Alineamiento múltiple l Para que? Motivos conservados entre secuencias. Historia evolutiva de un grupo de secuencias. Alineamientos pareados=exactos=costosos computacionalmente Alineamientos múltiples =aproximados=atajos Hardware especializado o atajos 11/1/2020

Alineamiento múltiple l Clustal. W: 11/1/2020 alineamiento progresivo

Alineamiento múltiple: clustalw algoritmo 11/1/2020 http: //www. bscbioinformatics. com/Stu/Dbq/clustal. W. pdf#search=%22 clustalw%20 algorithm%22

Alineamiento múltiple: Clustal. W problemas • Si las secuencias solo son similares en regiones cortas, y muy diferentes en el resto, habrá problemas en el alineamiento, por que Clustal. W trata de hacer alineamientos globales. • Si una de las secuencias tiene una inserción muy grande con relación a las demás. • Si una secuenicas contiene un elemento repetido (un dominio) mientras que las demás solo tienen una copia. 11/1/2020

Alineamiento múltiple: alternativas l Nuevas estrategias: ¡ T-Coffee http: //www. ch. embnet. org/software/TCoffee. html ¡ MUSCLE http: //www. drive 5. com/muscle/ ¡ PROBCONS http: //probcons. stanford. edu/ 11/1/2020

Representando motivos o dominios Consenso Patrón Perfil/HMM-logo 11/1/2020 x. GCFNCGEEGHISKDCPE C-x{2}-C-x{3}-G-H-[IRWIVW]-x{3}-C-[PGD]

Representando motivos o dominios Profile HMM 11/1/2020 D D D I I beg M M M end 0 1 2 3 4

Dominios de proteínas PFAM Colección de alineamientos multiples y perfiles-HMM 11/1/2020

Secuenciación de genomas 11/1/2020

Algunos números sobre los genomas Tamaño estimado (bases) Número estimado de genes Densidad génica promedio Homo sapiens 3*109 ~ 30000 1 gen/100000 bases Mus musculus 3*109 ~ 30000 1 gen/100000 bases Drosophila melanogaster 1. 8*108 13600 1 gen/9000 bases Arabidopsis thaliana 1. 3*108 ~30000 1 gen/4000 bases Caenorhabditis elegans 9. 7*107 19100 1 gen/5000 bases Saccharomyces cerevisiae 1. 2*107 6300 1 gen/2000 bases Escherichia coli 4. 7*106 3200 1 gen/1400 bases H. influenzae 1. 8*106 1700 1 gen/1000 bases Organismo Base de datos para cada proyecto genoma 11/1/2020

Genómica estructural l Predecir genes, codificante o no? Predecir genes codificantes, estructuras de ARN Algoritmo (ingenuo) para buscar Marcos de Lectura Abiertos. • Itere sobre cada uno de los marcos: • Itere hasta el final de la secuencia: • Busque primer/siguiente codón de inicio • Continúe hasta el siguiente codón de parada • Almacene el tamaño y la ubicación del ORF • Presente una lista de los ORF encontrados, ordenados por longitud en orden descendiente 11/1/2020 Señales transcripcionales y traduccionales, sesgos en la composición de secuencias, limites exón/intrón

Genómica Funcional (transcriptómica) 11/1/2020

Proteómica 11/1/2020

Áreas mas excitantes actualmente 11/1/2020

Genómica comparada 11/1/2020 http: //biology. plosjournals. org/perlserv? request=get-document&doi=10. 1371/journal. pbio. 0000058

Océanos de datos l Integrar diferentes fuentes de información Web semántica 11/1/2020

Océanos de datos l Minería de datos de literatura Recuperar información de las DBs(Information Retrieval). Ej: Pub. Med Reconocimiento de entidades (Entity recognition). Identificar nombres de genes, proteínas, etc. Extracción de información (Information extraction). Extraer relaciones entre entidades biológicas. Descubrimientos. 11/1/2020

Océanos de datos l Minería 11/1/2020 de datos de literatura

Caja de herramientas para el análisis de secuencias l Use y cree código fuente abierto: ¡ PERL ¡ EMBOSS ¡ BLAST ¡ HMMER ¡R 11/1/2020

Libros de referencia ¡ ¡ Matemáticas ¡ ¡ ¡ ¡ l "Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. " Richard Durbin, S. Eddy, A. Krogh, and G. Mitchison. Cambridge University Press. 1999. "Bioinformatics: The Machine Learning Approach. " Pierre Baldi and Soren Brunak. MIT Press. 1998. "Statistical Methods in Bioinformatics: An Introduction. " Warren Ewens and Gregory Grant. Springer Verlag. 2001. "Computational Molecular Biology: An Algorithmic Approach. " Pavel Pevzner. MIT Press. 2000. "Algorithms on Strings, Trees, and Sequences: Computer Science and Computational Biology. " Dan Gusfield. Cambridge. University Press. 1997. “Introduction to Computational Biology: Maps, Sequences and Genomes”, Michael S. Waterman. Chapman and Hal/CRC. Orientados a la programación ¡ ¡ 11/1/2020 "Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins. " Ed. , Andreas D. Baxevanis and B. F. Francis. Ouellette. 2 nd Edition. Wiley Inter. Science Press, 2001. "Bioinformatics: Sequence, Structure, and Databanks - A Practical Approach. " Ed. , Des Higgins and Willie Taylor. Oxford. University Press. 2000. "Introduction to Computational Molecular Biology. " Joao Meidanis and Joao Carlos Setubal. PWS Publishing, Boston, 1997. “Beginning Perl for Bioinformatics”, James D. Tisdall, O’Reilly and Associates, 2001. "Developing Bioinformatics Computer Skills. " Cynthia Cibas and Per Jambeck. O'Reilly and Associates. 2001.

Otras fuentes de información l http: //www. ebi. ac. uk/2 can/home. html http: //www. bioinformatics. org http: //www. ncbi. nlm. nih. gov http: //wwww. perl. com http: //www. bioperl. org/ l Revistas l l ¡ ¡ ¡ 11/1/2020 ¡ Journal of Computational Biology Bioinformatics Nucleic Acids Research BMC Bioinformatics Briefings in Bioinformatics In silico Biology. . .

¿Interesados? l Grupo de bioinformática en el IBUN: ¡ Profesor Emiliano Barreto Hernández ¡ http: //bioinf. ibun. unal. edu. co l Grupo de bioinformática en Ingeniería ¡ http: //dis. unal. edu. co/~biocomp/ l Bioinf en el Dpto. de Bio. Mol Universidad de Potsdam, Alemania. ¡ diriano@uni-potsdam. de 11/1/2020

http: //molbio 00. bio. uni-potsdam. de/Intro. Bioinf. Col 2006. ppt 11/1/2020

11/1/2020

Ejercicios, ejemplos http: //cnx. org/content/m 11026/latest/ http: //www. mathworks. com/access/helpdesk_r 13/help/toolbox/bioinfo/fp 35834 dup 12. html 11/1/2020