Que es Bioinformtica Biologa Computacional Bioinformatica recopilacin y

¿Que es Bioinformática/ Biología Computacional? • Bioinformatica: recopilación y almacenamiento de información biológica (AND/ARN) proteina • Biología computacional: El desarrollo de algoritmos y métodos estadísticos para el análisis de datos biológicos. • Aunque en concepto son diferentes, los términos Bioinformática y Biología computacional se usan indistintamente.

¿Que es Bioinformática/ Biología Computacional? Source: http: //ccb. wustl. edu/

¿Que es diferente en BC? • No se busca la solución “exacta” sino la biológicamente relevante – No interesan los mínimos globales porque la función de costo es heurísitca y puede tener mínimos irrelevantes. – Se introduce la noción de significado biológico de una solución óptima o quasi-óptima desde el punto de vista matemático • La definición del problema es imprecisa (entre otras cosas por falta de conocimiento)

¿Que es diferente en BC? • Es prioritario analizar conjuntos de soluciones quasi-óptimas, en lugar de únicamente la óptima. • La validación experimental de los algoritmos tiene precedencia sobre el análisis matemático. • La definición del modelo es la parte mas relevante de la resolución del problema. • Bioinformática =/= Biología + Computación

¿Porqué está de actualidad la BC? • Oferta/Demanda: Hay muy poca gente con una formación adecuada en biología e informática • Los proyectos de secuenciación genómica, análisis en microchips (microarrays), proteómica, metabolómica, etc. … estan produciendo enormes cantidades de datos que tienen que ser analizados. • Ahorra gran cantidad de tiempo y dinero

Un poco de Historia Evolution Classification in biology Charles Darwin (1807 -1882) Genetics Carl von Linne (1707 -1778) 1869 1952 1953 1970 1983 Discovery of nuclein Friedrich Miescher (1844 -1895) DNA is the genetic material Hershey-Chase Molecular structure of DNA Chargaff, 1962 Nobel Prize James Watson, Francis Crick Recombinant DNA, DNA sequencing 1980 Nobel Prize Walter Gilbert, Frederick Sanger, Paul Berg Amplification of DNA (PCR) Kary Mullis & others, 1993 Nobel Prize Gregor Mendel (1822 -1884)

Un poco de Historia H. influenzae S. cerevisiae C. elegans Drosophila H. sapiens 1. 8 Mbp 12 Mbp 100 Mbp 180 Mbp 3200 Mbp Overview: TIGR (The institute of genomic research) http: //www. tigr. org/tdb/mdbcomplete. html http: //www. tigr. org/tdb/mdbinprogress. html (1995) (1997) (1998) (2000) (2001)

Un poco de Historia Number of Entries in EMBL Database June 2002: 23. 860. 228. 282 Bases; 17. 807. 526 Entries Source HUSAR

Un poco de Historia 15 February 2001 Secuenciacion completa del genoma humano El genoma humano es: • It is small • It is empty • It is unoriginal • It is repetitive

Comparación de genomas ORGANISM CHROMOSOMES GENOME SIZE GENES Homo sapiens (Humans) 23 3, 200, 000 ~ 30, 000 Mus musculus (Mouse) 20 2, 600, 000 ~30, 000 Drosophila melanogaster (Fruit Fly) 4 180, 000 ~18, 000 Saccharomyce s cerevisiae (Yeast) Zea mays (Corn) 16 14, 000 ~6, 000 10 2, 400, 000 ? ? ?

La complejidad del genoma NO se correlaciona con el número cromosomas Homo sapiens Lysandra atlantica Ophioglossum reticulatum 250 4646 1260

La complejidad del genoma NO se correlaciona con su tamaño Homo sapiens 3, 4 x 10 9 bp Amoeba dubia 6, 7 x 10 11 bp

La complejidad del genoma NO se correlaciona con el número de genes ~50, 000 genes ~31, 000 genes ~26, 000 genes

Comparación con genomas cercanos CHIMP GENOME Chimpanzees are similar to humans in so many ways: they are socially complex, sensitive and communicative, and yet indisputably on the animal side of the man/beast divide. Scientists have now sequenced the genetic code of our closest living relative, showing the striking concordances and divergences between the two species, and perhaps holding up a mirror to our own humanity.

Humanos vs Primates La comparación del genoma humano con el de los Primates dio como resultado diferencias de solo el 1% Homo sapiens y Pan troglodytes (Orangutan) 99. 0% identical Homo sapiens y Chimpance 99. 9 % identical !!!!! Humans are not at all original in comparison with other vertebrates. From Olson and Varki (2002) Nat Rev Gen 4: 20 -28

Dogma Central de la Biología Molecular The central dogma states that once “information” has passed into protein, it cannot get out again. The transfer of information from nucleic acid to nucleic acid, or from nucleic acid to protein may be possible, but transfer from protein to protein, or from protein to nucleic acid, is impossible. Information means here the precise determination of sequence, either of bases in the nucleic acid or of amino acid residues in the protein. Francis Crick, 1958 DNA RNA Phenotype protein c. DNA

Los límites • El dogma: Gen Proteina Función No se puede aplicar a todas las funciones biológicas. • Los procesos celulares implican una gran cantidad de productos genicos asi como interacciones entre ellos. Los procesos celulares son complejos y multidimensionales. Condiciones que llaman la atención sobre la necesidad de hacer otro tipo de investigación…. ahi es donde entra en juego la bioinformatica.

Biología Molecular: un resumen • • • Células ADN (DNA) ARN (RNA) Amino Acidos (AA) Proteinas

Biología Molecular: Células • Sistema complejo envuelto en una membrana • Los organismos pueden ser unicelulares (bacteria, levadura) o multicelulares • Humanos: – 60 trillion células – 320 tipos de células Célula Animal www. ebi. ac. uk/microarray/ biology_intro. htm

Biología Molecular: Procariotas Vs Eucariotas • Eucariotas: tienen una membrana nuclear y orgánulos (plantas, animales, hongos, …) • Procariotas: no tienen una membrana Que separe núcleo y orgánulos (bacteria) • NO todos los organismos unicelulares son procariotas (levadura) BIOS Scientific Publishers Ltd, 1999

GCCACATGTAGATAATTGAAACTGGATCCTCATCCCTCGCCTTGTACAAAAATCAACTCCAGATGGATCTAAG ATTTAAATCTAACACCTGAAACCATAAAAATTCTAGGAGATAACACTGGCAAAGCTATTCTAGACATTGGCTT AGGCAAAGAGTTCGTGACCAAGAACCCAAAAGCAAATGCAACAAAAATAGGTGGGACCTGATT AAACTGAAAAGCCTCTGCACAGCAAAAGAAATAATCAGCAGAGTAAACAGACAACCCACAGAATGAGAGAAAA TATTTGCAAACCATGCATCTGATGACAAAGGACTAATATCCAGAATCTACAAGGAACTCAAATCAGCAA GAAAAAAATAACCCCATCAAAAAGTGGGCAAAGGAATAGACAATTCTCAAAATATACAAATGGCCAATA AACATACGAAAAACTGTTCAACATCACTAATTATCAGGGAAATGCAAATTAAAACCACAATGAGATGCCACCT TACTCCTGCAAGAATGGCCATAATAAAAATCAAAAAAGAATAAATGTTGGTGTGAATGTGGTGAAAAGA Es un alfabeto de 4 caracteres GAACACTTTGACACTGCTGGTGGGAATGGAAACTAGTACAACCACTGTGGAAAACAGTACCGAGATTTCTTAA AGAACTACAAGTAGAACTACCATTTGATCCAGCAATCCCACTACTGGGTATCTACCCAGAGGAAAAGAAGTCA Este alfabeto de 4 caracteres contiene suficiente información para TTATTTGAAAAAGACACTTGTACATGTTTATAGCAGCACAATTTGCAAAGATATGGAACCAGT crear organismos complejos, mediante el uso de largas palabras CTAAATGCCCATCAACAAATGGATAAAGAAAATATGGTATACACCATGGAACACTACTCAGCCAT AAAAAGGAACAAAATAATGGCAACTCACAGATGGAGTTGGAGACCACTATTCTAAGTGAAATAACTCAGGAAT GGAAAACCAAATATTGTATGTTCTCACTTATAAGTGGGAGCTATGAGGACAAAAGGCATAAGAATTAT ACTATGGACTTTGGGGACTCGGGGGAAAGGGTGGGAGGGGGATGAGGGACAAAAGACTACACATTGGGTGCAG Similitud con el codigo binario TGTACACTGCTGAGGTGATGGGTGCACCAAAATCTCAGAAATTACCACTAAAGAACTTATCCATGTAACTAAA AACCACCTCTACCCAAATAATTTTGAAATAAAAATATTTTAAAAAGAACTCTTTAAAATAAT GAAAAGCACCAACAGACTTATGAACAGGCAATAGAAAAAATGAGAAATAGAAAGGAATACAAATAAAAGTACA GAAAATATGGCAAGTTATTCAACCAAACTGGTAATTTGAAATCCAGATTGAAATAATGCAAAAGG CAATTTCTGGCACCATGGCAGACCAGGTACCTGGATGATCTGTTGCTGAAAACAACTGAAAATGCTGGTTAAA ATATATTAACACATTCTTGAATACAGTCATGGCCAAAGGAAGTCACATGACTAAGCCCACAGTCAAGGAGTGA GAAAGTATTCTCTACCATGAGGCCAGGGCAAGGGTGTGCACTTTTTCTTCTGTTCATTGAATAC AGTCACTGTGTATTTTACATACTTTCATTTAGTCTTATGACAATCCTATGAAACAAGTACTTTTAAAAAAATT GAGATAACAGTTGCATACCGTGAAATTCATCCATTTAAAGTGAGCAATTCACAGGTGCAGCTCAGTCAG CAGAGCATAAGACTCTTAAAGTGAACAATTCAGTGCTTTTTAGTATATTCACAGAGTTGTGCAACCATCACCA CTATCTAATTGGTCTTAGTCTGTTTGGGCTGCCATAACAAAATACCACAAACTGGATAGCTCATAAACAACAG GCATTTATTGCTCACAGTTCTAGAGGCTGGAAGTGCAAGATTAAGATGCCAGCAGATTCTGTGTCTGCTGAGG ¿Que es el ADN?

¿Que es el ADN? • DNA: Deoxyribonucleic Acid (ácido dexosiribonucleíco) • 4 nucleotidos: – Adenosina (A) – Citosina (C) – Guanina (G) – Timina (T) Image source: www. biotec. or. th/Genome/what. Genome. html

Acidos nucleicos El bloque básico necesario es: Bases nitrogenadas • Purinas (A and G) • Pirimidinas (C and T) Un azúcar (deoxiribosa) Un fosfato Image Source: www. ebi. ac. uk/microarray/ biology_intro. htm

Polinucleótidos de ADN • Los cuatro nucleótidos pueden unirse mediante fosfatos para formar cadenas de nucleótidos • Los finales de la hebra son distintos • Hay direccionalidad en la hebra de ADN • Por convencion se marca la hebra codificante como 5’ to 3’ http: //www. emc. maricopa. edu/faculty/farabee/BIOBK/Bio. Book. DNAMOLGEN. html

Doble hebra de ADN El ADN en realidad está formado por dos cadenas Las cadenas avanzan en sentido opuesto y que están ligadas por enlaces complementarios de bases nitrogenadas : A, T, G y C Eso significa que la segunda cadena es reversa y complementaria La doble hélice tiene siempre una anchura constante porque las purinas se enfrentan siempre a las pirimidinas.

Doble hélice • La doble hélice es la estructura más estable del ADN. 5’ G T A A A G T C C C G T T A G C 3’ | | | | 3’ C A T T T C A G G G C A A T C G 5’ Image source; www. ebi. ac. uk/microarray/ biology_intro. htm

Acido Ribonucléico ARN • Similar al ADN, el bloque consta de: • Bases nitrogenadas: A, C, G. La Timina (T) se reemplaza por un Uracilo (U) • Un azúcar, en este caso una Ribosa • Un fosfato • RNA can be: –Hebra simple –Hebra doble –Hebra hibrida AND-AR El RNA puede formar estructuras terciarias

Tipos de ARN • ARN mensajero (m. RNA) – Contiene la información para construir una proteina. • ARN ribosomal (r. RNA) – Componente mayoritario de los ribosomas • ARN transferente (t. RNA) – Encargado de llevar los amino acidos a los ribosomas para la síntesis de proteinas

ARN mensajero • • • Molécula linear que contiene información genética copiada del AND. Tiene regiones codificadoras y regiones no codificadoras como la cabeza o líder y la cola. Los mensajeros de eucariotas tienen un cap o gorra en el extremo 5’ y una cola poly. A en el extremo 3’. Transcription: es el proceso por el cual una molécula de AND es copiada a una de ARN. Dirección de la transcipción

ARN transferente Juega un papel crítico en la sintesis de proteinas llevando aa al ribosoma Tienen una estructura tridimensional muy bien definida Amino ácido ARNm Anti codon 5’ GTAAAGTCCCTTTAGC 3’ Doble papel: • adaptador que reconoce al amino ácido en el extremo 3’ • El anticodón se empareja con el codón en el ARNm

ARN ribosomal Componente mayoritario de los ribosomas Los ribosomas llevan a cabo la síntesis de proteínas asociándose con los diferentes ARNm que proporcionan la secuencia de codificación real y los ARNt que les proporcionan los aa

Código genético • • 4 nucleótidos posibles (A, C, G, U) Un codón tiene 3 bases 4 * 4 = 64 codones posibles Codón de inicio: AUG Codón de parada o Stop: UAA, UAG, UGA 61 codones codifican amino ácidos (AUG también Metionina) Solo existen 20 amino acidos – redundancia del código genetico code

Código genético es Universal • • Todos los organismos usan el mismo código genético Un amino ácido esta codificado por 3 nucleótidos = Código genético 4 nucleótidos posibles (A, C, G, U) Un codón tiene 3 bases 4 * 4 = 64 codones posibles Codón de inicio: AUG Codón de parada o Stop: UAA, UAG, UGA 61 codones codifican amino ácidos (AUG también Metionina)

Redundancia del Código genético • Solo existen 20 amino acidos – pero 64 codones posibles

Amino ácidos • Elementos constitutivos de las proteinas (20 different) • Tienen un grupo radical variable que los caracteriza • Los amino ácidos tienen diferentes características bioquímicas y físicas, las cuales determinan su capacidad de ser reemplazados en la evolución. alifáticos L hidrofóbicos P C S+S I M V F muy pequeños A pequeños G G CSH T Y S N D K W H E R Q aromaticos cargados positivos polares

Código genético Los ARNm se pueden leer en tres diferentes marcos de lectura, pero solo uno de ellos codifica la proteína correcta

Proteínas Los aa se unen mediante enlaces peptídicos entre el grupo carboxilo terminal de un aa y el grupo amino de otro. Péptido: Cadena corta de aa (< 30) Polipéptido: cadena larga de aa (hasta 4000 residuos). La secuencia de aa, su tipo y orden constituyen la Estructura primaria de la proteína Tyr Gly Phe Residuo amino terminal Leu Val Gly Ser Residuo carboxilo terminal

Proteínas Estructura secundaria: producto del establecimiento de puentes de hidrógeno entre distintos átomos de los aa Helices alfa: enrrollamiento espiral p. ejem proteinas fibrosas como piel y uñas Cada hélice tiene 3, 6 aa por vuelta

Proteínas Estructura secundaria: producto del establecimiento de puentes de hidrógeno entre distintos átomos de los aa Beta plegada: estructura en zig-zag resistente y flexible p. ejem fibroína (proteína de la seda) Dos o mas polipéptidos se situan de forma paralela entre ellos y se unen mediante puentes de hidrógeno. Estos puentes de hidrógeno se establecen entre diferentes segmentos del polipétido a diferencia con las alfa hélices

Proteínas Estructura terciaria: Es la forma global de cada proteína. Depende de las interacciones entre los grupos radicales de la misma cadena polipetídica ocasionada por: puentes de hidrógeno, atración iónica, condición hidrofóbica o hidrofílica y puentes disulfuro. Figure shows the tertiary structure of Chain B of Protein Kinase C Interacting Protein Péptido individual doblado

Proteínas Estructura cuaternaria: Es propia de las proteínas globulares y es la conformación tridimensional de la unión de dos o más cademas polipeptídicas, generadas por las mismas interacciones anteriormente citadas. Agregado de dos o más péptidos Figure shows the tertiary structure of Chain B of Protein Kinase C Interacting Protein

Volvemos al principio… “El dogma central” ADN Trascripción ARN Translación Proteína Traducción