Introduo a bioinformtica e a biologia computacional Universidade
Introdução a bioinformática e a biologia computacional Universidade Federal de Juiz de Fora Instituto de Ciências Exatas Departamento de Ciência da Computação Itamar Leite de Oliveira
O QUE É BIOINFORMÁTICA? Bioinformática é uma das áreas de pesquisa que mais cresce em Ciência da Computação. Ela surgiu a partir de um boom no processo de seqüenciamento de DNA, que gerou um enorme volume de dados que agora precisam ser analisados para gerar informações úteis.
Características principais da Bioinformática Interdisciplinaridade - Área associada a: - Biologia - Química - Bio-física - Estatística - Matemática - Computação Cooperação - Open source / open code
Áreas da computação em que se pode atuar na BIOINFORMÁTICA - Bancos de Dados - Data Mining - Redes Neurais - Aprendizagem de Máquina - Processos Estocásticos - Algoritmos e Combinatória - Visualização / Realidade Virtual
Estrutura do DNA || T A ||| AG CT || ||| C G DNA
Dógma Central da Biologia Molecular Gene (DNA) m. RNA Proteína Século 21 Genoma Transcriptoma Proteoma
Estrutura 3 -D do DNA
Tipos RNAs
Transcrição do DNA • A síntese dos diferentes tipos de RNA, a partir de um molde de DNA, usando as regras da complementaridade, é um processo denominado Transcrição do DNA – A informação genética contida num segmento do DNA, é reescrita em uma fita simples de RNA – Esta fita apresenta uma seqüência de ribonucleotídios complementar a uma das fitas da dupla hélice de DNA (fita molde) e idêntica à seqüência da outra fita (fita codificadora), com substituição de T por U
A Unidade de Transcrição Diz-se que as seqüências que antecedem o ponto de início localizam-se à montante (upstream) e as que o sucedem localizam-se à jusante (downstream) A posição das bases é numerada nos dois sentidos, a partir do ponto de início, ao qual se atribui o valor +1. Os valores aumentam (valor positivo) à jusante e diminuem (valor negativo) à montante
Processamento Pós-Transcricional
Sítios de splicing DNA doador exon intron receptor Transcrição Splicing m. RNA
Expressão Gênica – Transcrição DNA RNA Polimerase CAT. . . T TGCAGCTCCGGACTC promotor Transcrição A m. RNA
Expressão Gênica – Transcrição DNA RNA Polimerase CAT. . . promotor TGCAGCTCCGGACTC Transcrição m. RNA AC G UC G A G G C C U G A G G U A. . .
Código Genético • Código Genético mapeamento dos códons nos aminoácidos – 64 códons – 20 aminoácidos mapeados por mais de um códon Degeneração do código genético – 3 códons de parada
Código Genético T C A G T Phe Leu Ser Ser Tyr Parada Cys Parada Trp T C A G C Leu Leu Pro Pro His Gln Arg Arg T C A G A Ile Ile Met Thr Thr Asn Lys Ser Arg T C A G G Val Val Ala Ala Asp Glu Gly Gly T C A G 3 a base no códon 1 a base no códon 2 a base no códon
Expressão Gênica – Tradução DNA RNA Polimerase CAT. . . TGCAGCTCCGGACTC promotor Transcrição Ribossomo m. RNA ACG GUCGAGGCCUGAGGUA. . . códon Tradução His
Expressão Gênica – Tradução DNA RNA Polimerase CAT. . . TGCAGCTCCGGACTC promotor Transcrição m. RNA ACGUCGAGGCCUGAGGUA. . . Tradução Ser Cis His Ser Gli Leu Ribossomo
Tamanho de Genomas Organismo Genoma Data Genes Est. H. influenzae 1. 8 Mb 1995 1. 740 S. cerevisiae 12. 1 Mb 1996 6. 034 C. elegans 97 Mb 1998 19. 099 A. thaliana 100 Mb 2000 25. 000 D. melanogaster 180 Mb 2000 13. 061 H. sapiens 2003 25. 000 3000 Mb
Genoma Conjunto de genes de um organismo Transcriptoma • Coleção completa de todos os possíveis m. RNAs de um organismo. • Regiões de um genoma de um organismo que são transcritas em RNA mensageiro.
Proteoma • A coleção completa de proteínas que podem ser produzidas por um organismo. • Podem ser estudadas estaticamente (soma de todas as proteínas possíveis) ou dinamicamente (todas proteínas encontradas num determinado momento)
Do DNA ao Genoma Watson e Crick modelo do DNA primeira sequencia de proteína 1955 1960 Primeira estrutura de uma proteína 1965 1970 1975 1980 1985
1990 Primeiro genoma bacterial 1995 Hemophilus Influenzae Genoma da levedura 2000 Primeiro rascunho do genoma humano
O Projeto Genoma Humano Iniciado em 1986 Terminado em 2003 Objetivos eram: • Identificar todos os genes no DNA humano, • Determinar as 3 bilhões de sequencias de pares de bases que formam o DNA humano • Melhorar as ferramentas de análise de dados e desenvolver novas
A era “pós-genômica” Anotação Genômica Comparativa Genômica estrutural Genômica funcional Objetivo: compreender as redes funcionais de um célula viva
Open reading frames Anotação Sítios Funcionais Estrutura, funções
CCTGACAAATTCGACGTGCGGCATTGCAGACGTGCATG CGTGCAAATAATCAATGTGGACTTTTCTGCGATTATGGAAGAA CTTTGTTACGCGTTTTTGTCATGGCTTTGGTCCCGCTTTGTTC AGAATGCTTTTAATAAGCGGGGTTACCGGTTTGGTTAGCGAGA AGAGCCAGTAAAAGACGCAGTGACGGAGATGTCTGATG CAA TAT GGA CAA TTG GTT TCT CTG AAT. . . . . TGAAAAACGTA
Sítio de ligação TF CCTGACAAATTCGACGTGCGGCATTGCAGACGTGCATG CGTGCAAATAATCAATGTGGACTTTTCTGCGATTATGGAAGAA CTTTGTTACGCGTTTTTGTCATGGCTTTGGTCCCGCTTTGTTC AGAATGCTTTTAATAAGCGGGGTTACCGGTTTGGTTAGCGAGA AGAGCCAGTAAAAGACGCAGTGACGGAGATGTCTGATG CAA TAT GGA CAA TTG GTT TCT CTG AAT. . . TGAAAAACGTA Transcription Start Site promotor ORF=Open Reading Frame Ribosome binding Site CDS=Coding Sequence
Comparação do genoma inteiro Conclusões sobre as redes reguladoras Genômica Comparativa
Perfis, considerando o todo o genoma, dos: • Níveis de m. RNA • Níveis de proteínas Genômica Funcional Co-expressão de genes e/ou proteínas
Compreensão das funções dos genes e outras partes do genoma
Perfis, considerando o todo o genoma, de: • Níveis de m. RNA • Níveis de proteínas Genômica Funcional Co-expressão de genes e/ou proteínas Identificação de iterações proteína-proteína Redes de interações
Uma rede de iterações pode ser construída para todas as proteínas num organismo A large network of 8184 interactions among 4140 S. Cerevisiae proteins
Genômica Estrutural Descobrir a estrutura de todas as proteínas codificadas num genoma
Estrutura de Proteína
Bioinformática no DCC FIOCRUZ - BH • Núcleo de Bioinformática (Nu. Bio) – ICE – – – – Helio F. Dos Santos (D. Química) Carlos Cristiano (DCC) Itamar L. Oliveira (DCC) Ilaim C. Jr (DCC) Kelle Bellozzi (DCC) Wagner Arbex (EMPRABA GL) Lobosco (DCC) • Financiado pela FAPEMIG
Reações Bioquímicas
Rede metabólica
Enzimas (proteínas)
Enzimas
Lei de ação de das massas • A velocidade de uma reação química é proporcional a probabilidade de colisões das moléculas S 1 + S 2 2 P A velocidade da reação: d. P/dt = v+ - v- = k+S 1 S 2 – k-P 2 k+ e k-: constantes da reação (fator de proporcionalidade)
Cinética de Reações Enzimáticas
Cinética de Reações Enzimáticas
Cinética de Reações Enzimáticas
Cinética de Reações Enzimáticas
Cinética de Reações Enzimáticas
Cinética de Reações Enzimáticas
Cinética de Reações Enzimáticas Equação de Michaelis-Menten:
Influência do Substrato Ä [E] = cte Ä [S] = V 0 linear Ä [S] = V 0 = Vmáx
Gráfico substrato e produto
Parâmetros Cinéticos
Parâmetros Cinéticos Ä Lineweaver-Burk
Equação Michaelis-Menten Ä Curva: possui a mesma forma para a maioria das enzimas; Ä Expressa pela Equação de Michaelis e Menten; Ä Hipótese: limitante: quebra de ES E + P.
Inibidores Competitivos Ä Forma estrutural = substrato competição; Ä Porcentual de inibição concentrações e afinidade pela enzima.
Inibidores Competitivos Ä Equação de Michaelis e Menten Ä Lineweaver-Burk
Inibidores Não-Competitivos Ä Ocupa outro sítio ES, EI e EIS; Ä [S] = não leva todas as E produtiva; Ä Vmáx e Km normal.
Inibidores Não-Competitivos Ä Equação da velocidade: Ä Lineweaver-Burk
Biologia Computacional
Matriz Estequiométrica Elementos básicos: • compostos ou espécies bioquímicas • concentrações dos compostos • reações ou processos de transporte
Matriz Estequiométrica Matriz estequiométrica total Matriz estequiométrica dos metabólitos internos
Parte superior da glicólise da Saccharomyces cerevisiae ADP ATP v 1 Glicose ADP v 6 ATP v 2 ATP Glic-6 -P ATP v 3 v 7 v 1: Glicose + ATP v 2: Glic-6 -P + ATP v 3: Glic-6 -P v 4: Fruc-6 -P + ATP v 5: Fruc-1, 6 -P 2 v 6: ADP v 7: ATP v 8: ATP + AMP_i Fruc-6 -P ADP 7 metabólitos ADP ATP v 4 ATP + AMP Fruc-1, 6 -P 2 v 8 v 5 8 reações 2 ADP -> ADP + Glic-6 -P -> ADP <-> Fruc-6 -P -> Fruc-1, 6 -P 2 + ADP -> null -> ATP -> ADP <-> 2 ADP -1 -1 1 1 0 0 -1 1 -1 0 0 0 0 -1 0 1 0 -1 -1 0 0 0 0 -1 -1 1 2 0 0 0 0 -1
Simulação Dinâmica Balanço para os metabólitos internos: Matricial • ij é o coeficiente estequiométrico do metabólito interno i na reação j • velocidade da reação:
Simulação Dinâmica Simulação
Análise de Fluxo Metabólico (AFM) Determina os fluxos desconhecidos (internos) dados alguns fluxos conhecidos (medidos). Particionando a equação abaixo segundo esta classificação (conhecidos desconhecidos) obtém-se rearranjando
Análise de Fluxo Metabólico (AFM) Solução: Resíduo: § determinado (solução única): § sobredeterminado (solução única): § indeterminado (várias soluções): Repetindo a eq. da AFM:
Análise de Balanço de Fluxo (ABF) Restrições de balanço Restrições de capacidade Restrições Termodinâmicas Reações irreversíveis: Reações reversíveis: e e
Análise de Balanço de Fluxo (ABF) ADP v 1 Glicose Lactato. Ext v 18 (2) GDH-3 -P v 3 2 ATP 2 ADP NAD+ NADH Lactato v 7 Co. A v 2 NADH Acetato. Ext Acetato v 9 Co. A v 11 v 20 Co. A Butirato ATP v 14 ADP H 2 25 metabólitos NAD+ 11 internos Fd. Red 2 NADH Acetil-Co. A 14 externos 2 NAD+ Etanol v 10 (2) v 8 v 6 Co. A 29, 7 ATP 2 Glicose v 13 2 NAD+ Butyril-Co. A v 16 3 Biomassa 1, 75 NADH 2 NADH v 12 20 reações v 5 Ac. Acetil-Co. A Acetona Butirato. Ext NAD+ NADH ADP ATP Rede metabólica da C. acetobutylicum Glicerol Fd. Ox PIR v 4 v 19 ATP Co. A v 15 2 NADH ATP Butanol 2 NAD+ v 17 ADP
Análise de Balanço de Fluxo (ABF) Maximizar H 2 max. Z H 2 min v 2 = 0 max v 1 = 8. 72 v 2 = 0 8, 72 v 1 = 8. 72 v 2 = 0 v 3 = 17. 44 v 4 = 17. 44 v 5 = 17. 44 v 6 = 34. 88 v 7 = 0 v 8 = 8. 72 v 9 = 0 v 10 = 0 v 11 = 0 v 12 = 8. 72 v 13 = 0 v 14 = 8. 72 v 15 = 0 v 16 = 0 v 17 = 26. 16 v 18 = 0 v 19 = 0 v 20 = 0 0 17, 44 0 34, 88 0 0 0 8, 72 0 7, 72 0 26, 16 0 8, 72 0
Biologia Computacional no DCC • Projetos de Pesquisa: Ferramentas Computacionais Aplicadas a Modelos Complexos da Fisiologia de Células Cardíacas – – – Carlos Cristiano Itamar L. Oliveira Marcelo Lobosco Rodrigo Weber Ciro Barbosa Ana Paula C. Silva • Financiado pela FAPEMIG • Outros 2 submetidos ao CNp. Q
- Slides: 76