Prospeco de Dados Biolgicos Daniel Luis Notari daniel
Prospecção de Dados Biológicos Daniel Luis Notari daniel. notari@ucs. br
Prospecção de Dados Biológicos Ferramentas Computacionais Desenho do Experimento Métodos Biológicos Métodos Computacionais Análise de Resultados Bioinformática
Repositório de Dados Biológicos • Ácidos nucleicos • Sequências de proteínas • Estruturas moleculares • Funções • Interações entre moléculas em diferentes contextos biológicos.
Repositório de Dados Biológicos • Organizados como bancos de dados – Texto, HTML, XML, JSON, imagens, relatórios • Consulta – – Sites web Web services URL Download • Formatos – Cada banco de dados possui o seu próprio formato
Programas Computacionais • Inferência sobre arquivos de dados • Gerar conexões • Derivar predições úteis e interessantes para as ciências biológicas
Programas Computacionais • Linguagens de Programação – Construir programas – Desenhar interface gráfica – Acessar os dados • Interagir com outros programas
Experimento
Predição de Interação de proteínas
Predição de Interação de proteínas • STRING – Search Tool for the Retrieval of Interacting Genes/Proteins – ferramenta para realizar metabuscas com o intuito de se obter redes de interação de proteínas. – Possui um banco de dados sobre predições e interações de proteínas conhecidas, envolvendo associações físicas e funcionais.
STRING - Exemplo https: //string-db. org/
STRING - Exemplo https: //stringdb. org/cgi/generate_task_specific_download_ file. pl? task. Id=u. KDwf. Hg. QEvs. N&download_data _format=image&download_file_name=string_ normal_image. png https: //string-db. org/cgi/generate_task_specific_download_file. pl? task. Id=u. KDwf. Hg. QEvs. N&download_data_format=tsv&download_file_name=string_interactions. tsv
STRING - API • API Format • Criar um URI (Uniform Resource Identifier) • http: //[database]/[access]/[format]/[request ]? [parameter]=[value] • http: //stringdb. org/cgi/access. pl? footer_active_subpage= apis
Catálogo doenças humanas
NCBI - OMIM • Online Mendelian Inheritance in Man • É uma base de dados que possui um catálogo de doenças humanas. • Quando possível, • faz a ligação dessas doenças aos respectivos genes. • http: //www. ncbi. nlm. nih. gov/omim
NCBI - OMIM • Pesquisar no site do OMIM
NCBI - OMIM Usar a API do OMIM via programa/website Através de REST-based API Solicitar chave de acesso Registrar o navegador antes de realizar uma consulta • Realizar consultas para aprender a montagem da URL em http: //api. omim. org/api/html/entry. html • • http: //omim. org/api
NCBI - OMIM - API http: //pubchem. ncbi. nl m. nih. gov/rest/pug /compound/name/vioxx /property/In. Ch. I /TXT prolog input operation output http: //api. omim. org/api/entry? mim. Number=278720&include=all&format=xml
NCBI - OMIM – API • Exemplo: 1. Consultar a doença Xeroderma • http: //api. omim. org/api/entry/search? search=xeroderma&filter=&fiel ds=&retrieve=&start=0&limit=100&sort=&operator=&format=xml 2. Obter a descrição da doença XERODERMA PIGMENTOSUM, COMPLEMENTATION GROUP C; XPC http: //api. omim. org/api/entry? mim. Number=278720&in clude=all&format=xml
NCBI - OMIM – API 1. Resultado da consulta por Xeroderma …. <entry. List> …. <entry> <mim. Number>278720</mim. Number> <titles> <preferred. Title> XERODERMA PIGMENTOSUM, COMPLEMENTATION GROUP C; XPC </preferred. Title> </titles> <matches>xeroderma</matches> </entry>. . . </entry>
NCBI - OMIM – API 2. Relatório da consulta por XERODERMA PIGMENTOSUM, COMPLEMENTATION GROUP C; XPC
Acesso a Programas e Bancos de Dados do NCBI
NCBI - ENTREZ • Serviço que fornece mecanismos de busca entre os diversos bancos de dados do NCBI. • Integra – a literatura científica, – bancos de dados de DNA e proteínas, – estruturas tridimensionais (3 -D) de proteínas, – genomas completos e – informações taxonômicas dos organismos conhecidos no seu sistema de busca.
NCBI - ENTREZ • Fornece – um site para consultas na Internet – suporte a chamada de web services – Suporte a solicitações via URL • A ferramenta E-Utilities – Entrez Programming Utilities – fornece acesso a consultas baseadas no Entrez – acesso a diversos bancos de dados do NCBI.
NCBI - ENTREZ • Informações gerais em http: //www. ncbi. nlm. nih. gov/books/NBK 25501/ • Informações para desenvolvedores também podem ser encontradas em http: //www. ncbi. nlm. nih. gov/home/develop. shtml • Exemplos de código fonte em http: //www. ncbi. nlm. nih. gov/books/NBK 25498/
Biologia de Sistemas
Biologia de Sistemas Redes de livre escala Interação (Barabási e Albert, 1999)
Cytoscape • Visualizar as informações referentes a uma rede de interação das proteínas • Fazer análises de biologia de sistemas usando os plugins • É uma ferramenta de código livre escrita em Java. • Permite desenvolver os próprios plugins. • http: //www. cytoscape. org/
Biologia de Sistemas clusters Motivos Centralidade hubs gargalos (Barabási e Albert, 2002) (Yu et al. , 2007) (Barabási e Oltvai, 2004)
EXPERIMENTOS IN SILICO
Workflow Científico i. iii. iv. Integração de programas + Integração de Dados Programas Dados Processamento Análise
Proveniência dos dados 1. Capturar a informação com um log 2. Salvar os resultados intermediários de cada etapa do workflow – Taverna – Kepler – Vis. Trails Desenhar experimentos Bioinformática
Experimento in silico • Questões a serem (muito bem) pensadas: 1. Interface Gráfica: Desktop ou Web? 2. Distribuição: programa local, web ou nuvem? 3. Acesso aos Dados: URL, web service ou download 4. Processamento de dados: texto, XML, JSON? 5. Armazenamento de dados local?
Experimento in silico • Interface Gráfica: Desktop ou Web?
Experimento in silico • Distribuição: programa local, web ou nuvem?
Experimento in silico • Acesso aos Dados: URL, web service ou download?
Experimento in silico • Processamento de dados: texto, XML, JSON?
Experimento in silico • Armazenamento de dados local? – Arquivo – Sistema Gerenciador de Banco de Dados – Proveniência dos Dados
DIS 2 PPI: A WORKFLOW DESIGNED TO INTEGRATE PROTEOMIC AND GENETIC DISEASE DATA http: //www. danlian. com. br/dis 2 ppi/
Objetivo 1. Cruzar informações de banco de dados de doenças gênicas com banco de dados proteômicos para gerar redes de interações de proteínas. 2. Obter uma rede de interação proteína-proteína associada com doenças de natureza monogênica Xeroderma pigmentosa e Cockayne Syndrome para análise de ferramentas de biologia de sistemas.
Materiais e Métodos • Xeroderma Pigmentosa (XP) • Doença genética • Alta sensibilidade a luz solar e UV • Desenvolvimento de câncer de pele • Problemas com reparação de DNA (Satokata et al. , 1992)
Materiais e Métodos • Cokayne Síndrome (CS) • Doença genética • Afeta o desenvolvimento e a manutenção de diferentes tecidos • Alta sensibilidade a luz solar e UV (Weidenheim et al. , 2009; Natale, 2011)
Materiais e Métodos Etapa 1 - OMIM Etapa 2 - STRING Etapa 3 - STRING Etapa 4 – Biologia de Sistemas
Materiais e Métodos
Materiais e Métodos
Resultados
Resultados • Xeroderma Pigmentosa Tipo A Tipo D Tipo C
Resultados Xeroderma pigmentosa
Resultados e Discussão • Dados obtidos com a doença XP-CS – Apontam novos processos biológicos não relatados em síndromes monogênicas • Possibilidade para realizar novos estudos com a XP -CS • Maiores informações em http: //www. igiglobal. com/article/dis 2 ppi-workflow-designedintegrate-proteomic/77811
CONSIDERAÇÕES FINAIS
Considerações Finais • Interação entre profissionais de diferentes áreas • Definir materiais e métodos • Conceber o experimento usando a especialidade de cada profissional • Análise dos resultados sobre perspectivas (publicação conjunta) as duas
Considerações Finais • Problemas de Implementação – Troca de versão de JVM – Estouro chamada HTTP (URL grande) (FASTA) número de parâmetros de entrada • Ferramentas de Consulta – Troca de forma de acesso aos dados – Web Service (métodos) – Web Service para REST-API
Grupo de Bioinformática UCS • Bac. PP – Reconhecer e predizer sequencias de promotores de acordo com o fator sigma em Escherichia coli – http: //bacpp. bioinfoucs. com/home • Intergenic. DB – Banco de dados que armazena sequencias de DNA como regiões intergenicas de procariontes – http: //intergenicdb. bioinfoucs. com/ http: //www. bioinfoucs. com/site/index. php
Prospecção de Dados Biológicos Daniel Luis Notari daniel. notari@ucs. br
- Slides: 53