Uma abordagem para deteco e remoo de artefatos
Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas, 01 de Dezembro de 2006
Roteiro n n n n Motivação Conceitos Nova estratégia de detecção de artefatos Detecção e remoção de derrapagem Detecção e remoção de baixa qualidade Novo conjunto de procedimentos de detecção e remoção de artefatos Conclusões e trabalhos futuros
Motivação Importância da pesquisa genômica n Identificação de genes pode trazer: n Descoberta da cura de doenças n Descoberta de características de interesses comerciais n Conhecimento sobre evolução dos organismos n n Necessidade de dados confiáveis
Transcrição e Tradução
O que são ESTs? n EST – Expressed Sequence Tags n n Transcrição n n Adams et al, 1991 – “Complementary DNA sequencing: expressed sequence tags and the human genome project” Gene transcrito para m. RNA Produção de c. DNA n Enzima transcriptase reversa
E o que são artefatos? n Artefatos são trechos que: Não pertencem ao organismo alvo do estudo n Baixa qualidade ou baixa complexidade n n Remoção necessária n Podem influenciar negativamente a análise dos dados
Seqüência original
Artefatos de baixa qualidade
Artefato de vetor
Artefato de adaptador
Artefato de cauda poli-A
Seqüência final
Detecção e remoção de artefatos Conjuntos de procedimentos variam muito de projeto para projeto n Os conjuntos normalmente são formados por várias etapas n As etapas são dependentes entre si n Execução é feita seqüencialmente n Cada etapa depende do resultado da etapa anterior n
Nova Estratégia n Detecções de diferentes artefatos Etapas independentes n Cada etapa analisa a seqüência original n n Etapa final Combina todos os artefatos encontrados n Identifica a região do inserto n
Comparação das estratégias
Avaliação da Nova Estratégia Processamento das seqüências do projeto Cattle EST (Bos taurus) n Procedimentos baseados no trabalho de Telles e da Silva, 2001 – “Trimming and clustering sugarcane ESTs” n Simplificação dos métodos de detecção de vetor e de caudas poli-A/T n Detecção de adaptador separada da detecção de vetor n Algoritmo de subseqüência máxima para detecção de baixa qualidade n Sem detecção de derrapagem n
Avaliação da Nova Estratégia Todos os tipos de artefatos foram detectados n Análise dos artefatos produzidos mostrou: n 2, 46% de um total de 12. 520 seqüências possuíam artefatos que não seriam identificados caso as etapas não fossem independentes n Remoção de seqüências ribossomais também aplicável a mamíferos n n Clustering com maior grau de agrupamento de seqüências n Menor número de singletons e clusters
Derrapagem n Artefato de seqüenciamento Regiões ricas em grupos ecoados n Trabalho de Telles e da Silva único na literatura n n Três novos métodos Média Aritmética n Média Geométrica n Cobertura por Ecos n n Duas estratégias Sufixo n Subseqüência n
Média Aritmética
Média Geométrica
Cobertura por Ecos
Avaliação dos Métodos n Testes Variação de parâmetros n Processamento de seqüências do projeto SUCEST (291. 689 ESTs) n n Melhor estratégia: Subseqüência n n Encontra artefatos na porção inicial da seqüência Melhor método: Cobertura por Ecos n Menor perda de hits de BLAST
Baixa Qualidade
Baixa Qualidade n Avaliação de dois algoritmos Janela deslizante n Subseqüência máxima n n Variação exaustiva dos parâmetros Análise de 1950 execuções distintas n Critério de seleção de alternativas n n 2, 5% de erro médio (25 bases 5’) n 5, 0% de erro médio (25 bases 3’) n 80, 0% de preservação média do BLAST hit
Baixa Qualidade n Adição de procedimento para detecção de ilhas de baixa qualidade n Janela deslizante n Tamanho: 10 bases n Erro médio de 20, 0% no mínimo n n Reprocessamento dos fragmentos Melhor algoritmo: Subseqüência máxima Qualidade mínima 11 n Procedimento de detecção de ilhas n
Novo conjunto de procedimentos n Combinação dos resultados estudos realizados Nova estratégia n Simplificação de métodos n Adoção das decisões dos estudos de derrapagem e baixa qualidade n n Realização de testes com o conjunto completo de ESTs do projeto SUCEST
SUCEST x Novo Conjunto Menor descarte de seqüências SUCEST Novo Conjunto 18, 44% 12, 97% Menor tamanho 641, 57 ± 139, 79 bp 472, 05 ± 121, 68 bp médio Maior qualidade média 27, 74 ± 14, 30 33, 25 ± 14, 78
SUCEST x Novo Conjunto n Produção de clustering: 145. 845 seqüências n SUCEST: 118. 991 seqüências n 20. 202 n singletons e 16. 394 contigs (36. 596) Novo conjunto: 126. 988 seqüências n 22. 479 singletons e 17. 486 contigs (39. 965) n Melhores consistências interna e externa n Menor redundância n Redução do número de hits Full-Length n Diminuição de SNPs e aumento de INDELs
Conclusão Nova estratégia apresenta bons resultados n Novas alternativas para detecção de derrapagem n Estudo de baixa qualidade n Análise aprofundada n Adição de procedimento para detecção de ilhas de baixa qualidade n n Novo conjunto de procedimentos
Trabalhos Futuros n Estudo mais detalhados demais artefatos n Estudo de outras variações de parâmetros dos algoritmos para detecção de derrapagem n Estudo do efeito da variação de exigência da qualidade média sobre a construção de clusterings n Aperfeiçoamento de algoritmos de clusterização de seqüências (Projeto de Doutorado)
Trabalhos Publicados n Nova estratégia n C. Baudet and Z. Dias, “New EST trimming strategy”. In J. C. Setubal and S. Verjovski-Almeida, editors, Lectures Notes on Bioinformatics, volume 3594, pages 206 -209. Springer-Verlag Berlin Heildelberg, July 2005. Brazilian Symposium on Bioinformatics 2005 (BSB 2005), extended abstract. n C. Baudet and Z. Dias, “New EST trimming strategy”, Technical Report: IC-05 -09, Institute of Computing – University of Campinas, May 2005.
Trabalhos Publicados n Derrapagem n C. Baudet and Z. Dias, “Analysis of slipped sequences in EST projects”. Genetics and Molecular Research, 5(1): 169 -181, 2006. n C. Baudet and Z. Dias, “Analysis of slipped sequences in EST projects”. X-Meeting 2005, Caxambu – MG, October 2005, poster.
Trabalhos Publicados n Baixa qualidade n n C. Baudet and Z. Dias, “Low quality trimming on SUCEST ESTs”. X-Meeting 2006, Fortaleza – CE, August 2006, poster. Novo conjunto de procedimentos n C. Baudet and Z. Dias, “New EST trimming procedure applied to SUCEST sequences”. 14 th Annual International Conference On Intelligent Systems For Molecular Biology (ISMB 2006), Fortaleza – CE, August 2006, poster.
- Slides: 33