Blast Phen Aluno Ricardo Nishikido Pereira Orientadores Paolo
Blast. Phen Aluno: Ricardo Nishikido Pereira Orientadores: Paolo Zanotto (ICB) e Marco Dimas Gubitoso (IME)
Trabalho de Formatura n n n Tipo de trabalho: Iniciação Científica Área: Bioinformática Período: 02/04 a 11/04
O problema n n Estimar as relações ancestrais entre diferentes seres vivos (filogenia). Técnicas estatísticas sofisticadas estão disponíveis para inferência filogenética, como os implementados nos métodos Bayeseanos e máxima verossimilhança.
O problema n n Contudo, esses métodos não consideram o genoma como um todo, apenas alguns genes. A ausência de genes ou de sua ordem no genoma podem impor um problema sério quando são feitas tentativas de integrar esses dados com os obtidos através de inferências baseadas em alinhamentos de genes.
Idéia n n Comparar genomas e construir distribuições a partir de scores (medida de similaridade utilizada pelo programa Blast, que compara seqüências de genes e proteínas). As distribuições são comparadas e diversas de suas características como momentos ou comparações mais complexas envolvendo distâncias de Kullback-Leibler, Skew Divergence, Chernoff e Bhattacharyya são estudadas.
Blast n n Desenvolvido pelo NCBI (National Center for Biotechnology Information). Os programas Blast (Basic Local Alignment Search Tools) são um conjunto de algoritmos de comparação de seqüências. Essas comparações são feitas par a par e a cada comparação de segmentos é atribuída uma pontuação (score), que reflete o grau de similaridade entre as seqüências. Quanto mais alta a pontuação, maior o grau de similaridade.
Blast n n Identidade: segmento no qual duas seqüências são invariantes. Substituição: presença de bases diferentes em uma posição de um alinhamento. Gap: espaço introduzido em um alinhamento para compensar inserções e remoções em uma seqüência em relação à outra. Raw score: o score de um alinhamento, calculado como a soma de scores de substituição e de gaps.
Blast n n Bit score: derivado do raw score; leva em conta as propriedades estatísticas do sistema de pontuação (matriz de substituição e custo dos gaps). Pode ser utilizado para comparar scores de diferentes alinhamentos. O Blast. Phen utiliza o Bit score.
Técnicas estatísticas estudadas Para comparar as distribuições de scores dos genomas foram utilizadas diversas técnicas estatísticas. n As técnicas mais simples foram as comparações das médias, medianas e modas distribuições. Além dessas, foram implementados os seguintes métodos de comparação de distribuições: n
Técnicas estatísticas estudadas n Kullback-Leibler divergence Como essa distância não é simétrica, foi utilizada a média harmônica para simetrizá-la:
Técnicas estatísticas estudadas n Skew divergence onde D é a distância de Kullback-Leibler e 0<α<1 é um fator de correção.
Técnicas estatísticas estudadas n Chernoff n Bhattacharyya onde μ é a função definida no item anterior.
Técnicas estatísticas estudadas n n Observação: como as “métricas” citadas referem -se a distribuições contínuas enquanto que neste projeto lidamos com distribuições discretas, tivemos que adaptá-las. Foram criados histogramas para agrupar os scores e as integrais foram substituídas por somatórios.
Problema Distribuições de scores de organismos parecidos geneticamente Distribuições de scores de organismos muito diferentes geneticamente
Resultados n n Das “métricas” testadas, a que se saiu melhor foi a comparação das medianas distribuições. Os métodos de comparação de distribuições citados não se comportaram bem devido a falta de resolução das curvas, que dificultou as comparações. Exemplo de árvore construída com os resultados do Blast. Phen (os dados se referem a um grupo de báculo vírus):
Resultados Árvore construída com técnicas tradicionais de reconstrução filogenética Árvore construída pelo Blast. Phen
Bonsais n n n Bonsais são equivalentes a cliques da teoria dos grafos: são grupos de vértices nos quais cada vértice possui arestas para todos os outros vértices desse grupo. Na genética, um bonsai é um grupo de organismos que possuem uma relação ancestral (i. e. uma distância finita) com todos os outros organismos desse grupo. O Blast. Phen permite a separação dos seres em bonsais.
Paralelização e distribuição n n n Com o intuito de otimizar o desempenho do Blast. Phen, seu código foi programado para utilizar diversas máquinas com diferentes números de processadores, através de comunicação por sockets. A parte do processo que se beneficia com essa técnica é a submissão dos genomas ao Blast. Um processo servidor controla a distribuição de tarefas aos processos clientes, bem como o momento em que estes devem encerrar suas atividades.
- Slides: 18