Blast Phen Aluno Ricardo Nishikido Pereira Orientadores Paolo
Blast. Phen Aluno: Ricardo Nishikido Pereira Orientadores: Paolo Zanotto (ICB) e Marco Dimas Gubitoso (IME) § Motivação § Métricas utilizadas Técnicas estatísticas sofisticadas estão disponíveis para inferência filogenética, como os implementados nos métodos Bayeseanos e máxima verossimilhança. Contudo, a ausência de genes ou de sua ordem no genoma podem impor um problema sério quando são feitas tentativas de integrar esses dados com os obtidos através de inferências baseadas em alinhamento de genes. Para comparar as distribuições de scores dos genomas foram utilizadas diversas técnicas estatísticas. Alternativamente, podemos comparar genomas e construir distribuições a partir de scores (medida de similaridade utilizada pelo programa Blast, que compara seqüências de genes e proteínas). Essas distribuições são comparadas e diversas de suas características como momentos ou comparações mais complexas envolvendo distâncias de Kullback. Leibler, Skew Divergence, Chernoff e Bhattacharyya são estudadas com relação à sua utilidade para agrupamento de genomas durante a reconstrução filogenética. Neste projeto propomos o Blast. Phen, um programa que implementa uma técnica de agrupamento por similaridade de forma rápida e eficiente, utilizando-se os métodos de comparação de distribuições citados acima. As técnicas mais simples foram as comparações das médias, medianas e modas distribuições. Além dessas, foram implementados os seguintes métodos de comparação de distribuições: • Kullback-Leibler divergence • Skew divergence onde D é a distância de Kullback-Leibler e 0<α<1 é um fator de correção • Chernoff § Paralelização e distribuição Com o intuito de otimizar o desempenho do Blast. Phen, seu código foi programado para utilizar diversas máquinas com diferentes números de processadores, através de um esquema simples de comunicação por sockets. A parte do processo que se beneficia com essa técnica é a submissão dos genomas ao Blast. Assim, um processo servidor envia aos processos clientes as tarefas que eles devem cumprir. Ao terminar sua tarefa, o cliente pede ao servidor uma nova. Se existir uma nova tarefa a ser designada, o servidor a manda para o cliente, caso contrário o cliente recebe um comando para encerrar sua atividade. Quando todos os clientes forem encerrados, o processo servidor reúne os dados computados e então o Blast. Phen prossegue calculando as distâncias entre os genomas. • Bathacharyya onde μ é a função definida no item anterior Dessas “métricas”, a que se saiu melhor foi a comparação das medianas distribuições. Os métodos de comparação de distribuições citados não se comportaram bem devido a falta de resolução das curvas, que dificultou as comparações. Árvore construída com técnicas tradicionais de reconstrução filogenética Árvore construída pelo Blast. Phen
- Slides: 1