ClustalW Oscar Miranda Contedo l l l Problema

Clustal-W Oscar Miranda

Conteúdo l l l Problema Características A ferramenta Algoritmos Referências Clustal. W 17/06/2001

Alinhamento Múltiplo l l Comparando Várias Seqüências Visualmente – Manter bases conservadas -----GC-GATAG---CAGTCGCTGATCGTACG l Quantificando a qualidade de um alinhamento – Tratamento de gaps e substituições Clustal. W 17/06/2001

Para quê? l l l Encontrar padrões que caracterizam famílias de proteínas Detectar ou demonstrar homologia entre novas seqüências e famílias de seqüências existentes Ajuda a predizer as estruturas secundárias e terciárias de novas seqüências Sugerir oligonucleotídios primários para PCR Análise da evolução molecular Clustal. W 17/06/2001

Comparando Várias Seqüências l Caso geral do alinhamento de entre 2 seqüências – l Alinhamento Ótimo – – l Programação dinâmica O(k 22 knk) NP-completo Tree Alignment – – l O(n 2 ) Qualidade aceitavel Rápido para poucas seqüências Outras Heurísticas – Busca em base de dados Clustal. W 17/06/2001

Clustal-W: A ferramenta l l l Disponível gratuitamente Código aberto Várias plataformas Parâmetros definidos pelo usuário Reconhece automaticamente vários formatos – l NBRF/PIR, EMBL/SWISSPROT, Pearson (Fasta), Clustal (*. aln), GCG/MSF (Pileup), GCG 9/RSF e GDE flat file. Clustal-X – – – Versão mais amigável Alinhamento colorido Ajuda/explicação de parâmetros Clustal. W 17/06/2001

Processo l Dividido em 3 passos Matriz de distâncias Geração da árvore Clustal. W Alinhamento 17/06/2001

Processo: Passo 1 l Passo 1 – – – É gerada a matriz de distâncias Todas as seqüências são comparadas par a par Dois métodos: l Fast Approximate method – l Rápido Full dynamic programming Eficaz mas lento – default – Clustal. W 17/06/2001

Processo: Passo 1 l Programação dinâmica – – – Alinha todas as seqüências par a par Algoritmo de Myers e Miller modificado Usa Matriz de pesos l l – Proteínas: PAM, BLOSUM, GONNET DNA: IUB(bestfit), clustal Parâmetros GAP l l Abertura de gap: GOP Extensão de gap: GEP Clustal. W 17/06/2001

Algoritmo de Myers e Miller l l Espaço linear Cálculo do escore em espaço linear – Cada elemento da matriz é calculado com apenas 3 vizinhos Clustal. W 17/06/2001

Algoritmo de Myers e Miller Clustal. W 17/06/2001

Algoritmo de Myers e Miller l Dividir para conquistar – Encontrar na linha do meio o ponto que faz parte do alinhamento Clustal. W 17/06/2001

Algoritmo de Myers e Miller Path(i 1, j 1, i 2, j 2) midi = (i 1+i 2)/2 S+ <- alinhamento(i 1, j 1, midi, j 2); S* <- alinhamento_reverso(midi, j 1, i 2, j 2); midj = j entre j 1 e j 2 tal que S+[j] + S*[j] é máximo path(i 1, j 1, midi, midj); path(midi, midj, i 2, j 2); Clustal. W 17/06/2001

Matriz de Distância >S 1 ATCTCGAGA >S 2 ATCCGAGA >S 3 ATGTCGACGA >S 4 ATGTCGACAGA >S 5 ATTCAACGA S 1 S 2 S 3 S 4 S 1 - S 2 87 - S 3 77 62 - S 4 77 62 90 - S 5 55 62 77 66 Clustal. W S 5 - 17/06/2001

Processo: Passo 1 l Fast Approximate – – – Algoritmo de Wilbur e Lipman Alinhamento Aproximado O(n + m + M 2) l M: número de fragmentos Clustal. W 17/06/2001

Algoritmo de Wilbur e Lipman 1. Seleciona os fragmentos onde cada fragmento é uma tripla (i, j, k) tal que as k-tuplas de símbolos das duas seqüências casam; xi=yj, xi+1=yj+1, . . . , xi+k=yj+k O(n+m+M) Um fragmento (i’, j’, k’) é dito abaixo(i, j, k) se i+k<=i’ e j+k<=j’; Quando as substring no fragmento (i’, j’, k’) aparecem estritamente depois das de (i, j, k) nas strings de entrada. O tamanho do fragmento (i, j, k) é k. A diagonal do fragmento (i, j, k) é o número j – i e a diagonal reversa é i + j; Clustal. W 17/06/2001

Algoritmo de Wilbur e Lipman Um alinhamento de fragmentos é definido como uma seqüência de fragmentos tais que, se (i, j, k) e (i’, j’, k’) são fragmentos adjacentes na seqüência, ou (i’, j’, k’) está abaixo de (i, j, k) em uma diagonal diferente(um gap), ou os dois fragmentos estão na mesma diagonal, com i’> i(mismatch). Clustal. W 17/06/2001

Matriz de Distância 2 S 1 S 2 S 3 S 4 S 1 - S 2 62 - S 3 67 50 - S 4 78 50 80 - S 5 44 50 67 44 S 5 - S 1 S 2 S 3 S 4 S 1 - S 2 87 - S 3 77 62 - S 4 77 62 90 - S 5 55 62 77 66 S 5 - Programação dinâmica Fast-Approximate Clustal. W 17/06/2001

Processo: Passo 2 l Construção da árvore a partir da matriz de distâncias – l l Usada como guia para o próximo passo Método Neighbour-Joining Gera arquivo que pode ser visualizado posteriormente Clustal. W 17/06/2001

Método Neighbor-Joining l l Saitou and Nei (1987) Algoritmo guloso – – – Inicia Com uma Árvore Estrela A cada iteração junta os dois nós da raiz os quais a soma das divergências de cada para o resto da árvore seja mínimo Estima o tamanho do novo nó a partir dos valores de divergência dos nós escolhidos Clustal. W 17/06/2001

Exemplo Neighbor-Joining S 1 S 2 S 3 S 4 S 1 - S 2 87 - S 3 77 62 - S 4 77 62 90 - S 5 55 62 77 66 S 5 - Clustal. W 17/06/2001

Processo: Passo 3 l Alinhamento Progressivo baseado na árvore filogenética – l l Feng e Doolittle Diferentes Penalidades para GAP Opção para modificar valores iniciais Valores atualizados durante o processo Utiliza o Algoritmo de Myers e Miller modificado para o alinhamento do consenso Clustal. W 17/06/2001

Tratamento de GAPs l Parâmetros iniciais dados pelo usuário – l l Abertura de gap(GOP) e extensão de gap(GEP) GAPs terminais não tem custo Escolha dos valores automaticamente durante o processo de alinhamento Clustal. W 17/06/2001

GAP: valores iniciais l 1) GOP dependente da matriz de pesos utilizada – l Variar a penalidade dos gaps de acordo com diferentes matrizes melhora a qualidade. 2) Dependência no grau de similaridade das seqüências – Uso do percentual de semelhança entre seqüências para aumentar ou diminuir o GOP. Clustal. W 17/06/2001

GAP: valores iniciais l 3) Dependência no tamanho das seqüências – Crescimento do escore com o tamanho das seqüências GOP = GOP_origem + log(min(N, M)))* (escore médio de resíduos não casados) * (percentual de semelhança) Clustal. W 17/06/2001

GAP: valores iniciais l 4) Dependência na diferença do tamanho das seqüências – Se uma seqüência é muito menor que a outra, GEP é aumentado para inibir muitos gaps longos na seqüência menor. GEP = GEP_origem * ( 1. 0 + |log(N/M)| ) Clustal. W 17/06/2001

GAP: penalidades localizadas l l Antes de cada alinhamento gera uma tabela de gaps para cada posição. 1) Diminuição da penalidade para gaps existentes Se já existe um gap na posição o GOP é reduzido em proporção ao número de seqüências com gap, e o GEP é diminuído pela metade. GOP = GOP*0. 3*(No_seqüências_sem_gap/No_seqüências) – Clustal. W 17/06/2001

GAP: penalidades localizadas l 2) Aumento da penalidade proximo a gaps existentes Se uma posição não possui gaps mas está a 8 residuos de um gap, o GOP é modificado para: GOP = GOP*(2 + ((8 -distancia_do_gap)*2)/8) – l 3) Redução da penalidade em trecho hidrófilos – – Uma seqüência de 5 resíduos hidrófilos é considerada um trecho hidrófilo Se uma posição não há gaps e existe um trecho hidrófilo, o GOP é reduzido por um terço Clustal. W 17/06/2001

GAP: penalidades localizadas l 4) Penalidades especificas por resíduo – – Se não há trechos hidrófilos e não há gaps em uma posição então o GOP é multiplicado pela média números atribuídos a cada aparição do resíduo na posição Números provenientes da tabela de Pascarella e Argos com fatores de modificação do gap para cada resíduo Clustal. W 17/06/2001

Matriz de Pesos l Matrizes usadas para cálculo de similaridade entre amino ácidos – l l Dados auxiliares Dependendo da semelhança entre as seqüências uma matriz mais “flexível” é escolhida Pode-se definir uma matriz a ser utilizada Clustal. W 17/06/2001

Matriz de Pesos l Séries – GONNET(default) l – BLOSUM(Heinkoff) l – [80 -100%]: Blosum 80; [60 -80%]: Blosum 62; [30 -60%]: Blosum 45; [0 -30%]: Blosum 30 PAM(Dayhoff) l l [35 -100%]: Gonnet 80; [25 -35%]: Gonnet 120; [0 -25%]: Gonnet 250 [80 -100%]: Pam 20; [60 -80%]: Pam 60; [40 -60%]: Pam 120; [040%]: Pam 350 DNA – – IUB (BESTFIT) (padrão) CLUSTAL Clustal. W 17/06/2001

Seqüências Divergentes l Atrasar o alinhamento das seqüências mais divergentes para diminuir o erro na fase inicial do alinhamento Clustal. W 17/06/2001

Exemplos Clustal. W 17/06/2001

Referências l l Programas, documentação e artigos sobre Clustal-W e Clustal-X – http: //www-igbmc. u-strasbg. fr/Bio. Info/ Thompson, J. D. , Higgins, D. G. and Gibson, T. J. (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position specific gap penalties and weight matrix choice. Nucleic Acids Research, 22(22): 4673 -4680. Eppstein, D. A. (1989) Efficient Algorithms for Sequence Analisys With Concave and Convex Gap Costs Neighbor-Joining – http: //www. biology. usu. edu/biol 6750/Lecture_18. htm Clustal. W 17/06/2001