Rede Neural Recorrente Bidirecional Enriquecida de Grafos de

Rede Neural Recorrente Bidirecional Enriquecida de Grafos de Interações para Predição de Estruturas Secundárias de Proteínas Equipe: Francisco do Nascimento Ryan Azevedo Recife, Agosto/2006 3/1/2021 1

Roteiro l l l Proposta Conceitos introdutórios Arquitetura das Redes Neurais utilizadas Implementação Dados experimentais Conclusão 3/1/2021 {fnj, rra 2}@cin. ufpe. br 2

Roteiro l l l Proposta Conceitos introdutórios Arquitetura das Redes Neurais utilizadas Implementação Dados experimentais Conclusão 3/1/2021 {fnj, rra 2}@cin. ufpe. br 3

Proposta l l Método para aprendizagem supervisionada seqüencial Explora o conhecimento de longas e curtas dependências 3/1/2021 {fnj, rra 2}@cin. ufpe. br 4

Aplicação do método l l l Predição de estrutura secundária de proteínas. Mas o que é predição de estruturas? E por que utilizar Redes Neurais para este fim? 3/1/2021 {fnj, rra 2}@cin. ufpe. br 5

Roteiro l l l Proposta Conceitos introdutórios Arquitetura das Redes Neurais utilizadas Implementação Dados experimentais Conclusão 3/1/2021 {fnj, rra 2}@cin. ufpe. br 6

Mergulhando na Biologia. . . l l Proteínas são macromoléculas complexas, compostas de aminoácidos, e necessárias para os processos químicos que ocorrem nos organismos vivos Um aminoácido consiste em um carbono “central” com uma ligação a grupo amina (-NH 2), outra a um grupo carboxila (-COOH), a terceira a um átomo de hidrogênio e a quarta a uma cadeia lateral variável 3/1/2021 {fnj, rra 2}@cin. ufpe. br 7

Estruturas da proteína l As proteínas são formadas exclusivamente por apenas 20 aminoácidos, que se repetem numa seqüência característica para cada proteína l Esta seqüência, conhecida como estrutura primária, é que, de fato, determina a forma e a função da proteína. l A estrutura primária é somente a sequência dos amino ácidos, sem se preocupar com a orientação espacial da molécula l As interações intermoleculares entre os aminoácidos das proteínas fazem com que a cadeia protéica assuma estrutura secundária e uma estrutura terciária. 3/1/2021 {fnj, rra 2}@cin. ufpe. br 8

Visualizando as proteínas 3/1/2021 {fnj, rra 2}@cin. ufpe. br 9

Foco da proposta: Estrutura secundária l l Estrutura secundária é formada a partir dos ângulos das ligações que unem os aminoácidos. Duas formas mais comuns são a alfa-hélice e o beta-sheets. 3/1/2021 {fnj, rra 2}@cin. ufpe. br 10

Predição de Estruturas Secundárias l l l Consiste no procedimento para prever a estrutura secundária de uma proteína a partir de sua seqüência primária. Atualmente existem aproximadamente 2 milhões de seqüências de proteínas nos bancos públicos, porém apenas para 30. 000 destas são conhecidas suas estruturas secundárias, ou seja, uma taxa de 60: 1. Motivação: a estrutura secundária é usada pra encontrar a estrutura terciária e assim, auxiliar os pesquisadores da área na obtenção de novas drogas. 3/1/2021 {fnj, rra 2}@cin. ufpe. br 11

Métodos de Predição de Estruturas Secundárias l Experimental l l A determinação experimental de estruturas é um processo custoso e realizado por cristalografia em raio-x ou por métodos de ressonância magnética nuclear Teóricos l 3/1/2021 Divididos em três classes principais l Modelagem comparativa (Possui similaridade de seqüência suficiente com estruturas existentes) l Reconhecimento (Requer similaridade no nível de categoria) l ab initio (para novos folds) {fnj, rra 2}@cin. ufpe. br 12

Estado da arte em Predição de Estruturas Secundárias l l Preditores baseados em Redes Neurais tem sido descobertos e subsequentemente refinados durante os anos 90 (Qian and Sejnowski, 1988) Incorporação de informações na forma de perfis de alinhamentos múltiplos, uma técnica significante que melhorou a precisão da predição 3/1/2021 {fnj, rra 2}@cin. ufpe. br 13

Estado da arte em Predição de Estruturas Secundárias l Preditores baseados em HMMs (Hidden Markov Model) e RNNs (Redes Neurais Recorrentes) Bi-direcionais também tem sido introduzidas, levando para o estado da arte resultados, mas nenhum avanço radical (Pollastri, 2002) 3/1/2021 {fnj, rra 2}@cin. ufpe. br 14

Roteiro l l l Proposta Conceitos introdutórios Arquitetura das Redes Neurais utilizadas Dados experimentais Conclusão 3/1/2021 {fnj, rra 2}@cin. ufpe. br 15

Redes Neurais na predição l l l Redes neurais feed-forward: uma boa opção para problemas de predição de estruturas secundárias, porém. . . Há a necessidade de uma máquina que consiga aprender seqüências Generalização de redes feed-forward capazes de processar dados estruturais 3/1/2021 {fnj, rra 2}@cin. ufpe. br 16

RNN – Redes Neurais Recorrentes l l l São Redes Neurais com um ou mais laços de alimentação Uma RNN pode ser desmembrada em várias feed-forwards compartilhando os mesmos pesos Podem ser usada todas as informações anteriores a entrada t 3/1/2021 {fnj, rra 2}@cin. ufpe. br 17

RNN – Limitações l l Para a uma boa predição seria bom usar as informações futuras Extinção do gradiente na presença de dependências a longo prazo 3/1/2021 {fnj, rra 2}@cin. ufpe. br 18

BRNN – Rede Neural Recursiva Bidirecional l Resolve uma limitação da RNN, utilizando tanto as informações passadas quanto as futuras 3/1/2021 {fnj, rra 2}@cin. ufpe. br 19

BRNN l l As informações passadas serão representadas por uma função de transição de estados F(t) que retém o contexto do passado, e B(t), o contexto do futuro. Podemos definir de forma recursiva as equações que representam os estados: l l F(t) depende de F(t-1) B(t) depende de B(t+1) O(t) depende de F(t) e B(t) Resumindo l 3/1/2021 A saída de x(t) depende de x(1). . . X(N), onde 1 t N {fnj, rra 2}@cin. ufpe. br 20

BRNN 3/1/2021 {fnj, rra 2}@cin. ufpe. br 21

BRNN – Limitações l Minimização do erro na presença de longas dependências l l l Nos testes, identificou-se uma janela máxima de interferência de 41 aminoácidos Falta de algoritmos eficientes para otimização numéricas E se estas dependências pudessem ser apresentadas explicitamente? 3/1/2021 {fnj, rra 2}@cin. ufpe. br 22

IEBRNN – BRNN Enriquecida com interações l Foi acrescentado a BRNN um grafo de interações, acrescentando à rede informações relacionais (dependências entre as posições da entrada) 3/1/2021 {fnj, rra 2}@cin. ufpe. br 23

IEBRNN – Grafo de interação l l l Mapas de contatos é uma representação gráfica de relação de vizinhança espacial entre aminoácidos, da qual pode ser obtida informações sobre interações a longa distancia. Os mapas de contatos podem ser preditos a partir da seqüência de entrada (estrutura primária). O grafo de interações, então, é montado a partir do mapa de contatos 3/1/2021 {fnj, rra 2}@cin. ufpe. br 24

IEBRNN – Representação Gráfica 3/1/2021 {fnj, rra 2}@cin. ufpe. br 25

IEBRNN – Definição l Entrada: l l l seqüência X(t) Rn grafo de interações G = (V, E) Funções de transição de estado Onde, lt, i e rt, i (i = 1. . . K) são os K vértices adjacentes de x(t), anteriores e posteriores a t, respectivamente l Condições de parada: l Saída: 3/1/2021 {fnj, rra 2}@cin. ufpe. br 26

IEBRNN – Função de Transição l As funções de transição de estados forward e backward podem ser implementadas com uma RN feed-forward, com n + (k+1)d entradas e d saídas sigmoidais l 3/1/2021 (t) usando n=3, d = 2 e K = 3 {fnj, rra 2}@cin. ufpe. br 27

Implementação - BRNN 3/1/2021 {fnj, rra 2}@cin. ufpe. br 28

Implementação 3/1/2021 {fnj, rra 2}@cin. ufpe. br 29

Configuração • • NB – número de neurônios da camada de saída do contexto backward. NBH – número de neurônios da camada oculta do contexto backward. NF – número de neurônios da camada de saída do contexto forward. NFH – número de neurônios da camada oculta do contexto forward. NY – número de neurônios da camada de saída da rede central NYH – número de neurônios da camada oculta da rede central Taxa – Taxa de aprendizagem Usar grafo – Define se os grafos de interação serão utilizados 3/1/2021 {fnj, rra 2}@cin. ufpe. br 30

Roteiro l l l Proposta Conceitos introdutórios Arquitetura das Redes Neurais utilizadas Dados experimentais Conclusão 3/1/2021 {fnj, rra 2}@cin. ufpe. br 31

Dados utilizados nos experimentos l l Utilizou-se um conjunto de cadeias não-homólogas do PDB (Protein Data Bank) Versão de Agosto de 2006 Problemas na obtenção e pré-processamento da base Codificação da entrada, utilizando 20 entradas binárias l Ex. : l l 3/1/2021 A – 10000000000 G – 01000000000 T – 001000000000. . {fnj, rra 2}@cin. ufpe. br 32

Dados utilizados nos experimentos l A estrutura secundária de saída para supervisão das entradas foram geradas usando o Programa DSSP * DSSP - Ferramenta para determinação da estrutura secundária de proteínas a partir das coordenadas atômicas e das pontes de hidrogênio. 3/1/2021 {fnj, rra 2}@cin. ufpe. br 33

Dados utilizados nos experimentos l Reduziu-se as 8 classes do DSSP para as 3 principais classes l l l 3/1/2021 H Alfa-helices E Beta-strands B, C, G, I, S, T gama-coils {fnj, rra 2}@cin. ufpe. br 34

Dados utilizados nos experimentos Grafos de Interação l Interações preditas são obtidas de um preditor de contatos do pacote CMAPpro é um software desenvolvido pelo Institute for Human and Machine Cognition da The University of West Florida l 3/1/2021 Baseado num grupo de 3 Redes Neurais Recursivas treinadas em um conjunto não redundante de mapas de contatos de proteínas. {fnj, rra 2}@cin. ufpe. br 35

Dados utilizados nos experimentos l Uma medida de performance utilizada é o Q 3, utilizada na predição de estruturas secundárias. l Q 3 = Ni / NT , onde i = 1. . Q l l l Ni = número total de resíduos identificados corretamente para cada classe NT = número total de resíduos existentes na proteína O melhor método disponível atualmente apresenta um nível Q 3 entre 70 e 79% na predição de SS. 3/1/2021 {fnj, rra 2}@cin. ufpe. br 36

Testes Realizados l Predição de Seqüência (IEBRNN) • Arquitetura utilizando a seguinte configuração NB NBH NF NFH NY NYH TAXA 10 20 3 20 0. 5 IEBRNN α β γ Q 3 3/1/2021 α (%) 82. 96% 0. 00% 21. 30% 70. 6081% β (%) 1. 12% 40. 00% 14. 20% {fnj, rra 2}@cin. ufpe. br γ (%) 15. 92% 60. 00% 64. 50% 37

Roteiro l l l Proposta Conceitos introdutórios Arquitetura das Redes Neurais utilizadas Dados experimentais Conclusão 3/1/2021 {fnj, rra 2}@cin. ufpe. br 38

Conclusão l l l Foi apresentado uma solução para predição de estruturas secundárias de proteínas utilizando redes neurais recorrentes bidirecionais enriquecidas de grafos de interação. A abordagem não pode ser treinada de forma mais completa no sentido que houveram problemas na aquisição das seqüências primárias e na obtenção de seus mapas de contato. Contudo, no escopo do conjunto de treinamento utilizado, a rede teve um aproveitamento dentro da média em que os preditores atuais alcançam. 3/1/2021 {fnj, rra 2}@cin. ufpe. br 39

Bibliografia l l l l Learning protein secondary structure from sequential and relational data. Alessio Ceroni, Paolo Frasconi, Gianluca Pollastri. Neural Networks, 18. 2005. Prediction of Structure and Function of Proteins and Ligands By Means of Neural and Kernel Methods for Strutured Data. Alessio Ceroni. Dissertation submitted in partial fulfillment of the requirements for the degree of doctor of Philosophy in computer Science and Control Engineering. Università Degli Studi di Firenze. 2004 -2005. Improved prediction of the number of residue contacts in proteins by recurrent neural networks. Gianluca Pollastri, Pierre Baldi, Pietro Fariselli e Rita Casadio. Bionformatics. March 21, 2001. Bidirectional Recurrent Neural Networks. Mike Schuster and Kuldip K. Paliwal, Member, IEEE Transactions on Signal Processing, Vol 45, no. 11. November 1997. http: //www. faqs. org/faqs/ai-faq/neural-nets/part 2/section-12. html Exploiting the past and the future in protein secondary structure prediction. Pierre aldi, Soren Brunak, Paolo Frasconi, Giovanni Soda and Gianluca Pollastri. Bioinformatics, vol 15, Nov 1999. Redes Neurais. Princípios e prática. Simon Haykin. 2ª Edição. 2001 3/1/2021 {fnj, rra 2}@cin. ufpe. br 40

Aprendizagem de Estrutura Secundária da Proteína a partir de Dados Seqüenciais e Relacionais Equipe: Francisco do Nascimento Ryan Azevedo PERGUNTAS? 3/1/2021 41