KDD E MINERAO DE DADOS Mtodos de Minerao

  • Slides: 105
Download presentation
KDD E MINERAÇÃO DE DADOS Métodos de Mineração de Dados Prof. Ronaldo R. Goldschmidt

KDD E MINERAÇÃO DE DADOS Métodos de Mineração de Dados Prof. Ronaldo R. Goldschmidt Instituto Militar de Engenharia Seção de Engenharia de Computação (SE/8) ronaldo. rgold@ime. eb. br / ronaldo. rgold@gmail. com

MÉTODOS DE MINERAÇÃO DE DADOS Considerações Iniciais Métodos Tradicionais Métodos Bioinspirados Tarefas de KDD

MÉTODOS DE MINERAÇÃO DE DADOS Considerações Iniciais Métodos Tradicionais Métodos Bioinspirados Tarefas de KDD x Métodos de Mineração de Dados

MÉTODOS DE MINERAÇÃO DE DADOS Considerações Iniciais Métodos Tradicionais Métodos Bioinspirados Tarefas de KDD

MÉTODOS DE MINERAÇÃO DE DADOS Considerações Iniciais Métodos Tradicionais Métodos Bioinspirados Tarefas de KDD x Métodos de Mineração de Dados

CONSIDERAÇÕES INICIAIS • Demanda por Tarefas de KDD • Diversidade de Métodos e Implementações

CONSIDERAÇÕES INICIAIS • Demanda por Tarefas de KDD • Diversidade de Métodos e Implementações • Necessidades de parametrização e experimentação • Exemplos de Métodos de Mineração de Dados: – K-NN, Classificadores Bayesianos, K-Means, Apriori, C 4. 5 – Etc… • Classificação: – Métodos Tradicionais – Métodos Bioinspirados

MÉTODOS DE MINERAÇÃO DE DADOS Considerações Iniciais Métodos Tradicionais Métodos Bioinspirados Tarefas de KDD

MÉTODOS DE MINERAÇÃO DE DADOS Considerações Iniciais Métodos Tradicionais Métodos Bioinspirados Tarefas de KDD x Métodos de Mineração de Dados

K – NEAREST NEIGHBORS (K-NN) Características Básicas: • Aprendizado Baseado em Instâncias / Casos

K – NEAREST NEIGHBORS (K-NN) Características Básicas: • Aprendizado Baseado em Instâncias / Casos (ABI) – Não há geração de modelo de conhecimento explícito – Dados do conjunto de treinamento representam o modelo • Estratégia Geral dos Métodos ABI: – Pré-processamento do conjunto de dados e do registro a ser analisado – Cálculo da similaridade do registro a ser analisado e os registros do conjunto de dados – Estimativa da saída com base nas similaridades calculadas

K – NEAREST NEIGHBORS (K-NN) • Entradas: – Valor de K (número de vizinhos)

K – NEAREST NEIGHBORS (K-NN) • Entradas: – Valor de K (número de vizinhos) – Métrica – Conjunto de dados (referência) – Novo registro • Procedimento Básico: – Cálculo da distância do novo registro a cada um dos registros do conjunto de referência – Identificação dos k registros que apresentam menor distância em relação ao novo registro (i. e. , mais similares) – Infere a saída a partir das informações contidas nos k registros identificados • Critérios de Inferência: – Variam bastante entre as implementações – Mais usuais: Média Aritmética e Moda.

K – NEAREST NEIGHBORS (K-NN) REGISTRO: X X X X X

K – NEAREST NEIGHBORS (K-NN) REGISTRO: X X X X X

K-NN – TAREFA DE CLASSIFICAÇÃO CLASSE REGISTRO: X X X X X Saída: a

K-NN – TAREFA DE CLASSIFICAÇÃO CLASSE REGISTRO: X X X X X Saída: a classe mais frequente (Moda). X X X X

K-NN – TAREFA DE REGRESSÃO VALOR NUMÉRICO REGISTRO: X X X X X Saída:

K-NN – TAREFA DE REGRESSÃO VALOR NUMÉRICO REGISTRO: X X X X X Saída: Interpolação dos valores recuperados. Ex: Média. X X X X

K – NEAREST NEIGHBORS (K-NN) • Escolha do valor de K (número de vizinhos)

K – NEAREST NEIGHBORS (K-NN) • Escolha do valor de K (número de vizinhos) – Depende do conjunto de referência. – Heurística geral: quanto maior o valor de k, menor o efeito de eventuais ruídos no conjunto de referência. – Valores grandes para k tornam mais difusas as fronteiras entre as classes existentes. – Problema de otimização. • Critério de interpolação: – Tipo do atributo de saída (nominal x quantitativo) – Pesos iguais x Pesos ponderados pela distância ao registro a ser analisado • Questão para pesquisa: – Métricas para lidar com atributos nominais?

CLASSIFICADORES BAYESIANOS Sejam: – X um conjunto de informações – C 1, C 2,

CLASSIFICADORES BAYESIANOS Sejam: – X um conjunto de informações – C 1, C 2, . . . , Cn Classes – um objeto / caso. Um Classificador Bayesiano é um método estatístico que: a) Computa P(C=Ck/ ) para K=1, 2, …, n b) Seleciona a classe Ck com maior probabilidade

CLASSIFICADORES BAYESIANOS Cálculo das Probabilidades Condicionais: P (C = Ck | ) = ?

CLASSIFICADORES BAYESIANOS Cálculo das Probabilidades Condicionais: P (C = Ck | ) = ? P(C = Ck | A 1 = a 1, A 2 = a 2, A 3 = a 3, . . . ) = (Subst. ) Denominador comum pode ser descartado P(A 1 = a 1, A 2 = a 2, A 3 = a 3, . . . | C = ck) * P(C=ck)

CLASSIFICADORES BAYESIANOS Cálculo das Probabilidades Condicionais: Sup. independência entre os atributos – Classificador Ingênuo

CLASSIFICADORES BAYESIANOS Cálculo das Probabilidades Condicionais: Sup. independência entre os atributos – Classificador Ingênuo P(C = Ck | ) é expressa por: P(A 1 = a 1 | C = ck) * P(A 2 = a 2 | C=ck) *. . . * P(C=ck) Onde, para atributos nominais:

CLASSIFICADORES BAYESIANOS Exemplo: Consideremos o seguinte conjunto de dados: (Jogar Tênis)

CLASSIFICADORES BAYESIANOS Exemplo: Consideremos o seguinte conjunto de dados: (Jogar Tênis)

CLASSIFICADORES BAYESIANOS Exemplo: São 2 Classes: Jogar = Sim, Jogar = Não Os atributos

CLASSIFICADORES BAYESIANOS Exemplo: São 2 Classes: Jogar = Sim, Jogar = Não Os atributos Ai são: Aparência, Temperatura, Umidade e Vento Pergunta-se: Um dia ensolarado, quente, de alta umidade e vento fraco é adequado para jogar tênis?

CLASSIFICADORES BAYESIANOS Exemplo: P(Jogar = Sim | ensolarado, quente, alta umidade, vento fraco) =

CLASSIFICADORES BAYESIANOS Exemplo: P(Jogar = Sim | ensolarado, quente, alta umidade, vento fraco) = 0, 0071 P(Jogar = Não | ensolardo quente, alta umidade, vento fraco) = 0, 0274 Resposta do Classificador Bayesiano: Jogar = Não

CLASSIFICADORES BAYESIANOS Exemplo: Cálculo das Probabilidades: P(Jogar = Sim | ensolarado, quente, alta unidade,

CLASSIFICADORES BAYESIANOS Exemplo: Cálculo das Probabilidades: P(Jogar = Sim | ensolarado, quente, alta unidade, vento fraco) = (2/9) * (3/9) * (6/9) * (9/14) = 0, 0071

CLASSIFICADORES BAYESIANOS Exemplo: Cálculo das Probabilidades: P(Jogar = Não | ensolarado, quente, alta unidade,

CLASSIFICADORES BAYESIANOS Exemplo: Cálculo das Probabilidades: P(Jogar = Não | ensolarado, quente, alta unidade, vento fraco) = (3/5) * (2/5) * (4/5) * (2/5) * (5/14) = 0, 0274

CLASSIFICADORES BAYESIANOS • Não existe modelo de conhecimento explícito – Depende do conjunto de

CLASSIFICADORES BAYESIANOS • Não existe modelo de conhecimento explícito – Depende do conjunto de referência (distribuição dos dados). • Questões para pesquisa: – Como adaptar para tratar atributos quantitativos? – E se removermos a hipótese de independência entre os atributos?

FAMÍLIA K-MEANS • Métodos voltados à tarefa de Agrupamento • Separação dos registros em

FAMÍLIA K-MEANS • Métodos voltados à tarefa de Agrupamento • Separação dos registros em n “clusters” • Maximizar/Minimizar similaridade intra/inter cluster X X XX XX X X X

FAMÍLIA K-MEANS Estrutura Comum • Inicialização: Seleção de um conjunto com k centroides de

FAMÍLIA K-MEANS Estrutura Comum • Inicialização: Seleção de um conjunto com k centroides de clusters iniciais no espaço de dados. Esta seleção pode ser aleatória ou de acordo com alguma heurística. • Cálculo da Distância: Calcula a distância euclidiana de cada ponto ou padrão ao centroide de cada cluster. Atribui cada ponto ao cluster cuja distância do ponto ao centroide do cluster seja mínima. • Recálculo dos Centroides: Recalcula o centroide de cada cluster pela média dos pontos de dados atribuídos ao respectivo cluster.

FAMÍLIA K-MEANS Estrutura Comum (cont. ) • Condição de Convergência: Repete os passos 2

FAMÍLIA K-MEANS Estrutura Comum (cont. ) • Condição de Convergência: Repete os passos 2 e 3 até que o critério de convergência tenha sido atingido. Em geral, considera-se um valor de tolerância do erro quadrático médio (MSE – Mean Squared Error) abaixo do qual a distribuição dos pontos de dados pelos clusters é considerada satisfatória.

FAMÍLIA K-MEANS Estrutura Comum (Cont. ) Diagrama de Atividades:

FAMÍLIA K-MEANS Estrutura Comum (Cont. ) Diagrama de Atividades:

FAMÍLIA K-MEANS Exemplo de Processamento

FAMÍLIA K-MEANS Exemplo de Processamento

FAMÍLIA K-MEANS Implementações • K-Means: – Atributos Quantitativos – Sem restrição aos Centroides •

FAMÍLIA K-MEANS Implementações • K-Means: – Atributos Quantitativos – Sem restrição aos Centroides • K-Modes: – Atributos Nominais • K-Prototypes: – Atributos Quantitativos e Nominais • K-Medoids: – Centroides são registros do conjunto de dados

FAMÍLIA K-MEANS Considerações Gerais • Escolha do valor de K (número de grupos) –

FAMÍLIA K-MEANS Considerações Gerais • Escolha do valor de K (número de grupos) – Depende do conjunto de referência. – Problema de otimização. • Desempenho: – Sensível a ruídos. – Bom quando grupos são densos e bem separados uns dos outros.

FAMÍLIA APRIORI Base Comum • Busca por Regras de Associação frequentes e válidas. •

FAMÍLIA APRIORI Base Comum • Busca por Regras de Associação frequentes e válidas. • Regra de Associação: X Y, onde X e Y são itemsets (conjuntos de itens) tais que X Y=. • Identificação dos conjuntos de itens frequentes: |X Y| / |D| >= Min. Sup (Suporte Mínimo) • Identificação, dentre os conjuntos de itens frequentes, quais as regras válidas: |X Y| / |X| >= Min. Conf (Confiança Mínima )

FAMÍLIA APRIORI Base Comum • Princípio da Anti-Monotonicidade do Suporte: – Subconjuntos de conjuntos

FAMÍLIA APRIORI Base Comum • Princípio da Anti-Monotonicidade do Suporte: – Subconjuntos de conjuntos frequentes precisam ser frequentes • Busca por Cliques Maximais em Grafos Bipartidos: Transações . . . Itens

FAMÍLIA APRIORI Variantes de Implementação • Implementações Sequenciais: – Basic, GSP, DHP, Partition, DIC,

FAMÍLIA APRIORI Variantes de Implementação • Implementações Sequenciais: – Basic, GSP, DHP, Partition, DIC, Eclat, Max. Eclat, Clique e Max. Clique, . . . • Implementações Paralelas: – Par. Eclat, Par. Max. Eclat, Par. Clique, Par. Max. Clique, P-Partition, …

FAMÍLIA C 4. 5 Base Comum • Baseiam-se no cálculo de entropia. • Dividem

FAMÍLIA C 4. 5 Base Comum • Baseiam-se no cálculo de entropia. • Dividem recursivamente o conjunto de dados procurando gerar partições “puras”. • Uma partição é “pura” quando só contém registros de uma mesma classe. • Exemplo de medida para a impureza (inconsistência) de uma partição : – Gini(T) = 1 - pj 2 (onde pj é a frequência relativa da classe j em T). – Quanto menor, melhor (mais puro – ou menos impuro) Sexo Est_Civil Result Count(*) M C A 2 M C I 1 F S A 3 M S I 1 Gini(T) = 1 – [(2/3)2 + (1/3)2] = 0, 44

FAMÍLIA C 4. 5 Seja S(A 1, A 2, . . . , Am,

FAMÍLIA C 4. 5 Seja S(A 1, A 2, . . . , Am, C) um conjunto de dados, sendo C o atributo objetivo do problema. C 1, C 2, . . . , Ck são valores de C. Ex: Renda Despesa Resposta (AP, NG, ES) Alta Baixa AP Alta ES Baixa NG Baixa Alta NG A 1 – Renda A 2 – Despesa C – Resposta C 1 – AP C 2 – ES C 3 - NG

FAMÍLIA C 4. 5 Árvore de Decisão - Exemplo: Baixa Renda Alta Despesa NG

FAMÍLIA C 4. 5 Árvore de Decisão - Exemplo: Baixa Renda Alta Despesa NG Alta Baixa ES AP Regras de Produção: 1) Se Renda = Baixa Então Resultado = NG 2) Se Renda = Alta E Despesa = Alta Então Resultado = ES 3) Se Renda = Alta E Despesa = Baixa Então Resultado = AP

FAMÍLIA C 4. 5 • Gera modelo de conhecimento explícito. • Implementações: – ID

FAMÍLIA C 4. 5 • Gera modelo de conhecimento explícito. • Implementações: – ID 3, – C 4. 5, – CART, – J 4. 8, – etc… • Questão para pesquisa: – Como trata atributos quantitativos?

MÉTODOS DE MINERAÇÃO DE DADOS Considerações Iniciais Métodos Tradicionais Métodos Bioinspirados Tarefas de KDD

MÉTODOS DE MINERAÇÃO DE DADOS Considerações Iniciais Métodos Tradicionais Métodos Bioinspirados Tarefas de KDD x Métodos de Mineração de Dados

MÉTODOS DE MINERAÇÃO DE DADOS Métodos Bioinspirados • Baseados em Algoritmos Genéticos – Rule

MÉTODOS DE MINERAÇÃO DE DADOS Métodos Bioinspirados • Baseados em Algoritmos Genéticos – Rule Evolver • Sumarização, Classificação • Baseados em Redes Neurais – Rede Multi. Layer Perceptron (MLP) com Backpropagation • Classificação, Regressão, Previsão de Séries Temporais – Redes SOM (Self Organizing Maps) • Clusterização • Baseados em Lógica Nebulosa – Wang & Mendel • Regressão, Previsão de Séries Temporais

ALGORITMOS GENÉTICOS: RULE EVOLVER Motivação Identificar padrões de empresas em um BD Exemplo: Qual

ALGORITMOS GENÉTICOS: RULE EVOLVER Motivação Identificar padrões de empresas em um BD Exemplo: Qual o padrão das empresas do Cluster 1? Se receita_serviço 1 (Voz) = 5000<R$<7000 & receita_serviço 2 (Telex) = 7000<R$<8000 & código_atividade = 13 (Ind. Mat. Elétrico Eletrônico e Comunicação) & 10 < #_Filiais < 50 &. . . #_Empregados > 100 Então Empresa pertence ao Cluster 1(In-Transaction)

ALGORITMOS GENÉTICOS: RULE EVOLVER Cromossoma Regra Genes atributos do banco de dados cruzamento Receita

ALGORITMOS GENÉTICOS: RULE EVOLVER Cromossoma Regra Genes atributos do banco de dados cruzamento Receita Serviço 1 Receita Serviço 2 COD_ATIV = 13 1000<R$<2000 4000<R$<9000 10<#_Filiais<50 Empregados>100 Receita Serviço 1 Receita Serviço 2 COD_ATIV = 14 5000<R$<7000<R$<8000 30<#_Filiais<60 Empregados>300 Receita Serviço 1 Receita Serviço 2 COD_ATIV = 14 1000<R$<2000 4000<R$<9000 30<#_Filiais<60 Empregados>300 Receita Serviço 1 Receita Serviço 2 COD_ATIV = 13 5000<R$<7000<R$<8000 2 10<#_Filiais<50 Empregados>100 P 1 P 2 F 1 F

ALGORITMOS GENÉTICOS: RULE EVOLVER Regras – Forma Geral SE C 1 E C 2

ALGORITMOS GENÉTICOS: RULE EVOLVER Regras – Forma Geral SE C 1 E C 2 E … E Cn ENTÃO CONCLUSÃO Onde Ci , i=1, …, n são condições envolvendo atributos preditivos Conclusão – envolve um atributo objetivo com valor fixo, não manipulado pelo AG

ALGORITMOS GENÉTICOS: RULE EVOLVER Representação do Cromossoma Min 1 Max 1 Min 2 Max

ALGORITMOS GENÉTICOS: RULE EVOLVER Representação do Cromossoma Min 1 Max 1 Min 2 Max 2 Atb 1 Atb 2 … Min n Max n Atb n Onde Atbi pode ser: • Quantitativo – Faixa de valores: [Mini, Maxi] • Categórico – Contém um único símbolo codificado em Mini

ALGORITMOS GENÉTICOS: RULE EVOLVER Operadores de Crossover Disponíveis • Um Ponto • Dois Pontos

ALGORITMOS GENÉTICOS: RULE EVOLVER Operadores de Crossover Disponíveis • Um Ponto • Dois Pontos • Uniforme • Média • Aritmético • Lógico • Híbrido

ALGORITMOS GENÉTICOS: RULE EVOLVER Op. Lógico OU p/ Atributos Categóricos • Representação Real •

ALGORITMOS GENÉTICOS: RULE EVOLVER Op. Lógico OU p/ Atributos Categóricos • Representação Real • Interpretação do valor de um atributo categórico (alfabeto de cardinalidade k): - Real Binário com k bits - Cada posição indica ausência (0) ou presença (1) do símbolo correspondente

ALGORITMOS GENÉTICOS: RULE EVOLVER Op. Lógico OU p/ Atributos Categóricos Ex: Tipo Residência: Dom.

ALGORITMOS GENÉTICOS: RULE EVOLVER Op. Lógico OU p/ Atributos Categóricos Ex: Tipo Residência: Dom. = {própria, alugada, parente, funcional} Alelo 1 2 3 … 15 Decodificação 0001 0010 0011 … 1111 0 0000 Tipo Res própria alugada própria ou alugada … própria ou alugada ou parente ou funcional (don’t care) Não informada (Null)

ALGORITMOS GENÉTICOS: RULE EVOLVER Operador de Crossover Lógico (E/OU) F 1 = P 1

ALGORITMOS GENÉTICOS: RULE EVOLVER Operador de Crossover Lógico (E/OU) F 1 = P 1 OU P 2 F 2 = P 1 E P 2 P 1 0011 null F 1 0111 null P 2 0110 null F 2 0010 null

ALGORITMOS GENÉTICOS: RULE EVOLVER Operador de Crossover Híbrido • O Crossover Aritmético para Atributos

ALGORITMOS GENÉTICOS: RULE EVOLVER Operador de Crossover Híbrido • O Crossover Aritmético para Atributos Quantitativos • O Crossover Lógico proposto para Atributos Categóricos

ALGORITMOS GENÉTICOS: RULE EVOLVER Operadores de Mutação Disponíveis • Mutação Simples • Mutação Don’t

ALGORITMOS GENÉTICOS: RULE EVOLVER Operadores de Mutação Disponíveis • Mutação Simples • Mutação Don’t Care • Mutação Creep • Mutação Lógica • Mutação Híbrida • Mutação de Extensão Lógica

ALGORITMOS GENÉTICOS: RULE EVOLVER Operador de Mutação Lógica (Negação/Troca Aleatória) I = NOT I

ALGORITMOS GENÉTICOS: RULE EVOLVER Operador de Mutação Lógica (Negação/Troca Aleatória) I = NOT I 0011 null 1100 null

ALGORITMOS GENÉTICOS: RULE EVOLVER Operador de Mutação Híbrida • A Mutação CREEP para Atributos

ALGORITMOS GENÉTICOS: RULE EVOLVER Operador de Mutação Híbrida • A Mutação CREEP para Atributos Quantitativos • A Mutação Lógica para Atributos Categóricos

ALGORITMOS GENÉTICOS: RULE EVOLVER Funções de Avaliação: FAbrangência e FAcurácia Seja R uma Regra

ALGORITMOS GENÉTICOS: RULE EVOLVER Funções de Avaliação: FAbrangência e FAcurácia Seja R uma Regra qualquer: SE P ENTÃO O Define-se: • Acurácia de R : |P O| / |P| • Abrangência de R : |P O| / |O|

REDES NEURAIS: RECORDAÇÃO Estrutura de uma Rede Neural: Atividade Neural w I 1 I

REDES NEURAIS: RECORDAÇÃO Estrutura de uma Rede Neural: Atividade Neural w I 1 I 2 I 3 w w H 1 w w w H 2 w w w H 3 w w O 1 O 2 O 3 w Pesos Entrada w Pesos Escondida Saída

REDES NEURAIS: RECORDAÇÃO Elementos Básicos de um Neurônio Artificial: Neurônio Artificial Pesos w 1

REDES NEURAIS: RECORDAÇÃO Elementos Básicos de um Neurônio Artificial: Neurônio Artificial Pesos w 1 w 2 w 3 Propagação Ativação

REDES NEURAIS: RECORDAÇÃO Elementos Básicos de um Neurônio Artificial: · Conexões entre Processadores -

REDES NEURAIS: RECORDAÇÃO Elementos Básicos de um Neurônio Artificial: · Conexões entre Processadores - a cada conexão existe um peso sináptico que determina o efeito da entrada sobre o processador Wik i Wik – expressa a força da conexão entre os neurônios i e k k Alguns autores referenciam Wik como Wki Exemplos: 1 W 18=0. 7 8 5 W 59= - 1. 3 9

REDES NEURAIS: RECORDAÇÃO Elementos Básicos de um Neurônio Artificial: • Regra de Propagação –

REDES NEURAIS: RECORDAÇÃO Elementos Básicos de um Neurônio Artificial: • Regra de Propagação – Combina as entradas de um processador com os pesos sinápticos associados às conexões que chegam a tal processador. netk é a saída do combinador linear, onde: netk = Wik * Oi netk – Potencial de ativação do processador k Oi – Saída do processador i Wik – Peso da conexão entre os neurônios i e k 1 2 O 1= 0. 2 W 13= 1. 2 O 2= - 1 W 23= - 0. 3 3 net 3 = (O 1*W 13) + (O 2*W 23) = (0. 2*1. 2) + ((-1)*(-0. 3)) = 2. 4+0. 3 = 2. 7

REDES NEURAIS: RECORDAÇÃO Elementos Básicos de um Neurônio Artificial: · Estado de Ativação Sk

REDES NEURAIS: RECORDAÇÃO Elementos Básicos de um Neurônio Artificial: · Estado de Ativação Sk · Função de Ativação - determina o novo valor do Estado de Ativação do processador Sk = F (netk ) Onda quadrada binária (degrau) Linear por partes (rampa) 1 0 Sigmóide 1 0 net y Tangente Hiperbólica 1 y 0 0 net -1 net

REDES NEURAIS: MLP COM BACK-PROPAGATION Princípio Básico:

REDES NEURAIS: MLP COM BACK-PROPAGATION Princípio Básico:

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo Atividade Neural w I 1 I 2 Dados para Treinamento I 3 w w H 1 w w w H 2 w w w H 3 w w O 1 O 2 O 3 w Pesos Entrada w Pesos Escondida Saída

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo Atividade Neural w I 1 I 2 Dados para Treinamento I 3 w w H 1 w w w H 2 w w w H 3 w w O 1 O 2 O 3 w Pesos Entrada w Pesos Escondida Saída

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo Atividade Neural I 1 I 2 Dados para Treinamento w w I 3 w H 1 w w w H 2 w w w H 3 Pesos w O 1 O 2 O 3 w w Entrada w Pesos Escondida Saída

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Erro

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Erro = w I 1 I 2 I 3 w H 1 w w w H 2 w w w Dados para w Treinamento w Entrada w Pesos H 3 O 1 O 2 O 3 w w Escondida Pesos Saída -

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo Atividade Neural w I 1 I 2 Dados para Treinamento I 3 w w H 1 w w w H 2 w w w H 3 w w O 1 O 2 O 3 w Pesos Entrada w Pesos Escondida Saída

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo Atividade Neural w I 1 I 2 Dados para Treinamento I 3 w w H 1 w w w H 2 w w w H 3 w w O 1 O 2 O 3 w Pesos Entrada w Pesos Escondida Saída

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo Atividade Neural I 1 I 2 Dados para Treinamento w w I 3 w H 1 w w w H 2 w w w H 3 Pesos w O 1 O 2 O 3 w w Entrada w Pesos Escondida Saída

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Erro

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Erro = w w I 1 I 2 I 3 Dados para w H 1 w w w H 2 Entrada w w w H 3 w Treinamento w Pesos w O 1 O 2 O 3 w Escondida Saída -

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo Atividade Neural w I 1 I 2 Dados para Treinamento I 3 w w H 1 w w w H 2 w w w H 3 w w O 1 O 2 O 3 w Pesos Entrada w Pesos Escondida Saída

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo Atividade Neural w I 1 I 2 Dados para Treinamento I 3 w w H 1 w w w H 2 w w w H 3 w w O 1 O 2 O 3 w Pesos Entrada w Pesos Escondida Saída

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo

REDES NEURAIS: MLP COM BACK-PROPAGATION MLP – Ilustração da Dinâmica do Treinamento (BP) Alvo Atividade Neural I 1 I 2 Dados para Treinamento w w I 3 w H 1 w w w H 2 w w w H 3 Pesos w O 1 O 2 O 3 w w Entrada w Pesos Escondida Saída

REDES NEURAIS: MLP COM BACK-PROPAGATION Regra de Aprendizagem: Regra Delta Generalizada A métrica de

REDES NEURAIS: MLP COM BACK-PROPAGATION Regra de Aprendizagem: Regra Delta Generalizada A métrica de aprendizagem – erro quadrático (a ser minimizado) A regra de aprendizagem

REDES NEURAIS: MLP COM BACK-PROPAGATION Exemplos de Dificuldades no Treinamento • Velocidade de aprendizado

REDES NEURAIS: MLP COM BACK-PROPAGATION Exemplos de Dificuldades no Treinamento • Velocidade de aprendizado • Mínimos Locais e Platôs • Perda da Capacidade de Generalização (Overfitting)

REDES NEURAIS: MLP COM BACK-PROPAGATION Boa Generalização (Desejável): A Rede Neural responde corretamente a

REDES NEURAIS: MLP COM BACK-PROPAGATION Boa Generalização (Desejável): A Rede Neural responde corretamente a um padrão de entrada fora do conjunto de treinamento. Interpola corretamente os novos pontos apresentados.

REDES NEURAIS: MLP COM BACK-PROPAGATION Os valores de entrada dos neurônios após a camada

REDES NEURAIS: MLP COM BACK-PROPAGATION Os valores de entrada dos neurônios após a camada de entrada são calculados pela regra de propagação, em geral o produto escalar: netj(n)= wji(n)yi(n) onde, wji(n) correponde aos pesos das conexões que chegam ao neurônio j na n-ésima iteração. yi(n) é o i-ésimo sinal de entrada do neurônio j na n-ésima iteração.

REDES NEURAIS: MLP COM BACK-PROPAGATION Em todos os neurônios, a função de ativação deve

REDES NEURAIS: MLP COM BACK-PROPAGATION Em todos os neurônios, a função de ativação deve ser diferenciável. A função de ativação é aplicada ao potencial de ativação de cada neurônio (netj(n)): yj(n)= j(netj(n)) É muito comum a utilização da função logística sigmoidal: yj(n)=1/(1+e-netj(n))

REDES NEURAIS: MLP COM BACK-PROPAGATION Uma vez geradas as saídas dos neurônios da camada

REDES NEURAIS: MLP COM BACK-PROPAGATION Uma vez geradas as saídas dos neurônios da camada de saída da rede, o algoritmo Back-Propagation inicial a segunda etapa do treinamento para o padrão apresentado. Neste momento, o sinal de erro produzido pelo neurônio j da camada de saída na iteração n é calculado por: ej(n) = dj(n) – yj(n) O gradiente local de cada neurônio j da camada de saída no instante n é calculado pela expressão: j(n)= ej(n) ’j(netj(n))

REDES NEURAIS: MLP COM BACK-PROPAGATION Esta etapa prossegue, passando os sinais de erro da

REDES NEURAIS: MLP COM BACK-PROPAGATION Esta etapa prossegue, passando os sinais de erro da direita para a esquerda, calculando o gradiente local associado a cada neurônio não pertencente à camada de saída (1), e ajustando os pesos das conexões (2) associadas a ele. j(n)= ’j(netj(n)) k(n) wkj(n) (1) wji(n) = j(n) yi(n) (2)

REDES NEURAIS: SOM Kohonen – SOM (Self Organizing Feature Maps) • Objetivo: – Agrupar

REDES NEURAIS: SOM Kohonen – SOM (Self Organizing Feature Maps) • Objetivo: – Agrupar dados de entrada em função da detecção de padrões de similaridade ou diferença entre esses dados, viabilizada pela redundância de informação existente. • Características – Pertence à família de redes auto-organizáveis (mapas de características auto-organizáveis) – Voltada ao agrupamento características comuns de padrões que compartilham – Utiliza aprendizado competitivo (neurônios competem entre si pelo direito de atualizar seus pesos) – Teuvo Kohonen foi responsável por sua criação, além de outros modelos de RNAs

REDES NEURAIS: SOM Kohonen – SOM (Self Organizing Feature Maps) • Funcionamento: – Quando

REDES NEURAIS: SOM Kohonen – SOM (Self Organizing Feature Maps) • Funcionamento: – Quando um padrão de entrada p é apresentado, a rede procura o neurônio mais similar a p. Durante o seu treinamento, a rede aumenta a semelhança do neurônio escolhido e de seus vizinhos ao padrão p. – Dessa forma, a rede constrói um mapa topológico onde os neurônios que estão fisicamente mais próximos respondem de forma semelhante a padrões de entrada semelhantes. • Características – A rede SOM apresenta respaldo biológico, pois no córtex cerebral, neurônios ativos apresentam conexões mais fortes com neurônios que estão fisicamente mais próximos.

REDES NEURAIS: SOM Kohonen – SOM (Self Organizing Feature Maps) • Características – A

REDES NEURAIS: SOM Kohonen – SOM (Self Organizing Feature Maps) • Características – A rede SOM utiliza aprendizado competitivo e não supervisionado em que neurônios da camada de saída competem entre si para se tornarem ativos, ou seja, quem gera o maior valor de saída. – A competição é do tipo winner takes all, em que apenas um neurônio pode vencer a disputa. – Utiliza conexões laterais inibitórias e o conceito de vizinhos topológicos, simulando o efeito do chapéu mexicano (vizinhos próximos ao neurônio vencedor também têm seus pesos ajustados).

REDES NEURAIS: SOM Kohonen – SOM (Self Organizing Feature Maps) • Arquitetura – Na

REDES NEURAIS: SOM Kohonen – SOM (Self Organizing Feature Maps) • Arquitetura – Na rede SOM, os neurônios se organizam em uma grade ou reticulado, geralmente bidimensional, podendo algumas vezes ser unidimensional. – Cada neurônio recebe todas as entradas e funciona como um discriminador ou extrator de características – Quanto mais semelhante a entrada for de um vetor de pesos de um neurônio, maior será a saída gerada por este neurônio.

REDES NEURAIS: SOM Kohonen – SOM (Self Organizing Feature Maps) • Treinamento – Algoritmo:

REDES NEURAIS: SOM Kohonen – SOM (Self Organizing Feature Maps) • Treinamento – Algoritmo: – Inicializa pesos e parâmetros – Repita – Para todo padrão de treinamento faça – Definir neurônio vencedor – Atualizar os pesos deste neurônio e seus vizinhos – Se o número do ciclo for múltiplo de N então – Reduzir taxa de aprendizado – Reduzir Vizinhança – Fim se – Fim para – Até que o mapa não mude

REDES NEURAIS: SOM Kohonen – SOM (Self Organizing Feature Maps) • Treinamento – O

REDES NEURAIS: SOM Kohonen – SOM (Self Organizing Feature Maps) • Treinamento – O estado de ativação de um neurônio é determinado pela distância entre seu vetor de pesos e o vetor de entrada: – A atualização dos pesos do neurônio vencedor e dos situados na sua vizinhança é calculada por: 1ª. Eq caso o neurônio pertença à vizinhança do vencedor e 2ª. Eq. caso contrário. – Redução da região de vizinhança

Método de Wang & Mendel (Fuzzy Logic) l Tem como objetivo, a partir de

Método de Wang & Mendel (Fuzzy Logic) l Tem como objetivo, a partir de um conjunto de dados de entrada e saída, onde x 1 e x 2 são entradas e y é a saída, gerar um conjunto de regras que generalize o conhecimento embutido nos dados; l Pode ser generalizado para o caso de múltiplas entradas e saídas;

Método de Wang & Mendel (Fuzzy Logic) l Passo 1 - Dividir os espaços

Método de Wang & Mendel (Fuzzy Logic) l Passo 1 - Dividir os espaços de entrada e saída em regiões fuzzy – Domínios das variáveis – intervalos provavelmente os valores vão estar X 1 : [a-, a+] X 2: [b-, b+] Y : [c-, c+] onde

Método de Wang & Mendel (Fuzzy Logic) l Divida cada domínio em 2 N

Método de Wang & Mendel (Fuzzy Logic) l Divida cada domínio em 2 N + 1 regiões – l N pode ser diferente para variáveis diferentes e os tamanhos das regiões podem ser iguais ou diferentes; Atribuir um rótulo a cada região – SN (Small N), . . . , S 1 (Small 1), . . . , BN (Big N);

Método de Wang & Mendel Domínio de x 1: N = 2 (5 regiões)

Método de Wang & Mendel Domínio de x 1: N = 2 (5 regiões) X 1 : [a-, a+] X 2: [b-, b+] Y : [c-, c+] Domínio de x 2: N= 3 (7 regiões) Domínio de y: N= 2 (5 regiões)

Método de Wang & Mendel l Passo 2 – Gerar uma regra para cada

Método de Wang & Mendel l Passo 2 – Gerar uma regra para cada conjunto de dados conhecido: – Determine o graus de pertinência dos dados em cada região B 1(x 1 (1)) = 0. 8 B 2 (x 1 (1)) =0. 2 (0 nos demais conjuntos)

Método de Wang & Mendel S 1(x 2 (1)) = 0. 7 S 2

Método de Wang & Mendel S 1(x 2 (1)) = 0. 7 S 2 (x 2 (1)) =0. 2 (0 nos demais conjuntos)

Método de Wang & Mendel CE(y (1)) = 0. 9 B 1 (y (1))

Método de Wang & Mendel CE(y (1)) = 0. 9 B 1 (y (1)) =0. 1 (0 nos demais conjuntos)

Método de Wang & Mendel B 1(x 1 (1)) = 0. 8 B 2

Método de Wang & Mendel B 1(x 1 (1)) = 0. 8 B 2 (x 1 (1)) =0. 2 (0 nos demais conjuntos) S 1(x 2 (1)) = 0. 7 S 2 (x 2 (1)) =0. 2 (0 nos demais conjuntos) CE(y (1)) = 0. 9 B 1 (y (1)) =0. 1 (0 nos demais conjuntos) – Atribua cada valor dos dados à região com maior grau de pertinência x 1 (1) é considerado como B 1 x 2 (1) é considerado como S 1 y (1) é considerado como CE - Obtenha uma regra para cada dado de entrada e saída Regra 1: Se x 1 é B 1 e x 2 é S 1 então y é CE Regra 2: Se x 1 é B 1 e x 2 é CE então y é B 1

Método de Wang & Mendel l Passo 3 – Atribua um grau a cada

Método de Wang & Mendel l Passo 3 – Atribua um grau a cada regra – D(Regra j) – O grau de cada regra é definido pelo produto dos graus de pertinência: Regra 1: Se x 1 é B 1 e x 2 é S 1 então y é CE D(Regra 1) = 0. 8 * 0. 7 * 0. 9 = 0. 504 Regra 2: Se x 1 é B 1 e x 2 é CE então y é B 1 D(Regra 2) = 0. 6 * 1 * 0. 7 = 0. 42

Método de Wang & Mendel – Caso exista conhecimento prévio que permita atribuir graus

Método de Wang & Mendel – Caso exista conhecimento prévio que permita atribuir graus de importância a cada dado, redefinir o grau de cada regra como: D(Regra 1) = B 1 (x 1 (1)) * S 1 (x 2(1)) * CE(y (1)) * m(1) – Nos casos em que se dispõe de regras linguísticas criadas por especialistas, elas serão consideradas assumindo que também possuem um grau, atribuído pelo especialista;

Método de Wang & Mendel l Passo 4 – Criar uma base de regras

Método de Wang & Mendel l Passo 4 – Criar uma base de regras combinada – Para cada grupo de regras com o mesmo antecedente (conflito e redundância) selecione a regra com o maior grau e elimine as demais;

Exemplo: 2 variáveis (entrada, saída) 0. 5 3 3 2 10. 5 4 7.

Exemplo: 2 variáveis (entrada, saída) 0. 5 3 3 2 10. 5 4 7. 5 2 5 1 3 6 6 10 3 7 8 1 6 2 3 9. 5 3 9 5 1. 5 7 1 1 9 4 9. 5 4 6. 5 7. 5 2 6 1 2 6. 5 9. 5 5 4 2 2 7 1 2. 5 6 7 7 7 6 3 2. 5 6. 5 1. 5 2 6 8 7 7. 5 6. 5 3 2. 5 7. 5 2 1 7 6 9. 5 3. 5 6 2 4 6 2 2 10 4 10 5 8 2 5 7

Exemplo: 2 variáveis (entrada, saída)

Exemplo: 2 variáveis (entrada, saída)

Exemplo: 2 variáveis (entrada, saída)

Exemplo: 2 variáveis (entrada, saída)

Exemplo: 2 variáveis (entrada, saída)

Exemplo: 2 variáveis (entrada, saída)

Aplicação: Previsão de Séries Temporais l Seja x(k), k = 1, 2, . .

Aplicação: Previsão de Séries Temporais l Seja x(k), k = 1, 2, . . . N uma série temporal e dada uma janela de n medidas de x(k), x(kn+1), x(k-n+2), . . . , x(k), determinar x(k+l). JANELA N =5 JANELA = 5 VALOR PREVISTO (L=4) X(K+4) X(K-3) X(K-2) X(K-1) X(K)

Aplicação: Previsão de Séries Temporais x 1 x 2 x 3 x 4 x

Aplicação: Previsão de Séries Temporais x 1 x 2 x 3 x 4 x 5 x 6 x 7 = CONSEQUENTE ANTECEDENTE O valor a ser previsto depende de n valores passados de x, logo, estes n valores irão compor o antecedente da regra.

Aplicação: Previsão de Séries Temporais l Passo 1 – Divide-se a faixa de valores

Aplicação: Previsão de Séries Temporais l Passo 1 – Divide-se a faixa de valores da série [U-, U+] em m (ímpar) conjuntos fuzzy;

Aplicação: Previsão de Séries Temporais – Associa-se um rótulo a cada conjunto;

Aplicação: Previsão de Séries Temporais – Associa-se um rótulo a cada conjunto;

Aplicação: Previsão de Séries Temporais l Passo 2 – Determina-se: l l – Tamanho

Aplicação: Previsão de Séries Temporais l Passo 2 – Determina-se: l l – Tamanho da janela: define quantos e quais valores passados têm mais influência no valor a ser previsto; Horizonte de previsão: define l em função de quantos valores à frente se deseja a previsão; Para cada regra: l l l Determinar os graus de pertinência dos elementos xj; Atribuir, a cada variável, o conjunto de maior grau; Obter a regra para cada par de entrada-saída;

Aplicação: Previsão de Séries Temporais x 1

Aplicação: Previsão de Séries Temporais x 1

Aplicação: Previsão de Séries Temporais

Aplicação: Previsão de Séries Temporais

Aplicação: Previsão de Séries Temporais SE Xj(1) é S 3 E Xj(2) é S

Aplicação: Previsão de Séries Temporais SE Xj(1) é S 3 E Xj(2) é S 1 E Xj(3) é S 1 E Xj(4) é B 1 E Xj(5) é CE E Xj(6) é B 2 ENTÃO Xj(7) é S 1

Aplicação: Previsão de Séries Temporais l Passo 3 – l Atribuir um grau a

Aplicação: Previsão de Séries Temporais l Passo 3 – l Atribuir um grau a cada regra determinado pelo produto dos graus de pertinência dos componentes da regra (antecedente e consequente); Passo 4 – Eliminar redundância e conflito selecionando a regra com maior grau.

MÉTODOS DE MINERAÇÃO DE DADOS Considerações Iniciais Métodos Tradicionais Métodos Bioinspirados Tarefas de KDD

MÉTODOS DE MINERAÇÃO DE DADOS Considerações Iniciais Métodos Tradicionais Métodos Bioinspirados Tarefas de KDD x Métodos de Mineração de Dados

TAREFAS E MÉTODOS – ALGUNS EXEMPLOS Tarefas de KDD Descoberta de Associações Classificação Regressão

TAREFAS E MÉTODOS – ALGUNS EXEMPLOS Tarefas de KDD Descoberta de Associações Classificação Regressão Métodos de Mineração de Dados Basic, Apriori, DHP, Partition, DIC, ASCX-2 P Redes Neurais (Ex: MLP com Back-Propagation), C 4. 5, Rough Sets, Algoritmos Genéticos (Ex: Rule Evolver), CART, K-NN, Classificadores Bayesianos, SVM Redes Neurais (Ex: Redes MLP com Back. Propagation), Lógica Nebulosa Sumarização C 4. 5, Algoritmos Genéticos (Ex: Rule Evolver) Clusterização K-Means, K-Modes, K-Prototypes, Fuzzy KMeans, Algoritmos Genéticos, Redes Neurais (Ex: Kohonen) Previsão de Séries Temporais Redes Neurais (Ex: Redes MLP com Back. Propagation), Lógica Nebulosa (Ex: Wang. Mendel)