UPE Caruaru Sistemas de Informao Disciplina Inteligncia Artificial

  • Slides: 51
Download presentation
UPE – Caruaru – Sistemas de Informação Disciplina: Inteligência Artificial Prof. : Paulemir G.

UPE – Caruaru – Sistemas de Informação Disciplina: Inteligência Artificial Prof. : Paulemir G. Campos Mineração de Dados 11/4/2020 IA - Prof. Paulemir Campos 1

Roteiro da Aula n n n Introdução; Pré-Processamento de Dados; Técnicas de Mineração de

Roteiro da Aula n n n Introdução; Pré-Processamento de Dados; Técnicas de Mineração de Dados; Aplicações; Referências. 11/4/2020 IA - Prof. Paulemir Campos 2

Introdução 11/4/2020 IA - Prof. Paulemir Campos 3

Introdução 11/4/2020 IA - Prof. Paulemir Campos 3

Motivação n Explosão de Dados n n n Ferramentas automáticas de coleta de dados

Motivação n Explosão de Dados n n n Ferramentas automáticas de coleta de dados mais maturidade das tecnologias de bancos de dados; Enorme quantidade de dados armazenados em bases de dados e outros meios de armazenamento; Abundância de dados ao lado de escassez de conhecimentos. 11/4/2020 IA - Prof. Paulemir Campos 4

Motivação n Soluções para a Explosão de Dados n n data warehouse e mineração

Motivação n Soluções para a Explosão de Dados n n data warehouse e mineração de dados. Assim, pretende-se descobrir conhecimentos (regras, regularidades, padrões) a partir de enormes bases de dados. 11/4/2020 IA - Prof. Paulemir Campos 5

KDD: Descoberta de Conhecimentos a partir de Banco de dados Avaliação dos Padrões Mineração

KDD: Descoberta de Conhecimentos a partir de Banco de dados Avaliação dos Padrões Mineração de Dados Relevantes Data Warehouse Seleção Limpeza de Dados Integração de Dados Bases de dados 11/4/2020 IA - Prof. Paulemir Campos 6

Processo de KDD (Knowledge Discovery in Databases) n Estudo do domínio de aplicação n

Processo de KDD (Knowledge Discovery in Databases) n Estudo do domínio de aplicação n n n Conhecimento a priori relevante; Objetivo da aplicação. Seleção dos dados; Limpeza e pré-processamento dos dados (60% do esforço); Redução e transformação de dados n n Seleção de atributos; Redução de dimensionalidade. 11/4/2020 IA - Prof. Paulemir Campos 7

Processo de KDD (Knowledge Discovery in Databases) n Escolha dos modelos de mineração n

Processo de KDD (Knowledge Discovery in Databases) n Escolha dos modelos de mineração n n n Classificação, Regressão, Associação, Clustering, etc; Escolhas dos algoritmos de mineração; Mineração de Dados n Busca de padrões interessantes. 11/4/2020 IA - Prof. Paulemir Campos 8

Processo de KDD (Knowledge Discovery in Databases) n Avaliação dos padrões e apresentação do

Processo de KDD (Knowledge Discovery in Databases) n Avaliação dos padrões e apresentação do conhecimento n n Visualização, transformação, remoção de padrões redundantes. Uso do conhecimento descoberto. 11/4/2020 IA - Prof. Paulemir Campos 9

Pré-Processamento de Dados 11/4/2020 IA - Prof. Paulemir Campos 10

Pré-Processamento de Dados 11/4/2020 IA - Prof. Paulemir Campos 10

Introdução n Os dados no mundo real estão “sujos”: n Incompletos n n Ruidosos

Introdução n Os dados no mundo real estão “sujos”: n Incompletos n n Ruidosos n n n ausência de atributos de interesse; apenas dados agregados; ausência de valores (missing values). erros aleatórios; valores aberrantes (outliers); Inconsistentes n 11/4/2020 Divergências nas codificações ou nos nomes. IA - Prof. Paulemir Campos 11

Introdução n n Sem dados de boa qualidade o resultado da mineração é pobre;

Introdução n n Sem dados de boa qualidade o resultado da mineração é pobre; Assim, é importante efetuar um préprocessamento nos dados, antes de aplicar algum algoritmo de mineração de dados; 11/4/2020 IA - Prof. Paulemir Campos 12

Introdução n Os pré-processamentos mais aplicados em bases de dados são: n n Limpeza

Introdução n Os pré-processamentos mais aplicados em bases de dados são: n n Limpeza dos Dados; E, Transformação dos Dados. 11/4/2020 IA - Prof. Paulemir Campos 13

Limpeza dos Dados n Consiste basicamente em n n Preencher dados ausentes; “Alisar” ruído;

Limpeza dos Dados n Consiste basicamente em n n Preencher dados ausentes; “Alisar” ruído; Identificar e/ou remover valores aberrantes; E, resolver inconsistências. 11/4/2020 IA - Prof. Paulemir Campos 14

Limpeza dos Dados n Valores ausentes podem resultar de: n n defeito do equipamento

Limpeza dos Dados n Valores ausentes podem resultar de: n n defeito do equipamento de coleta dos dados; inconsistência com outros dados gravados e conseqüente supressão; não entrada de dados devido a enganos; determinados dados podem não ser considerados importantes no momento do registro, etc. 11/4/2020 IA - Prof. Paulemir Campos 15

Limpeza dos Dados n Tratamentos usuais para valores ausentes: n n n Eliminar o

Limpeza dos Dados n Tratamentos usuais para valores ausentes: n n n Eliminar o atributo ou mesmo o padrão; Preencher os valores ausentes manualmente; Usar uma constante global para representar os valores ausentes (não recomendado, pois o sistema pode identificar esse valor como um conceito); Usar a média (ou a moda) por classe. 11/4/2020 IA - Prof. Paulemir Campos 16

Limpeza dos Dados n Dados com ruído: n n Consiste em erros aleatórios ou

Limpeza dos Dados n Dados com ruído: n n Consiste em erros aleatórios ou variabilidade presente nos descritores. O ruído nos dados pode ser tratado pela técnica de alisamento. 11/4/2020 IA - Prof. Paulemir Campos 17

Limpeza dos Dados n Alisamento do ruído dos dados: n n Consiste em distribuir

Limpeza dos Dados n Alisamento do ruído dos dados: n n Consiste em distribuir dados ordenados em caixas tendo como referência os seus vizinhos. Exemplo: Ordenação: 1, 1, 2, 3, 3, 3, 4, 5, 5, 7 11/4/2020 n Particionamento em “caixas”: n Resultado após alisamento: IA - Prof. Paulemir Campos 18

Limpeza dos Dados n Detecção e remoção de valores aberrantes: n Cluster n n

Limpeza dos Dados n Detecção e remoção de valores aberrantes: n Cluster n n n os valores são organizados em grupos; os valores isolados podem ser considerados aberrantes. E, Inspeção Visual 11/4/2020 IA - Prof. Paulemir Campos 19

Limpeza dos Dados n Detecção e remoção de valores aberrantes (Exemplo: uso de Cluster):

Limpeza dos Dados n Detecção e remoção de valores aberrantes (Exemplo: uso de Cluster): 11/4/2020 IA - Prof. Paulemir Campos 20

Limpeza dos Dados n Inconsistências: n n n Mesmo atributo com diferentes codificações; Mesmo

Limpeza dos Dados n Inconsistências: n n n Mesmo atributo com diferentes codificações; Mesmo padrão com classes diferentes; Duplicidade de padrões de uma mesma classe. 11/4/2020 IA - Prof. Paulemir Campos 21

Limpeza dos Dados n Nestes casos, as inconsistências podem ser resolvidas por: n n

Limpeza dos Dados n Nestes casos, as inconsistências podem ser resolvidas por: n n eliminação de padrões redundantes; e, uniformização da codificação de um dado atributo. 11/4/2020 IA - Prof. Paulemir Campos 22

Transformação dos Dados n n É necessário para obter os dados numa forma mais

Transformação dos Dados n n É necessário para obter os dados numa forma mais apropriada para a mineração de dados. Em geral, transformação de dados envolve: n n Normalização; Redução de Dados. 11/4/2020 IA - Prof. Paulemir Campos 23

Transformação dos Dados n Normalização n Objetiva minimizar os problemas oriundos do uso de

Transformação dos Dados n Normalização n Objetiva minimizar os problemas oriundos do uso de unidades e dispersões distintas entre os atributos. 11/4/2020 IA - Prof. Paulemir Campos 24

Transformação dos Dados n Redução dos Dados n Almeja obter uma representação reduzida da

Transformação dos Dados n Redução dos Dados n Almeja obter uma representação reduzida da série de dados que é muito menor no volume, contudo produz os mesmos (ou quase os mesmos) resultados analíticos. 11/4/2020 IA - Prof. Paulemir Campos 25

Transformação dos Dados n Redução dos Dados n Alguns estratégias: n n 11/4/2020 Redução

Transformação dos Dados n Redução dos Dados n Alguns estratégias: n n 11/4/2020 Redução de Dimensionalidade: Empregando técnicas de seleção de atributos; Discretização: Representa valores contínuos em intervalos (de mesma largura ou freqüência). Os rótulos dos intervalos substituem os valores contínuos. IA - Prof. Paulemir Campos 26

Técnicas de Mineração de Dados 11/4/2020 IA - Prof. Paulemir Campos 27

Técnicas de Mineração de Dados 11/4/2020 IA - Prof. Paulemir Campos 27

Introdução n Basicamente compreende os diversos algoritmos de aprendizado de máquina, tais como: n

Introdução n Basicamente compreende os diversos algoritmos de aprendizado de máquina, tais como: n Classificação: n n 11/4/2020 Regressão Linear; Redes MLP e RBF; Árvores de Decisão ID 3 e C 4. 5; Regras de Classificação. IA - Prof. Paulemir Campos 28

Introdução n Basicamente compreende os diversos algoritmos de aprendizado de máquina, tais como (Cont.

Introdução n Basicamente compreende os diversos algoritmos de aprendizado de máquina, tais como (Cont. ): n Cluster ou Agrupamento: n n Regras de Associação: n n K-Means; APRIORI A seguir serão descritos alguns destes. 11/4/2020 IA - Prof. Paulemir Campos 29

Regressão Linear n n Utiliza uma representação matemática linear para detectar algum padrão presente

Regressão Linear n n Utiliza uma representação matemática linear para detectar algum padrão presente nos dados observados. Modelo clássico de regressão linear: Y = X. + onde: Y é o vetor n x 1; X é uma matriz n x (p+1) do modelo; é uma matriz (p+1)x 1 de parâmetros desconhecidos e é um vetor de erros aleatórios nx 1. 11/4/2020 IA - Prof. Paulemir Campos 30

Regressão Linear - Exemplo 11/4/2020 IA - Prof. Paulemir Campos 31

Regressão Linear - Exemplo 11/4/2020 IA - Prof. Paulemir Campos 31

Árvores de Decisão n n Um método "divide e conquista" para o problema de

Árvores de Decisão n n Um método "divide e conquista" para o problema de aprendizado de um conjunto de instâncias independentes, onde a classificação é dada pelo nó folha, partindo-se da raiz da árvore. Principais algoritmos: n ID 3 e C 4. 5. 11/4/2020 IA - Prof. Paulemir Campos 32

Árvores de Decisão n Algoritmo Básico: n n n A árvore é construída recursivamente

Árvores de Decisão n Algoritmo Básico: n n n A árvore é construída recursivamente de cima para baixo no modo dividir para conquistar; No início todos os exemplos se encontram na raiz; Os atributos são discretos (os atributos contínuos são discretizados previamente); Os exemplos são particionados recursivamente com base em atributos selecionados; Os atributos são selecionados heuristicamente ou através de uma critério estatístico (ex. , ganho de informação). 11/4/2020 IA - Prof. Paulemir Campos 33

Árvores de Decisão n Condições de parada: n n n Todas as amostras de

Árvores de Decisão n Condições de parada: n n n Todas as amostras de um dado nó pertencem a mesma classe; Não há mais atributo disponível para futuras partições – usa-se voto da maioria para classificar a folha; Não há mais exemplos disponíveis. 11/4/2020 IA - Prof. Paulemir Campos 34

Árvores de Decisão - Exemplo 11/4/2020 IA - Prof. Paulemir Campos 35

Árvores de Decisão - Exemplo 11/4/2020 IA - Prof. Paulemir Campos 35

Regras de Classificação n n É uma alternativa popular para árvores de decisão. Os

Regras de Classificação n n É uma alternativa popular para árvores de decisão. Os antecedentes de uma regra equivalem aos nós que vão sendo testados até se atingir o nó folha, que é o conseqüente dessa regra. 11/4/2020 IA - Prof. Paulemir Campos 36

Regras de Classificação n Exemplos: n n Se Aumento_de_Salario_1_ano > 2. 5 e Estututo_de_Feriados

Regras de Classificação n Exemplos: n n Se Aumento_de_Salario_1_ano > 2. 5 e Estututo_de_Feriados > 10 Então Candidato_a_Promocao = Bom Se Aumento_de_Salario_1_ano =< 2. 5 Então Candidato_a_Promocao = Ruim 11/4/2020 IA - Prof. Paulemir Campos 37

K-Means n Dado k, o algoritmo k-means é implementado em 4 passos: n n

K-Means n Dado k, o algoritmo k-means é implementado em 4 passos: n n Partição dos objetos em k grupos não vazios; Defina as sementes como os centróides dos grupos da partição atual; Associe cada objeto ao grupo cuja semente é a mais próxima ao mesmo; Volte para o passo 2 até que não haja novas associações de objetos a algum grupo. 11/4/2020 IA - Prof. Paulemir Campos 38

K-Means - Exemplo 11/4/2020 IA - Prof. Paulemir Campos 39

K-Means - Exemplo 11/4/2020 IA - Prof. Paulemir Campos 39

K-Means n Pontos Fortes n n n É relativamente eficiente; Geralmente encontra um ótimo

K-Means n Pontos Fortes n n n É relativamente eficiente; Geralmente encontra um ótimo local. Pontos Fracos n n Aplicável apenas quando a média é definida; É necessário especificar a priori k, o número de grupos; É sensível a ruídos e valores aberrantes; Não é apropriado para a descoberta de grupos não esféricos. 11/4/2020 IA - Prof. Paulemir Campos 40

Regras de Associação n n Diferem das regras de classificação devido a poderem predizer

Regras de Associação n n Diferem das regras de classificação devido a poderem predizer qualquer atributo, não somente a classe. Assim, dão a liberdade de predizer também combinações de atributos. 11/4/2020 IA - Prof. Paulemir Campos 41

Regras de Associação n Conceitos Básicos: n n Dados: (1) conjunto de transações, (2)

Regras de Associação n Conceitos Básicos: n n Dados: (1) conjunto de transações, (2) cada transação é uma lista de itens (comprados por um cliente em uma visita); Achar: todas as regras que correlacionam a presença de um conjunto de itens com a presença de outro conjunto de itens em uma mesma transação. 11/4/2020 IA - Prof. Paulemir Campos 42

Regras de Associação n Exemplo: n n Dado: 98% das pessoas que compram pneus

Regras de Associação n Exemplo: n n Dado: 98% das pessoas que compram pneus e auto-acessórios, também fazem algum serviço automotivo. Achar: todas as regras X & Y Z com um mínimo de suporte e confiança Suporte (support), s, probabilidade que uma transação contenha {X Y Z}; Confiança (confidence), c, probabilidade condicional que uma transação que contenha {X Y} também contém Z. IA - Prof. Paulemir 11/4/2020 Campos 43

Regras de Associação n Assim, a idéia é: n n Achar os conjuntos de

Regras de Associação n Assim, a idéia é: n n Achar os conjuntos de itens freqüentes (itemsets freqüentes): o conjunto de itens que tem um mínimo de suporte; Um subconjunto de um itemset freqüente, também deve ser um itemset freqüente; Achar iterativamente itemsets freqüentes com cardinalidade de 1 à k (k-itemset); Usar os itemsets freqüentes para gerar as regras de associação. 11/4/2020 IA - Prof. Paulemir Campos 44

Regras de Associação n O Algoritmo APRIORI: n n Passo de união (join): Ck

Regras de Associação n O Algoritmo APRIORI: n n Passo de união (join): Ck é gerado, unindo Lk-1 com ele mesmo; Passo de poda (prune): Qualquer (k-1)itemset que não seja freqüente, não pode ser um subconjunto de um k-itemset freqüente. 11/4/2020 IA - Prof. Paulemir Campos 45

O Algoritmo APRIORI Exemplo Database D L 1 C 1 Scan D C 2

O Algoritmo APRIORI Exemplo Database D L 1 C 1 Scan D C 2 Scan D L 2 C 3 11/4/2020 Scan D L 3 IA - Prof. Paulemir Campos 46

Avaliação dos Modelos n Os modelos podem ser avaliados usando-se os seguintes critérios para

Avaliação dos Modelos n Os modelos podem ser avaliados usando-se os seguintes critérios para partição dos conjuntos de treinamento e de teste: n n Holdout; Validação Cruzada (k-fold cross-validation); Leave-one-out; e, bootstrap. 11/4/2020 IA - Prof. Paulemir Campos 47

Aplicações 11/4/2020 IA - Prof. Paulemir Campos 48

Aplicações 11/4/2020 IA - Prof. Paulemir Campos 48

Aplicações Potenciais n Análise de bases de dados e suporte à decisão n Análise

Aplicações Potenciais n Análise de bases de dados e suporte à decisão n Análise de Mercado n n Análise de Risco n n alvo de campanhas, análise de compras, segmentação do mercado, gerencia de relações com clientes, vendas cruzadas; fidelização de clientes, controle de qualidade, análise de competitividade; Detecção de Fraude 11/4/2020 IA - Prof. Paulemir Campos 49

Referências n n Witten, I. H. e Frank, E. Data Mining: Practical Machine Learning

Referências n n Witten, I. H. e Frank, E. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann, 1999. Han, J. e Kamber, M. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2001. 11/4/2020 IA - Prof. Paulemir Campos 50

Referências n Notas de aulas dos profs. Francisco A. T. de Carvalho, Paulo Adeodato

Referências n Notas de aulas dos profs. Francisco A. T. de Carvalho, Paulo Adeodato e Jacques Robin de Mineração de Dados do Cin/UFPE. 11/4/2020 IA - Prof. Paulemir Campos 51