Data Mining Paulo Abadie Guedes Eduardo Aranha Introduo

Data Mining Paulo Abadie Guedes Eduardo Aranha

Introdução n Aplicação de processos de análise inteligentes visando manipulação automática de quantidades imensas de dados n Larga aplicação nos mais variados ramos da indústria, comércio, medicina, governo, administração, etc.

Mineração de Dados: Exemplo 1 n Fraldas e cervejas homens casados, entre 25 e 30 anos · compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa · Wal-Mart otimizou as gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas · Resultado: o consumo cresceu 30% ·

Mineração de Dados: Exemplo 2 n Bank of America – Selecionou entre seus 36 milhões de clientes n. Aqueles com menor risco de dar calotes n. Resultado: em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos.

Motivação n Quantidades imensas de dados n Necessidade de transformar dados em informação útil n Análise de Mercado n Sistemas de Suporte à Decisão n Gerência Empresarial n Análise de tendências, etc.

Knowledge Discovery Processo de filtragem de conhecimento útil n Necessidade de compreender e utilizar de forma efetiva os dados disponíveis para a tomada de decisões n Integra várias técnicas e tecnologias, incluindo estatística, visualização de dados, IA, BD / OLAP / data warehouse, processamento de sinais e supercomputação n

Data Mining: Definição n Processo de explicitar o conhecimento interessante de uma grande massa de dados – – – n Padrões e relações entre os dados Alterações e anomalias Estruturas significantes Fenômenos periódicos ou desconhecidos Apresentar de forma sucinta e compreensível o conhecimento obtido É parte do processo de descoberta de conhecimento

Análise de Dados X Data Mining n Análise de dados – – – n Orientado a suposições Formula-se uma hipótese Esta é validada contra os dados Data mining – – Orientada a descoberta Padrões são automaticamente extraídos Usa técnicas de IA para reconhecimento e análise do que é interessante ou não Requer muito poder computacional

Knowledge Discovery Process Data cleaning l Data integration l Data selection l Data transformation n Data mining n Pattern evaluation n Knowledge presentation l

Pré - processamento l l Data Cleaning – Eliminaçao de “ruído”: – Dados inválidos – Dados incompletos – Dados irrelevantes Data Integration – Integração de dados de múltiplas fontes heterogêneas

Pré - processamento l Data Selection – l Dados relevantes à análise são recuperados Data transformation – Transformação e consolidação dos dados em um formato apropriado para a mineração – Operações de agregação e resumo – Processamento analítico (OLAP)

Data Mining (ML em BD) Algoritmos de aprendizagem de máquina (ID 3, version space, Redes neurais, redes bayesianas, . . . ) são aplicados para extrair padrões dos dados pré-processados n Reconhecimento de grupos, propriedades, relações, estruturas, anomalias, etc. n Depende diretamente da tarefa desejada n

Avaliação e Apresentação n Avaliação de Padrões – – – n Padrões realmente interessantes são identificados Representam o conhecimento desejado Processo baseado em medidas de interesse Apresentação do conhecimento obtido – – Técnicas de visualização e representação O conhecimento minerado é apresentado ao usuário de forma compreensível e concisa

Data Mining Tasks n Class Description – – n Caracterização Comparação ou discriminação Propriedades resumidas Quantidade, totais, médias e análise estatística Exemplo – Comparar as vendas de uma empresa na Europa e na Ásia, identificando fatores discriminativos importantes e expondo uma visão global da situação

Data Mining Tasks n n Associação – Descoberta de relacionamentos entre um conjunto de dados – Expresso por regras atributo-valor de condições que ocorrem freqüentemente juntas – x(A) y(A) se satisfaz x, tende a satisfazer y Exemplo – cerveja(x) fraldas(x)

Data Mining Tasks n Classificação – – – n Processa um conjunto de treinamento (classe) Constrói um modelo para cada classe Gera a árvore de decisão ou conjunto de regras Usada para compreender cada classe e classificação posterior de novos dados Estatística, BD, redes neurais, aprendizado, etc. Ex. : Análise de crédito, modelagem de empreendimentos, etc.

Data Mining Tasks n Previsão – – – n Prevê os valores possíveis ou a distribuição destes a partir de certos atributos do BD Encontrar os atributos relevantes para o atributo de interesse Previsão baseada no conjunto de dados mais similar ao escolhido Análise de regressão, de correlação, árvores de decisão Algoritmos genéticos e redes neurais Data mining preditivo Ex. : Previsão de qualidade

Data Mining Tasks n Agregação (Clustering) – Identifica grupos escondidos nos dados – Grupo objetos similares – Expressa por funções de distância – Relação de similaridade conhecida a priori por especialistas ou usuários – Alta similaridade no grupo, baixa entre grupos

Data Mining Tasks n Análise de séries temporais – – – n Identifica regularidades e características temporais interessantes escondidas nos dados Analisa padrões seqüenciais, periódicos, tendências e desvios Busca seqüências similares ou subseqüências Exemplo – Previsão da tendência de variação das quantidades em estoque de uma empresa, baseado no histórico do estoque, situação financeira, atuação da concorrência e situação do mercado

Mining Complex Data n Dados espaciais n Texto n Multimídia n Séries temporais n Dados complexos n Dados heterogêneos n Semi-estruturados ou desestruturados

Outras áreas de aplicação n Vendas e Marketing n Identificar padrões de comportamento de consumidores n Associar comportamentos à características demográficas de consumidores n Campanhas de marketing direto (mailing campaigns) n Identificar consumidores “leais”

Áreas de aplicações potenciais n Bancos n Identificar padrões de fraudes (cartões de crédito) n Identificar n Mercado características de correntistas Financeiro n Minimizar prejuízos através de crédito a clientes de “confiança”

Áreas de aplicações potenciais n Médica – Comportamento de pacientes – Identificar terapias de sucessos para diferentes tratamentos – Fraudes em planos de saúdes – Comportamento de usuários de planos de saúde – Planos diferenciados por perfil

Empresas de software para Data mining: n n SAS – http: //www. sas. com n http: //www. redbrick. com Oracle – http: //www. oracle. com n http: //www. sybase. com Informix – Red Brick – n http: //www. convex. com Sybase – Information Havesting – n n http: //www. informix. com IBM – http: //www. ibm. com

Conclusão - Diretrizes n Onde o processo de descoberta de conhecimento deve ser aplicado? – – – Estudo de novos experimentos disponibilidade de dados suficientes n com nível aceitável de ruído n sem problemas de ordem jurídica especialistas disponíveis para: n avaliação do grau de interesse das descobertas obtidas n seleção de atributos n descrição de conhecimento a priori em geral

On-Line Analytical Processing (OLAP) n OLAP descreve uma classe de tecnologia que são designadas para livres acessos e análises ad hoc. n OLAP tem sido considerado um sinônimo de visões multidimensionais de dados de negócio. Estas visões multidimensionais são suportadas por uma tecnologia multidimensional de bando de dados.

On-Line Analytical Processing (cont. ) n Aplicações OLTP (On-Line Transaction Processing) caracterizadas por vários usuários criando, atualizando ou acessando registros individuais. n Aplicações OLAP são usados por analistas e gerentes que frequentemente desejam uma visão agregada de alto nível dos dados, como total de vendas por produto, por região, etc.

On-Line Analytical Processing (cont. ) n Aplicações OLAP usualmente atualizadas em batch, a partir de múltiplas fontes. n Banco de dados relacionais são bons para retornar um pequeno número de registro rapidamente. n Regiões de venda por produtos pode levar horas (segundos em um BD OLAP)

On-Line Analytical Processing (cont. )

Referências n KDNuggets Directory – n The Data Mine – n http: //www. cs. bham. ac. uk/~anp/The. Data. Mine. html Microsoft Decision Theory and Adaptive Systems – n http: //www. kdnuggets. com http: //research. microsoft. com/dtas/ DBMiner: demonstração – http: //db. cs. sfu. ca/DBMiner/dbmdemo. html

Referências n n n n n http: //www. pcc. qub. ac. uk/tec/courses/datamining http: //www. rio. com. br/~extended http: //www. datamining. com http: //www. santafe. edu/~kurt http: //www. datamation. com http: //www-dse. doc. ic. ac. uk/~kd http: //www. cs. bham. ac. uk/~anp http: //www. dbms. com/ http: //www. infolink. com. br/~mpolito/mining. html http: //www. lci. ufrj. br/~labbd/semins/grupo 1

Referências n n n Bigus, J. (1995). Data Mining with Neural Networks. Mc. Graw-Hill. Fayyad, U. ; Haussler, D. ; Stolorz, P. (1996). "KDD for Science Data Analysis: Issues and Examples”. Proceedings of Second International Conference on Knowledge Discovery and Data Mining (KDD-96), AAAI Press. Disponível no endereço http: //research. microsoft. com/~fayyad. Fayyad, U. M. ; Piatesky-Shapiro, G. ; Smyth, P. (1995). “From Data Mining to Knowledge Discovery: An Overview”, em Advances in Knowledge Discovery and Data Mining. AAAI Press.

Referências n n Imielinski, T; Mannila, H. (1996). “A Database Perspective on Knowledge Discovery”. Communications of the ACM, volume 39, número 11. Matheus, C. ; Piateteky-Shapiro, G. ; Mc. Neill, D. (1995). ”Selecting and Reporting What is Interesting”. Em Advances in Knowledge Discovery and Data Mining. AAAI Press.

Referências n n Freitas, A. A. (1997). “On objective measures of rule surprisingness”. Em Proceedings of the 2 nd European Symposium Principles of Data Mining and Knowledge Discovery. Disponível no endereço http: //dainf. cefetpr. br/~alex/thesis. html. Spirtes, P. ; Glymour, C; Scheines, R. (1993). Causation, Prediction and Search. Lecture Notes in Statistics, 83. Springer-Verlarg. Disponível no endereço http: //hss. cmu. edu/html/departments/ philosophy/TETRAD. BOOK/book. html