Softwares de Minerao de Dados Adalberto de Farias
Softwares de Mineração de Dados Adalberto de Farias Falcão Jr Ana Isabel Bezerra Cavalcanti
Sumário • • • 1. Introdução 2. KDD e Data Mining 3. Um esquema de classificação 4. O software Bayesia. Lab 5. Conclusões
Introdução • Motivação para o desenvolvimento das técnicas de KDD e Data Mining – desafio da tomada de decisão face ao acúmulo de um grande volume de dados • Softwares de KDD e Data Mining – extração automática do conhecimento estratégico em grandes bases de dados ajuda o analista na tomada de decisão
Introdução • Em anos recentes – softwares de KDD e Data Mining usados principalmente em estágio experimental ou de pesquisa • Atualmente – crescimento expressivo do mercado de softwares de KDD e Data Mining voltados para aplicações empresariais
Introdução • Objetivos da apresentação: • Discutir os processos de KDD e Data Mining • Fornecer um esquema de classificação para o estudo dos softwares de KDD e Data Mining • Analisar ferramentas existentes à luz do esquema proposto • Identificar as características que um software deve possuir para atender às necessidades dos usuários
KDD e Data Mining • KDD – processo de descoberta de padrões novos, válidos, potencialmente úteis e em última análise, compreensíveis, em uma base de dados • Data Mining – extração de padrões ou modelos a partir de dados observados • Data Mining – uma etapa (importante) no processo geral de KDD
KDD e Data Mining • Características a analisar – ponto de vista do processo de KDD: • • • Capacidade de acesso a diversas fontes de dados Acesso On line/Off line Modelo de dados sub-jacente Número máximo de tabelas/linhas/atributos Tamanho máximo da base de dados a ser manipulada confortavelmente • Tipos de atributos a serem manipulados • Linguagem de interrogação
KDD e Data Mining • Características a analisar – ponto de vista das tarefas de Data Mining: • • Processamento de dados Previsão Regressão Classificação Clustering Análise de associações Visualização EDA (Exploratory Data Analysis)
KDD e Data Mining • Características a analisar - ponto de vista da metodologia de Data Mining: • • • Métodos estatísticos CBR (Case-Based Reasoning) Redes neurais Árvores de decisão Indução de regras Redes bayesianas Algorítmos genéticos Fuzzy Sets Rough Sets
Um Esquema de Classificação • Características gerais • Conectividade da base de dados • Características de Data Mining
Um Esquema de Classificação • Características gerais • Produto: Nome do vendedor • Status: P = Comercial, A = Alpha, B = Beta, R = Protótipo de Pesquisa • Status Legal: PD = Domínio Público, F = Freeware, S = Shareware, C = Comercial • Licença Acadêmica • Demo: D = versão demo disponível para download, R = versão demo disponível sob demanda, U = disponibilidade desconhecida • Arquitetura: S = Standalone, C/S = Cliente/Servidor, P = Processamento Paralelo • Sistemas operacionais
Um Esquema de Classificação • Conectividade da base de dados • • Formatos: T = ASCII (Texto), D = Dbase, P = Paradox, F = Foxpro, Ix = Informix, O = Oracle, Sy = Sybase, Ig = Ingres, A = Access, OC = Open Database Connection (ODBC), SS = SQL Server, Ex = Excel, L = Lotus 1 -2 -3 Conectividade: Onl = On line, Offl = Off line Tamanho: S = Pequeno (até 10. 000 registros), M = Médio (de 10. 000 a 1. 000 de registros), L = Grande (mais de 1. 000 de registros) Modelo: R = Relacional, O = Orientado a Objetos, 1 = Tabela Atributos: Co = Contínuos, Ca = Categóricos, S = Simbólicos Linguagem de interrogação: S = SQL ou derivados, Sp = linguagem de interface específica à aplicação, G = GUI, N = Não aplicável, U = Desconhecida
Um Esquema de Classificação • Características de Data Mining • Tarefas de Descoberta: Pre = Preprocessamento, P = Previsão, Regr = Regressão, Cla = Classificação, Clu = Clustering, A = Análise de Associações, Vis = Modelo de Visualização, EDA = Exploratory Data Analysis • Metodologia de Descoberta: NN = Redes Neurais, GA = Algorítmos Genéticos, FS = Fuzzy Sets, RS = Rough Sets, St = Métodos Estatísticos, DT = Árvores de Decisão, RI = Indução de Regras, BN = Redes Bayesianas, CBR = Case. Based Reasoning • Interação Humana: A = processo autônomo, G = processo guiado pelo ser humano, H = altamente interativo
Um Esquema de Classificação • Características gerais • Produto • • • Auto. Class C (Nasa) Bayesia. Lab Business. Miner (Business Objects) IND (Nasa) Intelligent Miner (IBM) Mine. Set (Silicon Graphics) MLC++ (Silicon Graphics) MSBn (Microsoft) PVE (IBM) Ripper (AT&T) Status de Prod. Status Legal Lic. Acad. Demo Arq. Sistema Oper. P P p P P P PD PD C C F F C C N D S S N F D D N N R N D D N D S, P Unix, Dos S Win S Unix C/S, S, P MF, Unix, Win, OS C/S, S Unix, Win S Unix
Um Esquema de Classificação • Conectividade da base de dados • Produto Formatos Conectividade Tamanho Modelo Atributos Int. • • • Auto. Class C Bayesia. Lab Business. Miner IND Intelligent Miner Mine. Set MLC++ MSBN PVE Ripper T, D T T, Ex T T, D, O, Sy, T, Ix, O, Sy T T T, D, T Offl. Onl. , Offl. L M S L L L S M L 1 1 R R R R 1 1 Co, Ca, S Co, Ca, S Co, Ca, S N G S, G N G U N
Um Esquema de Classificação • Características de Data Mining • Produto Tarefas Métodos Interação • • • Auto. Class C Bayesia. Lab Business. Miner IND Intelligent Miner Mine. Set MLC++ MSBN PVE Ripper Pre, Cla, Clu P, Cla, A, Vis P, Regr. , Cla Pre, P, Cla, Clu, A, Vis, EDA Pre, P, Regr. , Cla, Clu, A, Vis Pre, P, Regr. , Vis, EDA P, Regr. , A St. BN DT DT NN, DT St. , DT, RI, CBR BN St. , RI A H H G H H A
Bayesia. Lab • Ferramenta baseada em redes de crenças bayesianas. • Versão demo disponível na Internet: http: //www. bayesia. com. • Limitações: 31 dias de uso e salvamento de redes com no máximo 10 nós. • Arquitetura standalone. • Implementada em Java => multiplataforma. • Fontes de dados para mineração: texto ASCII. • Conexão offline com a base de dados. • Modelo suportado: tabela desnormalizada.
Redes bayesianas • São compostas de duas partes: – Grafo acíclico direcionado: os nós representam variáveis aleatórias; os arcos representam dependências probabilísticas. Arco de A até B => A é predecessor direto de B. Uma variável é condicionalmente independente de seus não-descendentes no grafo, dado seus predecessores diretos. – Uma tabela de probabilidade condicional para cada variável.
Redes bayesianas Exemplo: Estrutura da rede. Tabela de probabilidade condicional para o nó “Bronchits”
Redes bayesianas • Uma rede bayesiana é uma maneira conveniente de representar relação de causalidade. – Ex: Fumar causa bronquite.
Bayesia. Lab • A ferramenta possibilita duas abordagens: – Inferência: especialista constrói a rede com base em conhecimento prévio. – Mineração: extração dos parâmetros ou de toda a estrutura da rede a partir de exemplos.
Bayesia. Lab - Inferência • Primeiro passo: construção da estrutura da rede. – Representação gráfica do conhecimento prévio sobre o domínio do problema. • Segundo passo: edição das tabelas de probabilidade condicional. • Terceiro passo: usar a rede construída para inferir o valor de uma variável alvo, dados os valores observados de outras variáveis.
Bayesia. Lab - Inferência • Exemplo: a rede do regador de água.
Bayesia. Lab - Inferência • Construção da representação gráfica no Bayes. Lab:
Bayesia. Lab - Inferência • Edição da tabela de probabilidade condicional para o nó “Wet. Grass”.
Bayesia. Lab - Inferência • Há duas maneiras diferentes de se fazer inferência probabilística: – bottom-up: a partir dos efeitos se inferem as causas; diagnóstico. – top-down: dadas as causas, computar as probabilidades dos efeitos; modelos “generativos”.
Bayesia. Lab - Inferência • Exemplo de raciocínio bottom-up: – Supondo que saibamos que a grama está molhada. Há duas possíveis causas para isso: a chuva e o regador. – Estimar qual a causa mais provável.
Bayesia. Lab - Inferência A priori A posteriori • Probabilidades a posteriori: Chuva = 0, 708 Regador = 0, 430 • Razão de verossimilhança = 1, 647
Bayesia. Lab - Inferência • Exemplo de raciocínio top-down: – Qual a probabilidade de a grama estar molhada, dado que o tempo está encoberto? A priori A posteriori
Bayesia. Lab - Inferência • Geração de questionário adaptativo: – Fixada uma variável alvo, esta funcionalidade ordena as variáveis que trazem maior ganho de informação para esta variável a um menor custo. – A ordenação é feita pelo valor decrescente da razão entre o ganho de informação e o custo.
Bayesia. Lab - Inferência • Gerenciamento dos custos. – Preço associado à observação do valor de um nó.
Bayesia. Lab - Inferência • Questionário adaptativo.
Bayesia. Lab - Mineração • Exemplo: extrair uma rede bayesiana de uma base de diagnósticos de pacientes com doenças no pulmão. • 5000 instâncias. • 9 variáveis: – Visit. Asia: O paciente visitou a Ásia? No. Visit/Visit – Tuberculosis: O paciente tem tuberculose? Absent/Present – Smoking: O paciente é fumante? Smoker/Non. Smoker – Cancer: O paciente tem câncer? Absent/Present – Tb. Or. Ca: ‘ou’lógico criado para simplificar a tabela de probabilidades – XRay: Resultado do raio-x. Normal/Abnormal – Bronchitis: O paciente tem bronquite? Absent/Present – Dyspnea: O paciente tem dificudades respiratórias? Absent/Present
Bayesia. Lab - Mineração • Importação da base de dados.
Bayesia. Lab - Mineração • Formato das variáveis: – Contínuo – Discreto – Não-distribuído (não usadas na construção da rede)
Bayesia. Lab - Mineração • As variáveis contínuas devem ser discretizadas. • Três métodos de discretização: – Intervalos de mesmo comprimento. – Intervalos com a mesma freqüência. – Árvore de decisão: “Indução supervisionada da discretização mais efetiva com relação a uma variável alvo. ”
Bayesia. Lab - Mineração • Importação concluída: é criado um nó para cada variável do conjunto de dados.
Bayesia. Lab - Mineração • Extração da estrutura da rede: aprendizado não supervisionado de relações probabilísticas (descoberta de associações). • Três algoritmos disponíveis: – Sop. LEQ: “Busca baseada numa caracterização global dos dados e na exploração das propriedades das redes bayesianas equivalentes (rápido). ” – Taboo: “Aprendizado estrutural através Taboo search”. – Taboo. Order: “Aprendizado através de Taboo search com objetivo de encontrar a melhor ordem para os nós (busca mais completa portanto mais demorada).
Bayesia. Lab • Resultado do Sop. LEQ: • De posse da rede minerada, podem se realizar as atividades de inferência descritas anteriormente.
Bayesia. Lab - Mineração • Outro exemplo: geração de um classificador Naive Bayes. – Equivalente a uma rede bayesiana onde o nó alvo é o predecessor direto de todos os outros nós. – Saber o valor do nó alvo torna todos os outros nós independentes entre si.
Bayesia. Lab - Mineração • Geração do classificador:
Bayesia. Lab - Mineração • Naive Bayes resultante:
Bayesia. Lab - Mineração • Uso do classificador: Batch exploitation. – Especifica-se uma base de exemplos. – Selecionam-se as colunas com as variáveis que terão seus valores observados. – É gerado um arquivo com duas informações para cada exemplo: a classe mais provável afetada pelo classificador e a probabilidade desta classe.
Conclusões • Apesar do seu rápido crescimento, KDD ainda é uma área de conhecimento emergente. • Ainda não existem ferramentas que atendam todos os requisitos do processo. • Alguns aspectos onde se pode evoluir: – Integração de diferentes técnicas – Extensibilidade – Integração maior com banco de dados – Suporte tanto para especialistas em análise quanto para usuários inexperientes – Gerenciamento de dados em constante mudança – Tipos de dados não-triviais
Referências • A Brief Introduction to Graphical Models and Bayesian Networks: http: //www. cs. berkeley. edu/~murphyk/Bayes/baye s. html • Documentação do Bayes. Lab: http: //www. bayesia. com • M. Goebel and Le Gruenwald, A Survey of Data Mining and Knowledge Discovery Software Tools, ACM SIGKDD, June 1999. • J. Han and M. Kimber. Data Mining: concepts and techniques. Morgan Kaufmann Publishers, 2001. • T. M. Mitchell. Machine Learning. New York: Mc. Graw-Hill, 1997.
- Slides: 45