Tipologia dos dados de entrada da minerao de

Tipologia dos dados de entrada da mineração de dados Jacques Robin CIn-UFPE

Tipologia da fontes de dados para mineração * Fontes convencionais preparadas para mineração: •

Arquivo texto chato padronizado (flat file) * Arquivo texto : • Meta-dados do cabeçote:

Exemplo de flat file: formato de entrada do Weka % Arff file for the

Arquivo texto chato padronizado (flat file) Única entrada de vários ferramentas de mineração *

Tipologia dos atributos * Binário: * • Booleano, ex, Male {True, False} • Dicotômico,

Tipologia dos atributos Booleanas Discreta Binárias Qualitativas Dicotômicas Nominal Ordinal Quantitativas Simples Intervalar Fracional

Minerar arquivo flat x minerar banco de dados * Para mineração como para outras

Banco de dado operacional x data warehouse e data mart * BD operacional: •

Processamento de transações (OLTP) x processamento analítico (OLAP)

Modelos de dados: relacional x multidimensional

Modelo de dado multidimensional: dimensões analíticas com hierarquias conceituais navegáveis

Banco de dados objeto-relacional (O-R) e orientado a objetos (OO) * Objetivo de um

Banco de dados OR e OO: vantagens para mineração de dados Hierarquias conceituais já

Banco de dados dedutivo * BD com 2 partes: • fatos ou parte extensional

Banco de dados dedutivo (cont. ) * Um BD dedutivo é: • uma base

Banco de dados dedutivo: vantagens para mineração de dados * * Deduzir conhecimento de

Banco de dados probabilista BD para gerenciamento de dados incertos * BD relacional probabilista:

Banco de dados indutivo BD incorporando conhecimento induzido a partir de dados primitivos por

Tipologia do conhecimento de saída da mineração de dados Jacques Robin CIn-UFPE

Dimensões descritivas da tipologia das estruturas de conhecimento a minerar Descrição concisa de dados

Mineração descritiva x mineração preditiva * Mineração descritiva: • Apenas descreve de forma concisa

Mineração descritiva: tipos de descrições * Medida de similaridade ou dissimilaridade entre instâncias •

Mineração preditiva: tipos de inferência * * Classificação: inferir a classe de um novo

Representação de conceito x de instância * Conceito: • representação em intenção via conjunto

Representação atributivas x relacionais * Representar propriedades de um único indivíduo • Logicamente quantificação

Tipologia das estruturas de conhecimento a minerar * Paradigma simbólico: • Árvore de decisão

Função de regressão numérica PRP = - 56. 1 + 0. 049 MYCT +

Árvore de modelo LM 1: PRP = 8. 29 + 0. 004 MMAX +

Regras atributivas de classificação Mineração preditiva * Implicações lógica com: * • Apenas uma

Regras de Classificação vs. Árvores Regras de classificação podem ser convertidas em árvores de

Vantagens de Árvores de Decisão Exemplo de conversão árvore -> regras X > 1.

Vantagens de Regras de Classificação Exemplo de conversão regra/árvore If x=1 and y=1 1

Regras atributivas de associação Mineração descritiva * Implicações lógica com: * • Apenas uma

Regras relacionais Mineração descritiva ou preditiva (classificação ou controle) * Implicações lógica com: *

Necessidades das regras relacionais Conhecimento a priori name 1 = ann … name 5

Necessidades das regras relacionais Conhecimento a priori Intencional: parent(F, C) : - father(F, C).

Grupos de instâncias (clusters) * Dimensões descritivas da tipologia dos grupos • • •

Slides: 41

Download presentation

Tipologia dos dados de entrada da mineração de dados Jacques Robin CIn-UFPE

Tipologia da fontes de dados para mineração * Fontes convencionais preparadas para mineração: • Arquivo texto chato padronizado (flat file) • Data warehouse ou data mart relacional • Data warehouse ou data mart multidimensional * Fontes convencionais não preparadas para mineração • Arquivos de log • BD relacional * Fontes não convencionais • • • BD objeto-relacional BD orientado a objetos BD dedutivo BD probabilista BD indutivo BD espacial BD temporal BD de restrições BD multimídia BD semi-estruturado Páginas web

Arquivo texto chato padronizado (flat file) * Arquivo texto : • Meta-dados do cabeçote: t t 1 a linha = nome do conceito ou relação a minerar, depois cada linha = tipo e/ou conjunto de valores possíveis de um atributo • Dados no resto do arquivo: t t cada linha = um exemplo ou instância do conceito a aprender um registro de uma tabela de BD relacional separadas em campos por separadores convencionais cada campo = um atributo ou propriedade da instância campo de uma tabela de BD relacional

Exemplo de flat file: formato de entrada do Weka % Arff file for the weather data with some % numeric features @relation weather @attribute outlook { sunny, overcast, rainy } @attribute temperature numeric @attribute humidity numeric @attribute windy { true, false } @attribute play? { yes, no } @data sunny, 85, false, no sunny, 80, 90, true, no overcast, 83, 86, false, yes rainy, 70, 96, false, yes rainy, 68, 80, false, yes rainy, 65, 70, true, no overcast, 64, 65, true, yes sunny, 72, 95, false, no sunny, 69, 70, false, yes rainy, 75, 80, false, yes sunny, 75, 70, true, yes overcast, 72, 90, true, yes overcast, 81, 75, false, yes rainy, 71, 91, true, no

Arquivo texto chato padronizado (flat file) Única entrada de vários ferramentas de mineração * Pode ser criado a partir de BD relacional via grande Join * Inadequado quando se tem naturalmente: * • • muitas relações entre as instancias, ex, famílias relações recursivas entre as instancias, ex, ancestral dependências existenciais entre atributos, ex, casado, cônjuge poucos atributos definidos para todas as instancias ex, número. De. Rodas e número. De. Mastros para veículos • aninhamento ou hierarquias de valores para muitos atributos, ex, nordeste, PE, Recife • ou seja quando o esquema de dados relevantes é não trivial

Tipologia dos atributos * Binário: * • Booleano, ex, Male {True, False} • Dicotômico, ex Sex {Male, Female} * * Ordinal ou enumerado ou discreto: • partição finita de valor ordenada (parcialmente ou totalmente) sem medida • são apenas =, , , > • ex, fraco, médio, bom, excelente * • partição com distância zero inerente • todos os operadores matemático aplicam-se • ex, temperatura em grau Kelvin Nominal ou categórico ou simbólico: • partição finita de valores sem ordem nem medida • são apenas = ou • ex, brasileiro, francês, americano Intervalar: • partição finita de valor ordenada com medida m definindo distância d: X, Y, d(X, Y) = |m(X)-m(Y)| • sem zero inerente • ex, temperatura em grau Celsius Fracional ou proporcional: * Contínuo: • conjunto infinito de valores ordenadas com medida, isomorfo a R * Probabilista: • contínuo entre [0, 1] • apenas operadores probabilistas aplicam-se * Complexo: • estrutura interna de sub-atributos aninhados criando tipos compostos • possivelmente com restrições de valores particulares entre os sub-atributos • ex, data, endereço

Tipologia dos atributos Booleanas Discreta Binárias Qualitativas Dicotômicas Nominal Ordinal Quantitativas Simples Intervalar Fracional Contínua R [0, 1] Data Complexos Endereço Objeto

Minerar arquivo flat x minerar banco de dados * Para mineração como para outras aplicações, BD fornece: * • aos poucos, necessidade desses serviços reaparece • requerendo re-implementação: • gerenciamento de memória segundaria • consultas declarativas complexas para: t t t selecionar dados agregar dados reagrupar dados derivar novos dados estender meta-dados • segurança de acesso com usuário múltiplos • tolerância a falha • com tecnologia padronizada e escalável Minerando arquivos flat: t t t * ad-hoc com tecnologia inapropriada por conta própria Conclusão: • API para BD elemento chave na utilidade prática de uma ferramenta de mineração

Banco de dado operacional x data warehouse e data mart * BD operacional: • armazena valores correntes e atômicas resultantes direitas das últimas transações • a fins operacionais predefinidas ex, gerenciamento do estoque * Data Warehouse: • integra e padroniza dados • de vários: t t * Data Mart: • armazena réplicas históricas, não voláteis, agregadas ao longo de várias dimensões analíticas • as vezes limpadas, completadas e normalizadas • de dados de um único banco operacional • a fins analíticas abertas de escopo departamental data marts BD operacionais BD de legado empacotados BD semi-estruturados extraídos de páginas web • em um único repositório coerente e limpo de dados • a fins analíticas abertas de escopo organizacional

Processamento de transações (OLTP) x processamento analítico (OLAP)

Modelos de dados: relacional x multidimensional

Modelo de dado multidimensional: dimensões analíticas com hierarquias conceituais navegáveis

Banco de dados objeto-relacional (O-R) e orientado a objetos (OO) * Objetivo de um SGBD OO ou O-R: • integrar em um único software serviços fornecidos pelos SGBD e pelas linguagens de programação orientadas a objetos • com elegância conceptual e eficiência de execução * Porque? : • Uniformizar codificação heterogênea dos software atuais: t * interface e processamento com LPOO, acesso aos dados com SGBDR Orientação a objetos estende BD com: • Métodos codificando no próprio BD os comportamentos ligados aos dados e propiciando completude computacional • Construtores para modelagem de estruturas complexas, heterogêneas e definidas pelo usuário • Hierarquia de classes com herança e encapsulamento, facilitando modularidade, reuso e interface componentes externos

Banco de dados OR e OO: vantagens para mineração de dados Hierarquias conceituais já fornecidas explicitamente * Possibilidade de: * • definir classes de conhecimento minerado no próprio BD como novos tipos compostos • implementar algoritmos de mineração no próprio BD como métodos • implementar hierarquia de algoritmos de mineração reaproveitando e especializando métodos genéricos para dados e conhecimento específicos por herança e sobre-escrita de métodos * Ao contrario dos outros modelos de dados avançados, o modelo O-R já é: • implementado em produtos comerciais de grande porte (porém ainda não conformes ao padrão SQL´ 99)

Banco de dados dedutivo * BD com 2 partes: • fatos ou parte extensional t t t predicados com argumentos instanciados em lógica da 1 a ordem ex, trabalha(bob, di, prof). chefe(di, bob). correspondem aos registros dos BD relacionais • regras de dedução ou parte intensional t t implicações em lógica da 1 a ordem, com uma conjunção de predicados como premissa é um único predicado como conclusão ex, patrão(B, E) : - chefe(D, B), trabalha(E, D, _). Semântica lógica: B, D, E, F chefe(D, B) trabalha(E, D, F) patrão(B, E) correspondem a visões dos BD relacionais

Banco de dados dedutivo (cont. ) * Um BD dedutivo é: • uma base de conhecimento persistente • um programa lógico persistente • uma especificação formal executável * O modelo de dados dedutivo: • generaliza modelo relacional • é computacionalmente completo • é baseado na hipótese de mundo fechado t t declarar apenas o que é verdadeiro supor falso tudo que não poder ser provado • autoriza negação por falha nas premissas da regras • resulta da integração de técnicas de BD e de inteligência artificial • é ideal para implementar sistemas inteligentes de grande porte

Banco de dados dedutivo: vantagens para mineração de dados * * Deduzir conhecimento de granularidade adequada para geração de insights, antes ou depois da mineração Representação do conhecimento prévio • Alguns métodos de mineração aproveitam de conhecimento prévio para gerar novo conhecimento a partir de menos dados * * Gerenciamento do conhecimento minerado durante e depois do processo de descoberta Processo de descoberta baseado no ciclo: interpretação indução dedução Pesquisa já consolidada com fundamentos formais abrangente Porém ainda não resultou nem em um padrão oficial nem SGBD comerciais

Banco de dados probabilista BD para gerenciamento de dados incertos * BD relacional probabilista: * • cada célula de tabela contém vários valores no lugar de um • cada valor é anotado com sua probabilidade * BD dedutivo probabilista: • cada fato e cada regra anotado com sua probabilidade Dados derivados por indução a partir de dados primitivos certos, necessariamente carregam um grau de incerteza * BD probabilista formalismo interessante para: * • gerenciamento do conhecimento induzido por mineração • tanto durante o processo de descoberta • como depois, durante a utilização do conhecimento na aplicação * Pesquisa já consolidada porém ainda não resultou nem em um padrão oficial nem em SGBD comerciais

Banco de dados indutivo BD incorporando conhecimento induzido a partir de dados primitivos por mineração * Ideal para: * • gerenciamento de conhecimento minerado durante o processo de descoberta • aplicação do conhecimento minerado depois do processo * Problemática: • representação da variedade das estruturas de conhecimento mineradas • propagação da confiabilidade do conhecimento induzido através de vários ciclos de derivação (i. e. , minerar resultado de mineração) • atualização consistente e eficiente do conhecimento induzido depois da atualização ou extensão dos dados primitivos * O futuro, porém pesquisa ainda incipiente

Tipologia do conhecimento de saída da mineração de dados Jacques Robin CIn-UFPE

Dimensões descritivas da tipologia das estruturas de conhecimento a minerar Descrição concisa de dados disponíveis x previsão de dados não disponíveis * Representações de conceitos x de instâncias * Representações atributivas x relacionais * Representações simbólicas x numéricas * • simbólicas: poder expressivo da lógica subjacente t lógica clássica de ordem 0, 1, 2, lógicas não clássicas • numéricas: poder expressivo da função subjacente t t domínio e imagem: Z x R [0, 1], R 2 N, etc. característica da função: ¤ propriedades matemáticas: monotonia, continuidade, etc. ¤ formula analítica: linear, polinomial, exponencial, logarítmica, trigonométrica, cônica, etc.

Mineração descritiva x mineração preditiva * Mineração descritiva: • Apenas descreve de forma concisa os dados disponíveis • A descrição minerada pode: t t diretamente fornecer insight para analista humano, ou servir de passo preliminar para mineração preditiva • Usa igualmente técnicas de banco de dados, estatística e aprendizagem de máquina * Mineração preditiva: • Prevê dados não disponíveis a partir do dos dados disponíveis • A previsão pode: t t diretamente indicar uma descoberta ou decisão a tomar servir de passo intermediário para tomada de uma descoberta ou decisão complexa estruturada por camadas • Usa principalmente técnicas de aprendizagem de máquina

Mineração descritiva: tipos de descrições * Medida de similaridade ou dissimilaridade entre instâncias • ex, cliente fulano parecido com sicrano e bem diferente de beltrano * Grupos de instâncias alta similaridade intra-grupos e alta dissimilaridade inter-grupos (clustering) • ex, {fulano, sicrano, . . . }, {beltrano, john, . . . }, {doe}, . . . * * Exceções (outliers), i. e. , instâncias com valor altamente dissimilar com a maioria das outras instâncias, para um ou vários atributos Valores de atributos para grupos de instâncias agregados ao longo de dimensões analíticas, • ex, media de venda de bebidas no Nordeste em dezembro é R$2. 10 6 * Atributos relevantes para caracterizar instâncias de uma classe • ex, {sexo, colégio, pais, idade, nota. Média} para alunos * Atributos relevantes para discriminar entre instâncias de 2 classes • ex, {sexo, colégio, nota. Média} entre alunos de engenharia e artes cênicos * Associações entre valores dos atributos descritivos das instâncias • age(X, [20, 29]} income(X, [3000, 10000]) ownd(X, CD, [50, 100]) owns(X, PC). [suport = 5%, confidence = 80%]

Mineração preditiva: tipos de inferência * * Classificação: inferir a classe de um novo indivíduo em função dos seus atributos descritivo Regressão: inferir o valor do atributo A (geralmente numérico) desconhecido de um indivíduo em função de: • seus atributos conhecidos e, • dos valores conhecidos de A para os outros indivíduos * * Análise de evolução ou previsão stricto-sensus: inferir o valor de um atributo de um indivíduo em um instante t em função dos seus atributos descritivos nos instantes anteriores Controle: inferir a melhor ação a executar por um agente inteligente dado seus objetivos e o estado do ambiente no qual ele opera Classificação e regressão podem servir de passo intermediário para análise de evolução Os três podem servir de passos intermediários para controle

Representação de conceito x de instância * Conceito: • representação em intenção via conjunto de restrições de valor sobre alguns atributos descritivos armazenados no BD * Instancia: • indivíduo cujos dados satisfazem essas restrições * Aprendizagem guloso: • cria representação em intenção (conceito) e classifica um novo indivíduo se seus atributos casam com essa representação * Aprendizagem preguiçoso: • classifica novo indivíduo como sendo da classe do indivíduo mais próximo dele em termos de valores de atributos • ou do centroide dos N indivíduos mais próximos • não representa conceitos em intenção • classe representada apenas pela extensão das suas instâncias

Representação atributivas x relacionais * Representar propriedades de um único indivíduo • Logicamente quantificação universal limitada a uma única variável • Equivalente a lógica proposicional (ordem 0), já que essa variável pode ficar implícita • ex, P, quality(P, fair) price(P, low) buy(P) fair. Quality cheap buy • Representa intencionalmente conteúdo de apenas uma tabela de BD relacional * Representar relações entre vários indivíduos • Logicamente requer quantificação universal simultânea de várias variáveis • Requer sub-conjunto da lógica da 1 a ordem • ex, P, C parent(P, C) female(P) mother(P, C). • Representa intencionalmente conteúdo de várias tabelas de BD relacional (ou até o banco inteiro)

Tipologia das estruturas de conhecimento a minerar * Paradigma simbólico: • Árvore de decisão • Árvore de regressão • Regras de associação atributivas • Regras de classificação atributivas • Regras relacionais • Grupos atributivos de instâncias * * Paradigma matemático: • Função de distância numérica • Função de regressão * Paradigma probabilista: • Densidade de probabilidade * Paradigma conexionista: • Perceptrão multi-camada • Memória associativa * Paradigma evolucionário: • população de representações simbólicas simples (bit string, árvore) Multi-paradigma: • • Árvores de modelo (simbólico e matemático) Redes bayesianas (conexionista, simbólico e probabilista)

Árvore de decisão

Função de regressão numérica PRP = - 56. 1 + 0. 049 MYCT + 0. 015 MMIN + 0. 006 MMAX + 0. 630 CACH - 0. 270 CHMIN + 1. 46 CHMAX

Árvore de regressão

Árvore de modelo LM 1: PRP = 8. 29 + 0. 004 MMAX + 2. 77 CHMIN LM 2: PRP = 20. 3 + 0. 004 MMIN – 3. 99 CHMIN + 0. 946 CHMAX LM 3: PRP = 38. 1 + 0. 012 MMIN LM 4: PRP = 19. 5 + 0. 002 MMAX + 0. 698 CACH + 0. 969 CHMAX LM 5: PRP = 285 – 1. 46 MYCT + 1. 02 CACH – 9. 39 CHMIN LM 6: PRP = -65. 8 + 0. 03 MMIN – 2. 94 CHMIN + 4. 98 CHMAX

Regras atributivas de classificação Mineração preditiva * Implicações lógica com: * • Apenas uma variável quantificada • Premissas relacionada apenas por uma conjunção • Cada premissas apenas testa valor de um atributo de um indivíduo • Conclusão única e positiva indica classe das instâncias verificando a conjunção de premissas X, atr 1(X, val 1) . . . atrn(X, valn) class(X, c) * X, atr 1 Val 1(X) . . . atrn. Valn(X) C(X) * atr 1 = val 1 . . . atrn valn C * IF atr 1 = val 1 AND. . . AND atrn valn THEN C * * ex, IF tempo = sol AND dia = Dom THEN racha

Regras de Classificação vs. Árvores Regras de classificação podem ser convertidas em árvores de decisão e vice-versa * Porém: * • a conversão é em geral não trivial • dependendo da estrutura do espaço de instâncias, regras ou árvores são mais concisas ou eficientes Regras são compactas * Regras são em geral altamente modulares (mas raramente são completamente modulares) *

Vantagens de Árvores de Decisão Exemplo de conversão árvore -> regras X > 1. 2 não b IF x >1. 2 AND y > 2. 6 THEN class = a sim If x < 1. 2 then class = b Y > 2. 6 não sim b If x > 1. 2 and y < 2. 6 then class = b a • Sem mecanismo de interpretação preciso regras podem ser ambíguas • Instâncias podem “passar através” de conjunto de regras não sistematicamente “fechado”

Vantagens de Regras de Classificação Exemplo de conversão regra/árvore If x=1 and y=1 1 x 2 y 1 2 3 then class = a a z If z=1 and w=1 1 2 3 then class = b w b b 1 3 2 a b b • Árvores são redundantes e não incrementais • Árvores não são ambíguas e não falham em classificar 3

Regras atributivas de associação Mineração descritiva * Implicações lógica com: * • Apenas uma variável quantificada • Premissas e conclusões relacionadas apenas por uma conjunção • Cada premissa e cada conclusão apenas testa valor de um atributo de um indivíduo X, atr 1(X, val 1) . . . atri(X, vali) atrj(X, valj) . . . atrn(X, valn) * IF atr 1 = val 1 AND. . . AND atri vali THEN atrj = valj AND. . . AND atrn valn * ex, IF tempo = sol AND dia = domingo THEN praia = cheia AND avenida = engarrafada *

Regras relacionais Mineração descritiva ou preditiva (classificação ou controle) * Implicações lógica com: * • Várias variáveis quantificadas • Premissas relacionadas apenas por uma conjunção • Cada premissa testa valor de um atributo de um indivíduo ou teste relação entre indivíduos • Conclusão única positiva cujo predicado pode aparecer nas premissas (regras recursivas) • Cláusulas de Horn X, Y, Z, . . . atr 1(X, val 1) . . . reli(X, Y) atrj(Z, valj) * X, Y, Z, . . . atr 1(Y, val 1) . . . reli(X, Y) relj(X, Y, valj) * X, Y, Z, . . . atr 1(Z, val 1) . . . reli(X, Y, Z) * reli(X, Y, Z) : - atr 1(Z, val 1), . . . , reli(X, Y, Z) *

Necessidades das regras relacionais Conhecimento a priori name 1 = ann … name 5 = tom father 11 = F … father 31 = T … father 54 = T mother 11 = F … mother 55 = F female 1 = T … female 5 = F Exemplos positivos: daughter 42 = T daughter 13 = T Exemplo negativos: daughter 11 = F … daughter 44 = F Aprende: daughter 13(D, P) : - female 3(D), parent 13(P, D). daughter 42(D, P) : - female 4(D), parent 42(P, D).

Necessidades das regras relacionais Conhecimento a priori Intencional: parent(F, C) : - father(F, C). parent(M, C) : - mother(P, C). Extensional: father(pat, ann). father(tom, sue). female(ann). female(eve). female(sue). male(pat). male(tom). mother(eve, sue). mother(ann, tom). Exemplos Positivos: daughter(sue, eve). daughter(ann, pat). Negativos: not daughter(tom, ann). not daughter(eve, ann). Aprende: daughter(D, P) : female(D), parent(P, D).

Grupos de instâncias (clusters) * Dimensões descritivas da tipologia dos grupos • • • disjuntos x overlapping chatos ou hierárquicos deterministas x probabilistas x nebulosos baseados em distâncias x baseados em densidade propriedades matemáticas da superfície a b c d e f g h … 1 2 3 0. 4 0. 1 0. 3 0. 1 0. 4 0. 1 0. 7 0. 5 0. 1 0. 8 0. 3 0. 1 0. 2 0. 4 0. 5 0. 1 0. 4 0. 8 0. 4 0. 5 0. 1

Rede bayesiana