Descrio de Conceitos Caracterizao e Comparao XXX Descrio

  • Slides: 52
Download presentation
Descrição de Conceitos Caracterização e Comparação XXX

Descrição de Conceitos Caracterização e Comparação XXX

Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? •

Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão

O que é Descrição de Conceitos • Mineração Descritiva versus Mineração Preditiva – Mineração

O que é Descrição de Conceitos • Mineração Descritiva versus Mineração Preditiva – Mineração Descritiva: descreve conceitos ou conjuntos de dados relevantes de forma concisa, resumida, informativa, discriminante – Mineração Preditiva: Baseado nos dados constroem-se modelos para a previsão das tendências e das propriedades de dados desconhecidos • Descrição de Conceitos: – Caracterização: fornece um sumário conciso e suscinto da coleção de dados – Comparação: fornece as descrições que comparam duas ou mais coleções dos dados

Descrição de Conceitos vs. OLAP • Descrição de Conceitos: – pode manipular atributos complexos

Descrição de Conceitos vs. OLAP • Descrição de Conceitos: – pode manipular atributos complexos bem como suas agregações – um processo mais automatizado • OLAP: – Restrito a um número pequeno de dimensões e aos atributos de tipo medida – Processo controlado pelo usuário

Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? •

Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão

Caracterização baseada em Generalização e Sumário • Generalização – Um processo que abstraia um

Caracterização baseada em Generalização e Sumário • Generalização – Um processo que abstraia um grande conjunto de dados relevantes em uma base de dados, de níveis conceptuais baixos para mais elevados 1 2 3 4 5 Níveis conceptuais – Abordagens: • Abordagem Cubo de dados (Abordagem OLAP) • Abordagem indução orientada atributo

Caracterização: Abordagem Cubo de Dados • Realiza os cálculos e armazena os resultados em

Caracterização: Abordagem Cubo de Dados • Realiza os cálculos e armazena os resultados em cubos de dados • Vantagens – Implementação eficiente da generalização de dados – Cálculo de vários tipos de medidas • e. g. , count( ), sum( ), average( ), max( ) – A generalização e a especialização podem ser executados em um cubo dos dados pelo roll-up e pelo drill-down • Limitações – Manipula apenas dados não numéricos e de medidas de valores agregados numéricos simples. – falta da análise inteligente, não pode dizer que dimensões devem ser usadas e que nível de generalização deve ser alcançado

Indução Atributo-Orientada • Não se restringe a dados categóricos ou a medidas particulares. •

Indução Atributo-Orientada • Não se restringe a dados categóricos ou a medidas particulares. • Como é feito? – Colete o conjunto de dados relevantes ( relação inicial) a partir de uma interrogação de uma base de dados relacional – Execute a generalização pela remoção de atributo ou pela generalização de atributo. – Aplique a agregação fundindo tuplas generalizadas idênticas e acumule suas contagens respectivas. – Apresentação interativa com usuários.

Exemplo • DMQL: Descreve as característica gerais de estudantes de pós-graduação na base de

Exemplo • DMQL: Descreve as característica gerais de estudantes de pós-graduação na base de dados Big. University use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “graduate” • Interrogação SQl Correspondente: Select name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in {“Msc”, “MBA”, “Ph. D” }

Princípios Básicos da Indução Atributo-Orientada • Focalização dos Dados: conjunto de dados relevantes, incluindo

Princípios Básicos da Indução Atributo-Orientada • Focalização dos Dados: conjunto de dados relevantes, incluindo as dimensões, e o resultado na relação inicial • Remoção de Atributo: remove atributo A se existe um conjunto grande de valores distintos de A mas (1) não há operador de generalização em A, ou (2) Conceitos superiores a A são expressos em termos de outros atributos. • Generalização de Atributos: se existe um conjunto grande de valores distintos de A, e se existe um conjunto de operadores de generalização em A, então selecione um operador e generalize A. • Controle Atributo-Limiar: tipicamente 2 -8, especificado/automático. • Controle pelo limiar da relação generalizada: tipicamente 10 -30, especificado/automático.

Exemplo Relação Inicial Relação Generalizada

Exemplo Relação Inicial Relação Generalizada

Algoritmo Básico para a Indução Atributo-Orientada • Initial. Rel: Processamento da interrogação do conjunto

Algoritmo Básico para a Indução Atributo-Orientada • Initial. Rel: Processamento da interrogação do conjunto de dados relevantes para a obtenção da relação inicial • Pre. Gen: Baseado no número de valores distintos em cada atributo, estabelecer o plano para cada atributo: remoção? ou a que nível generalizar? • Prime. Gen: Baseado na etapa Pre. Gen, realizar a generalização no nível correto e obter a “relação generalizada de referência”, acumulando as contagens. • Presentation: Interação com o usuário: (1) ajustar os níveis via drilling, (2) giro, (3) associação à regras, tabelas cruzadas, apresentação visual.

Apresentação dos Resultados da Generalização • Relações Generalizadas: – Relações em que alguns ou

Apresentação dos Resultados da Generalização • Relações Generalizadas: – Relações em que alguns ou todos os atributos são generalizados, com as contagens ou outros agregados acumulados. • Tabelas cruzadas: – Mapear os resultados na forma de tabelas cruzadas. – Técnicas de Visualização: – Gráfico de setores, gráfico de barras, curvas, cubos, etc. • Regras características quantitativas: – Mapear os resultados em regras características com informação quantitativa associada, exemplo,

Apresentação—Relação Generalizada

Apresentação—Relação Generalizada

Apresentação—Tabelas Cruzadas

Apresentação—Tabelas Cruzadas

Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? •

Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão

Análise da Relevância de Atributos • Porque? – – Que dimensões devem ser incluídas?

Análise da Relevância de Atributos • Porque? – – Que dimensões devem ser incluídas? Qual nível de generalização? Automático vs. interativo Redução do # atributos; mais fácil a compreensão dos padrões • Princípios – Métodos estatísticos para o pré-processamento dos dados • Filtragem dos atributos irrelevantes ou pouco relevantes • Retenção e ordenação dos atributos relevantes – Relevância relacionada as dimensões e aos níveis – Caracterização analítica, comparação analítica

Análise da Relevância de Atributos • Como? – Coleta de Dados – Generalização Analítica

Análise da Relevância de Atributos • Como? – Coleta de Dados – Generalização Analítica • Usar o ganho de informações (ex. , entropia ou outras medidas) para identificar dimensões e níveis altamente relevantes. – Análise de Relevância • Ordenar e selecionar as dimensões e níveis mais importantes. – Indução Orientada Atributo para a descrição de classes • Nas dimensões/níveis selecionados

Medidas de Relevância • As medidas de relevância avaliam o poder classificatório de um

Medidas de Relevância • As medidas de relevância avaliam o poder classificatório de um atributo em um conjunto de dados. • Métodos – Ganho de informação (ID 3) – Razão de ganho (C 4. 5) – Índice de gini – Etc.

Entropia e Ganho de Informação • S contem si tuples da classe Ci for

Entropia e Ganho de Informação • S contem si tuples da classe Ci for i = {1, …, m} • Informação requerida para classificar qualquer tupla arbitraria • Entropia do atributo A com valores {a 1, a 2, …, av} • Informação ganha ao ramificar no atributo A

Exemplo: Caracterização Analítica • Tarefa – Minerar características gerais de estudantes de pósgraduação usando

Exemplo: Caracterização Analítica • Tarefa – Minerar características gerais de estudantes de pósgraduação usando caracterização analítica • Dado – atributos name, gender, major, birth_place, birth_date, phone#, e gpa – Gen(ai) = hierarquias de conceito em ai – Ui = limiar analítico de atributo para ai – Ti = limiar para generalização de atributo para ai – R = limiar de relevância de atributo

Exemplo (Cont. ) • 1. Coleta de Dados – Classe alvo: estudantes de pós

Exemplo (Cont. ) • 1. Coleta de Dados – Classe alvo: estudantes de pós – Classe de contraste: estudantes de graduação • 2. Generalização analítica usando Ui – Remoção de atributos • Remoção de name e phone# – Generalização de atributos • generalização de major, birth_place, birth_date and gpa • Contagens acumuladas – Relação candidata: gender, major, birth_country, age_range and gpa

Exemplo (cont. ) Relação candidata para a classe alvo: Estudantes de Pós ( =120)

Exemplo (cont. ) Relação candidata para a classe alvo: Estudantes de Pós ( =120) Relação candidata para a classe de contraste: Estudantes de graduação ( =130)

Exemplo (cont. ) • 3. Análise de Relevância – Cálculo da informação requerida para

Exemplo (cont. ) • 3. Análise de Relevância – Cálculo da informação requerida para classificar uma tupla arbitrária – Cálculo da entropia de cada atributo: ex. principal Numero de estudantes de pós em “Ciências” Número de estudantes de graduação em “Ciências”

Exemplo (cont. ) • Cálculo da informação esperada requerida para classificar uma dada amostra

Exemplo (cont. ) • Cálculo da informação esperada requerida para classificar uma dada amostra se S for particionado segundo o atributo • Cálculo do ganho de informação para cada atributo – Ganho de informação de todos os atributos

Exemplo (cont. ) • 4. Derivação da relação inicial de trabalho (W 0) –

Exemplo (cont. ) • 4. Derivação da relação inicial de trabalho (W 0) – R = 0. 1 – Remoção de atributos irrelevantes ou pouco relevantes da relação candidato => remover gender, birth_country – Remoção da relação candidato classe de contraste Relação inicial de trabalho da classe alvo W 0: Estudantes de pós • 5. Realizar Indução Orientada Atributo em W 0 usando Ti

Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? •

Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão

Mineração da Comparação de Classes • • Comparação: Comparação de duas ou mais classes.

Mineração da Comparação de Classes • • Comparação: Comparação de duas ou mais classes. Método: – – – • Partição do conjunto de dados relevantes em classe alvo e classe(s) de contraste(s) Generalize ambas as classes nos mesmos níveis superiores de conceitos Compare tuplas de mesmo nível superior de descrição Apresente para cada tupla a sua descrição e duas medidas: • suporte – distribuição na classe isolada • comparação – distribuição entre as classes Destaques as tuplas com características discriminantes fortes Análise de Relevância: – Encontre atributos que melhor distinguem diferentes classes.

Exemplo • Tarefa – Comparar estudantes de pós e de graduação usando regras discriminantes.

Exemplo • Tarefa – Comparar estudantes de pós e de graduação usando regras discriminantes. – Interrogação DMQL use Big_University_DB mine comparison as “grad_vs_undergrad_students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa for “graduate_students” where status in “graduate” versus “undergraduate_students” where status in “undergraduate” analyze count% from student

Exemplo (cont. ) • Dado – atributos name, gender, major, birth_place, birth_date, residence, phone#

Exemplo (cont. ) • Dado – atributos name, gender, major, birth_place, birth_date, residence, phone# e gpa – Gen(ai) = hierarquias de conceitos nos atributos ai – Ui = limiar analítico de atributo para ai – Ti = limiar para generalização de atributo para ai – R = limiar de relevância de atributo

Exemplo (cont. ) • 1. Coleta de dados – Classes alvo e contraste •

Exemplo (cont. ) • 1. Coleta de dados – Classes alvo e contraste • 2. Análise da Relevância de Atributos – Remoção dos atributos name, gender, major, phone# • 3. Generalização sincronizada – Controlada pelos limiares de dimensão especificados pelo usuário

Exemplo (cont. ) Relação Generalizada Para a Classe Alvo: Estudantes de Pós Relação Generalizada

Exemplo (cont. ) Relação Generalizada Para a Classe Alvo: Estudantes de Pós Relação Generalizada para a Classe de Contraste: Estudantes de Graduação

Exemplo (cont. ) • 4. Apresentação – Como relações generalizadas, tabelas cruzadas, gráfico de

Exemplo (cont. ) • 4. Apresentação – Como relações generalizadas, tabelas cruzadas, gráfico de barras, gráfico de setores, ou regras – Medidas de contraste para refletir a comparação entre as classes alvo e de contraste • ex. contagem%

Regras Discriminantes • Cj = Classe alvo • qa = a generalização de uma

Regras Discriminantes • Cj = Classe alvo • qa = a generalização de uma tupla cobre algumas tupas da classe alvo – Mas também pode cobrir algumas da classe de contraste • d-weight – range: [0, 1] • Forma de uma regra discriminante quantitativa

Exemplo Distribuição de efetivos entre estudantes de pós e de graduação para uma tupla

Exemplo Distribuição de efetivos entre estudantes de pós e de graduação para uma tupla generalizada • Regra discriminante quantitativa – onde 90/(90+120) = 30%

Descrição de uma Classe • Regras características quantitativas – Condição necessária • Regra discriminante

Descrição de uma Classe • Regras características quantitativas – Condição necessária • Regra discriminante quantitativa – Condição suficiente • Regra de descrição quantitativa – Condição necessária e suficiente

Exemplo Tabela cruzada mostrando t-weight, d-weight e o número total (em milhares) de TVs

Exemplo Tabela cruzada mostrando t-weight, d-weight e o número total (em milhares) de TVs e computadores vendidos em All. Electronics em 1998 • Regra de descrição quantitativa para classe alvo Europa

Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? •

Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão

Mineração das Características de dispersão dos Dados • Motivação – • Características de tendência

Mineração das Características de dispersão dos Dados • Motivação – • Características de tendência central e de dispersão – • • Para compreender melhor os dados: tendência central, variação e espalhamento Média, mediana, max, min, quantis, variância, etc. Dimensões numéricas corresponde aos intervalos ordenados – Dispersão dos dados: analisado com múltiplas granularidades de precisão – Análise de Boxplot ou quantl nos intervalos ordenados Análise de dispersão em medidas calculadas – Análises Boxplot ou quantl no cubo transformado

Medidas de Tendência Central • Media – • Média aritmética ponderada Mediana: medida holística

Medidas de Tendência Central • Media – • Média aritmética ponderada Mediana: medida holística – Valor na posição média se o número de valores é par, ou média dos valores de posição média senão – • Estimação via interpolação Moda – Valor mais frequente nos dados – Unimodal, bimodal, trimodal – Formula empírica:

Medidas de dispersão • • Quartis, outliers e boxplots – Quartils: Q 1 (25

Medidas de dispersão • • Quartis, outliers e boxplots – Quartils: Q 1 (25 o percentil), Q 3 (75 o percentil) – Amplitude Inter-quartil: IQR = Q 3 – Q 1 – Resumo cinco números: min, Q 1, Mediana, Q 3, max – Boxplot: nas extremidades da caixa estão os quartis, a mediana é a linha central, extremos, e plota individualmente os outliers – Outlier: usualmente, um valor maior/menor do que 1. 5 x IQR Variancia e Desvio-padrão – Variancia s 2: (algebraica, cálculo escalável) – Desvio padrão s é a raiz quadrada da variância s 2

Análise com Boxplot • Sumário cinco números de uma distribuição: Mínimo, Q 1, Mediana,

Análise com Boxplot • Sumário cinco números de uma distribuição: Mínimo, Q 1, Mediana, Q 3, Maximo • Boxplot – No inicio e no final da caixa estão o primeiro e o terceiro quartil: a altura da caixa é o IRQ – A mediana é destacada por uma linha dentro da caixa – Extremos: duas linhas fora da caixa destacam o mínimo e o máximo

Um Boxplot Um boxplot

Um Boxplot Um boxplot

Mineração de medidas de Estatística Descritiva em Grandes Bases de Dados • Variância •

Mineração de medidas de Estatística Descritiva em Grandes Bases de Dados • Variância • Desvio padrão: raiz quadrada da variância – Mede a dispersão em torno da média – É zero se e somente se todos os valores são iguais – Tanto o desvio quanto a variância são algebraicos

Análise de Histograma – Histograma de freqüências • Método gráfico univariado • Consiste em

Análise de Histograma – Histograma de freqüências • Método gráfico univariado • Consiste em um conjunto de retângulos justapostos que refletem a freqüência das classes presentes nos dados

Diagrama Quantil • Mostra todos os dados (permite ao usuário acessar tanto o comportamento

Diagrama Quantil • Mostra todos os dados (permite ao usuário acessar tanto o comportamento global como as ocorrências não usuais) • Diagrama quantil – Para os xi classificados em ordem crescente, fi indica que aproximadamente 100 fi% dos datas são menores ou iguais a xi

Diagrama Quantil-Quantil (Q-Q) • Mostra os quantis de uma distribuição univariada contra os correspondentes

Diagrama Quantil-Quantil (Q-Q) • Mostra os quantis de uma distribuição univariada contra os correspondentes quantis de uma outra • Permite que o usuário veja se há um deslocamento ao ir de uma distribuição a outra

Diagrama de Dispersão • Fornece uma primeira visão de dados bi-variados para identificar clusters

Diagrama de Dispersão • Fornece uma primeira visão de dados bi-variados para identificar clusters de pontos, outliers, etc • Cada par de valores é tratado como um par de coordenadas e desenhado como pontos no plano

Curva de Loess • Adiciona uma curva suave em um diagrama de dispersão para

Curva de Loess • Adiciona uma curva suave em um diagrama de dispersão para fornecer uma melhor percepção dos padrões de dependência • Uma Curva de Loess é ajustada pelo controle de dois parâmetros: um parâmetro de suavização, e o grau dos polinômios que serão ajustados via regressão

Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? •

Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão

Indução Orientada-Atributo vs Aprendizagem à partir de exemplos • Diferenças na filosofia e nas

Indução Orientada-Atributo vs Aprendizagem à partir de exemplos • Diferenças na filosofia e nas suposições básicas – Aprendizagem à partir de exemplos: exemplos positivos usados para a generalização e negativos para a especialização – Em mineração apenas exemplos positivos: o drill-down retorna a generalização à um estado prévio • Diferenças no tamanho do conjunto de treinamento • Diferença nos métodos de generalização – Aprendizagem de máquina generaliza na base tupla por tupla – Mineração generaliza na base atributo por atributo

Mineração Incremental e Paralela para a Descrição de Conceitos • Mineração Incremental: revisão baseada

Mineração Incremental e Paralela para a Descrição de Conceitos • Mineração Incremental: revisão baseada em dados recentemente adicionados DB – Generalize DB no mesmo nível de abstração da relação generalizada R para obter R – União R U R, i. e. , fusionar a contagem e as outras estatísticas para produzir uma nova relação R’ • Filosofia similar pode ser aplicada a amostragem de dados, mineração paralela e/ou distribuída, etc.