Descrio de Conceitos Caracterizao e Comparao XXX Descrio
- Slides: 52
Descrição de Conceitos Caracterização e Comparação XXX
Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão
O que é Descrição de Conceitos • Mineração Descritiva versus Mineração Preditiva – Mineração Descritiva: descreve conceitos ou conjuntos de dados relevantes de forma concisa, resumida, informativa, discriminante – Mineração Preditiva: Baseado nos dados constroem-se modelos para a previsão das tendências e das propriedades de dados desconhecidos • Descrição de Conceitos: – Caracterização: fornece um sumário conciso e suscinto da coleção de dados – Comparação: fornece as descrições que comparam duas ou mais coleções dos dados
Descrição de Conceitos vs. OLAP • Descrição de Conceitos: – pode manipular atributos complexos bem como suas agregações – um processo mais automatizado • OLAP: – Restrito a um número pequeno de dimensões e aos atributos de tipo medida – Processo controlado pelo usuário
Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão
Caracterização baseada em Generalização e Sumário • Generalização – Um processo que abstraia um grande conjunto de dados relevantes em uma base de dados, de níveis conceptuais baixos para mais elevados 1 2 3 4 5 Níveis conceptuais – Abordagens: • Abordagem Cubo de dados (Abordagem OLAP) • Abordagem indução orientada atributo
Caracterização: Abordagem Cubo de Dados • Realiza os cálculos e armazena os resultados em cubos de dados • Vantagens – Implementação eficiente da generalização de dados – Cálculo de vários tipos de medidas • e. g. , count( ), sum( ), average( ), max( ) – A generalização e a especialização podem ser executados em um cubo dos dados pelo roll-up e pelo drill-down • Limitações – Manipula apenas dados não numéricos e de medidas de valores agregados numéricos simples. – falta da análise inteligente, não pode dizer que dimensões devem ser usadas e que nível de generalização deve ser alcançado
Indução Atributo-Orientada • Não se restringe a dados categóricos ou a medidas particulares. • Como é feito? – Colete o conjunto de dados relevantes ( relação inicial) a partir de uma interrogação de uma base de dados relacional – Execute a generalização pela remoção de atributo ou pela generalização de atributo. – Aplique a agregação fundindo tuplas generalizadas idênticas e acumule suas contagens respectivas. – Apresentação interativa com usuários.
Exemplo • DMQL: Descreve as característica gerais de estudantes de pós-graduação na base de dados Big. University use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “graduate” • Interrogação SQl Correspondente: Select name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in {“Msc”, “MBA”, “Ph. D” }
Princípios Básicos da Indução Atributo-Orientada • Focalização dos Dados: conjunto de dados relevantes, incluindo as dimensões, e o resultado na relação inicial • Remoção de Atributo: remove atributo A se existe um conjunto grande de valores distintos de A mas (1) não há operador de generalização em A, ou (2) Conceitos superiores a A são expressos em termos de outros atributos. • Generalização de Atributos: se existe um conjunto grande de valores distintos de A, e se existe um conjunto de operadores de generalização em A, então selecione um operador e generalize A. • Controle Atributo-Limiar: tipicamente 2 -8, especificado/automático. • Controle pelo limiar da relação generalizada: tipicamente 10 -30, especificado/automático.
Exemplo Relação Inicial Relação Generalizada
Algoritmo Básico para a Indução Atributo-Orientada • Initial. Rel: Processamento da interrogação do conjunto de dados relevantes para a obtenção da relação inicial • Pre. Gen: Baseado no número de valores distintos em cada atributo, estabelecer o plano para cada atributo: remoção? ou a que nível generalizar? • Prime. Gen: Baseado na etapa Pre. Gen, realizar a generalização no nível correto e obter a “relação generalizada de referência”, acumulando as contagens. • Presentation: Interação com o usuário: (1) ajustar os níveis via drilling, (2) giro, (3) associação à regras, tabelas cruzadas, apresentação visual.
Apresentação dos Resultados da Generalização • Relações Generalizadas: – Relações em que alguns ou todos os atributos são generalizados, com as contagens ou outros agregados acumulados. • Tabelas cruzadas: – Mapear os resultados na forma de tabelas cruzadas. – Técnicas de Visualização: – Gráfico de setores, gráfico de barras, curvas, cubos, etc. • Regras características quantitativas: – Mapear os resultados em regras características com informação quantitativa associada, exemplo,
Apresentação—Relação Generalizada
Apresentação—Tabelas Cruzadas
Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão
Análise da Relevância de Atributos • Porque? – – Que dimensões devem ser incluídas? Qual nível de generalização? Automático vs. interativo Redução do # atributos; mais fácil a compreensão dos padrões • Princípios – Métodos estatísticos para o pré-processamento dos dados • Filtragem dos atributos irrelevantes ou pouco relevantes • Retenção e ordenação dos atributos relevantes – Relevância relacionada as dimensões e aos níveis – Caracterização analítica, comparação analítica
Análise da Relevância de Atributos • Como? – Coleta de Dados – Generalização Analítica • Usar o ganho de informações (ex. , entropia ou outras medidas) para identificar dimensões e níveis altamente relevantes. – Análise de Relevância • Ordenar e selecionar as dimensões e níveis mais importantes. – Indução Orientada Atributo para a descrição de classes • Nas dimensões/níveis selecionados
Medidas de Relevância • As medidas de relevância avaliam o poder classificatório de um atributo em um conjunto de dados. • Métodos – Ganho de informação (ID 3) – Razão de ganho (C 4. 5) – Índice de gini – Etc.
Entropia e Ganho de Informação • S contem si tuples da classe Ci for i = {1, …, m} • Informação requerida para classificar qualquer tupla arbitraria • Entropia do atributo A com valores {a 1, a 2, …, av} • Informação ganha ao ramificar no atributo A
Exemplo: Caracterização Analítica • Tarefa – Minerar características gerais de estudantes de pósgraduação usando caracterização analítica • Dado – atributos name, gender, major, birth_place, birth_date, phone#, e gpa – Gen(ai) = hierarquias de conceito em ai – Ui = limiar analítico de atributo para ai – Ti = limiar para generalização de atributo para ai – R = limiar de relevância de atributo
Exemplo (Cont. ) • 1. Coleta de Dados – Classe alvo: estudantes de pós – Classe de contraste: estudantes de graduação • 2. Generalização analítica usando Ui – Remoção de atributos • Remoção de name e phone# – Generalização de atributos • generalização de major, birth_place, birth_date and gpa • Contagens acumuladas – Relação candidata: gender, major, birth_country, age_range and gpa
Exemplo (cont. ) Relação candidata para a classe alvo: Estudantes de Pós ( =120) Relação candidata para a classe de contraste: Estudantes de graduação ( =130)
Exemplo (cont. ) • 3. Análise de Relevância – Cálculo da informação requerida para classificar uma tupla arbitrária – Cálculo da entropia de cada atributo: ex. principal Numero de estudantes de pós em “Ciências” Número de estudantes de graduação em “Ciências”
Exemplo (cont. ) • Cálculo da informação esperada requerida para classificar uma dada amostra se S for particionado segundo o atributo • Cálculo do ganho de informação para cada atributo – Ganho de informação de todos os atributos
Exemplo (cont. ) • 4. Derivação da relação inicial de trabalho (W 0) – R = 0. 1 – Remoção de atributos irrelevantes ou pouco relevantes da relação candidato => remover gender, birth_country – Remoção da relação candidato classe de contraste Relação inicial de trabalho da classe alvo W 0: Estudantes de pós • 5. Realizar Indução Orientada Atributo em W 0 usando Ti
Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão
Mineração da Comparação de Classes • • Comparação: Comparação de duas ou mais classes. Método: – – – • Partição do conjunto de dados relevantes em classe alvo e classe(s) de contraste(s) Generalize ambas as classes nos mesmos níveis superiores de conceitos Compare tuplas de mesmo nível superior de descrição Apresente para cada tupla a sua descrição e duas medidas: • suporte – distribuição na classe isolada • comparação – distribuição entre as classes Destaques as tuplas com características discriminantes fortes Análise de Relevância: – Encontre atributos que melhor distinguem diferentes classes.
Exemplo • Tarefa – Comparar estudantes de pós e de graduação usando regras discriminantes. – Interrogação DMQL use Big_University_DB mine comparison as “grad_vs_undergrad_students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa for “graduate_students” where status in “graduate” versus “undergraduate_students” where status in “undergraduate” analyze count% from student
Exemplo (cont. ) • Dado – atributos name, gender, major, birth_place, birth_date, residence, phone# e gpa – Gen(ai) = hierarquias de conceitos nos atributos ai – Ui = limiar analítico de atributo para ai – Ti = limiar para generalização de atributo para ai – R = limiar de relevância de atributo
Exemplo (cont. ) • 1. Coleta de dados – Classes alvo e contraste • 2. Análise da Relevância de Atributos – Remoção dos atributos name, gender, major, phone# • 3. Generalização sincronizada – Controlada pelos limiares de dimensão especificados pelo usuário
Exemplo (cont. ) Relação Generalizada Para a Classe Alvo: Estudantes de Pós Relação Generalizada para a Classe de Contraste: Estudantes de Graduação
Exemplo (cont. ) • 4. Apresentação – Como relações generalizadas, tabelas cruzadas, gráfico de barras, gráfico de setores, ou regras – Medidas de contraste para refletir a comparação entre as classes alvo e de contraste • ex. contagem%
Regras Discriminantes • Cj = Classe alvo • qa = a generalização de uma tupla cobre algumas tupas da classe alvo – Mas também pode cobrir algumas da classe de contraste • d-weight – range: [0, 1] • Forma de uma regra discriminante quantitativa
Exemplo Distribuição de efetivos entre estudantes de pós e de graduação para uma tupla generalizada • Regra discriminante quantitativa – onde 90/(90+120) = 30%
Descrição de uma Classe • Regras características quantitativas – Condição necessária • Regra discriminante quantitativa – Condição suficiente • Regra de descrição quantitativa – Condição necessária e suficiente
Exemplo Tabela cruzada mostrando t-weight, d-weight e o número total (em milhares) de TVs e computadores vendidos em All. Electronics em 1998 • Regra de descrição quantitativa para classe alvo Europa
Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão
Mineração das Características de dispersão dos Dados • Motivação – • Características de tendência central e de dispersão – • • Para compreender melhor os dados: tendência central, variação e espalhamento Média, mediana, max, min, quantis, variância, etc. Dimensões numéricas corresponde aos intervalos ordenados – Dispersão dos dados: analisado com múltiplas granularidades de precisão – Análise de Boxplot ou quantl nos intervalos ordenados Análise de dispersão em medidas calculadas – Análises Boxplot ou quantl no cubo transformado
Medidas de Tendência Central • Media – • Média aritmética ponderada Mediana: medida holística – Valor na posição média se o número de valores é par, ou média dos valores de posição média senão – • Estimação via interpolação Moda – Valor mais frequente nos dados – Unimodal, bimodal, trimodal – Formula empírica:
Medidas de dispersão • • Quartis, outliers e boxplots – Quartils: Q 1 (25 o percentil), Q 3 (75 o percentil) – Amplitude Inter-quartil: IQR = Q 3 – Q 1 – Resumo cinco números: min, Q 1, Mediana, Q 3, max – Boxplot: nas extremidades da caixa estão os quartis, a mediana é a linha central, extremos, e plota individualmente os outliers – Outlier: usualmente, um valor maior/menor do que 1. 5 x IQR Variancia e Desvio-padrão – Variancia s 2: (algebraica, cálculo escalável) – Desvio padrão s é a raiz quadrada da variância s 2
Análise com Boxplot • Sumário cinco números de uma distribuição: Mínimo, Q 1, Mediana, Q 3, Maximo • Boxplot – No inicio e no final da caixa estão o primeiro e o terceiro quartil: a altura da caixa é o IRQ – A mediana é destacada por uma linha dentro da caixa – Extremos: duas linhas fora da caixa destacam o mínimo e o máximo
Um Boxplot Um boxplot
Mineração de medidas de Estatística Descritiva em Grandes Bases de Dados • Variância • Desvio padrão: raiz quadrada da variância – Mede a dispersão em torno da média – É zero se e somente se todos os valores são iguais – Tanto o desvio quanto a variância são algebraicos
Análise de Histograma – Histograma de freqüências • Método gráfico univariado • Consiste em um conjunto de retângulos justapostos que refletem a freqüência das classes presentes nos dados
Diagrama Quantil • Mostra todos os dados (permite ao usuário acessar tanto o comportamento global como as ocorrências não usuais) • Diagrama quantil – Para os xi classificados em ordem crescente, fi indica que aproximadamente 100 fi% dos datas são menores ou iguais a xi
Diagrama Quantil-Quantil (Q-Q) • Mostra os quantis de uma distribuição univariada contra os correspondentes quantis de uma outra • Permite que o usuário veja se há um deslocamento ao ir de uma distribuição a outra
Diagrama de Dispersão • Fornece uma primeira visão de dados bi-variados para identificar clusters de pontos, outliers, etc • Cada par de valores é tratado como um par de coordenadas e desenhado como pontos no plano
Curva de Loess • Adiciona uma curva suave em um diagrama de dispersão para fornecer uma melhor percepção dos padrões de dependência • Uma Curva de Loess é ajustada pelo controle de dois parâmetros: um parâmetro de suavização, e o grau dos polinômios que serão ajustados via regressão
Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão
Indução Orientada-Atributo vs Aprendizagem à partir de exemplos • Diferenças na filosofia e nas suposições básicas – Aprendizagem à partir de exemplos: exemplos positivos usados para a generalização e negativos para a especialização – Em mineração apenas exemplos positivos: o drill-down retorna a generalização à um estado prévio • Diferenças no tamanho do conjunto de treinamento • Diferença nos métodos de generalização – Aprendizagem de máquina generaliza na base tupla por tupla – Mineração generaliza na base atributo por atributo
Mineração Incremental e Paralela para a Descrição de Conceitos • Mineração Incremental: revisão baseada em dados recentemente adicionados DB – Generalize DB no mesmo nível de abstração da relação generalizada R para obter R – União R U R, i. e. , fusionar a contagem e as outras estatísticas para produzir uma nova relação R’ • Filosofia similar pode ser aplicada a amostragem de dados, mineração paralela e/ou distribuída, etc.
- Comparao
- Xxxx xx v
- Xxxxxxxxxxxxx xx
- X""xxxxxxxx
- Descrio
- Descrio
- Conceitos do renascimento
- Ecologia
- Bacia hidrográfica
- Quais os conceitos centrais do marketing
- Conceitos que definem a arquitetura cliente-servidor.
- Ecologia
- Conceitos de ux e ui
- Conceitos de hardware
- Sistema operacional
- Conceitos ecológicos
- Estrutura do sfn
- Conceitos básicos de clp
- Conceitos de calor e temperatura
- Conceitos básicos em ecologia
- Conceitos solid
- Xxx
- Ejemplos de dimensión comunitaria en la escuela
- Julio lopes xxx
- Xxx
- X'xxxx
- Subodh vora & co
- Marcas americanas
- Viop xxx
- Xxx
- Jordan xxx
- Xxx43x
- Xxx
- Canto 30 inferno
- Stdocu
- Tw cmu xxx
- Xxx evacuación
- Xxx britt james
- Xxx
- Xxx foto
- Bentuk jurnal khusus
- Xxx
- Alexis terrazas xxx
- Judy pineda xxx
- Xxx
- Adria ok xxx
- Xxxjtf
- Benefits of normal flora to the human body
- Xxx scool
- Sindrome polineuritico
- Xxxcnxx
- Ryan logan xxx
- Matlab