Minerao de Excees Apresentadores Andrey C Cavalcanti George

  • Slides: 34
Download presentation
Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva

Introdução n Dados podem ser armazenados e resumidos em cubos multidimensionais. (OLAP) n Um

Introdução n Dados podem ser armazenados e resumidos em cubos multidimensionais. (OLAP) n Um usuário ou analista pode usar operações OLAP para encontrar padrões interessantes. n O processo de descoberta não é automático. Depende da intuição ou hipóteses usadas pelo usuário. n Desvantagens da exploração baseada em hipóteses: u espaço de busca muito grande u agregações de alto nível não indicam anomalias u dificuldade mesmo se o espaço for pequeno 24/5/2001 12: 00

Análise de Outliers Exceções n Causa dos Outliers → erro de execução ou medida.

Análise de Outliers Exceções n Causa dos Outliers → erro de execução ou medida. n u Exemplo: Inserção default de um valor Falsos Outliers (Ex: salários de executivos) n Mineração de outliers → consiste na detecção e análise de outliers (complexo e interessante) n 24/5/2001 12: 00

Aplicações de Mineração de Outliers 1. Detecção de Fraudes ( cartões de crédito ou

Aplicações de Mineração de Outliers 1. Detecção de Fraudes ( cartões de crédito ou telefone) 2. Comportamento de gastos de consumidores ( por classe social ) 3. Em análises médicas ( resultados não esperados de tratamentos ) 24/5/2001 12: 00

Mineração de Outliers n Pode ser dividido em 2 subproblemas: 1. Definir quais dados

Mineração de Outliers n Pode ser dividido em 2 subproblemas: 1. Definir quais dados são aberrantes 2. Definir método eficiente para encontrar tais aberrações 3. Aberrante sempre com referência a algum padrão 24/5/2001 12: 00 n Métodos de detecção: Semi-automático: t Visualização u Automático t Estatística t Distância t Desvio Observação: u Usuário tem que checar se os outliers descobertos são realmente outliers. u n

Detecção de Outliers baseada em Estatística n n Distribuição ou modelo probabilístico ( Ex:

Detecção de Outliers baseada em Estatística n n Distribuição ou modelo probabilístico ( Ex: distribuição normal ) Teste de discordância (TD)→ identifica os outliers com respeito ao modelo escolhido O TD examina 2 hipóteses: u de trabalho u alternativa Um dado ser ou não ser Outlier depende da distribuição escolhida 24/5/2001 12: 00

Detecção de Outliers baseada em Estatística n 2 procedimentos para detecção de outliers: u

Detecção de Outliers baseada em Estatística n 2 procedimentos para detecção de outliers: u Procedimentos em blocos u Procedimentos consecutivos (sequencial) t menos provável é testado t mais eficiente 24/5/2001 12: 00 n Conclusão u u Testa aberração ao longo de apenas uma única dimensão Dificuldade na escolha de uma distribuição padrão, especialmente com dados desconhecidos

Um exemplo de detecção de Outliers baseado em estatística n n n O Procedimento

Um exemplo de detecção de Outliers baseado em estatística n n n O Procedimento abaixo é feito para cada observação xi, onde i=1. . n e k = n-1: vetor médio da amostra u xm = (1/k) Σxi (p/ i de 1 à k) Matriz de covariância u S = (1/(k-1)) Σ(xi – xm)’ Distância de Mahalanobis: u D 2 = (x – xm)’S-1(x – xm) Distribuição F com p e k-p graus de liberdade u F = ((k – p)k / (k 2 – 1)p) D 2 A partir de F calcula-se o valor de P que será comparado com o nível de significância ά u Se P < ά, então encontramos um outlier, remove o mesmo e refaz o procedimento acima u Se P > ά, está OK 24/5/2001 12: 00

Exemplo de Detecção de Outliers baseada em Estatística Observ 1 2 3 4 5

Exemplo de Detecção de Outliers baseada em Estatística Observ 1 2 3 4 5 6 7 8 X 1: Sist 154 136 191 125 133 125 93 X 2: Dias 108 90 54 89 93 77 43 n n n n 9 10 11 12 13 14 15 80 132 10 7 142 115 114 120 141 50 125 76 96 74 79 71 90 Nível de significância ά=0, 05 Primeiro encontrou as médias e os desvio padrões iguais à: u x 1 = 120, 6 e s 1 = 20, 9 u x 2 = 81, 0 e s 2 = 21, 7 Com n=15, removemos x 9 por ter tido o menor valor de P=0, 0003 Agora temos n=14 e remove x 7 com P=0, 0264 Agora temos n=13 e não há mais outliers detectados. Neste momento, temos as seguintes médias e desvios: u x 1 = 121, 8 e s 1 = 20, 8 / x 2 = 80, 5 e s 2 = 16, 3 Valores corretos: x 7=(93, 54) e x 9=(132, 94) 24/5/2001 12: 00

Detecção de Outliers baseada em Distância n Origem → Resolver limitações do estatístico n

Detecção de Outliers baseada em Distância n Origem → Resolver limitações do estatístico n O que é um outlier baseado em distância? u um objeto ‘o’ num conjunto de dados ‘S’ u é um outlier baseado em distância DB(p, d), u se pelo menos uma fração ‘p’ de objetos em ‘S’ u se encontram a uma distância maior que ‘d’ de ‘o’ n Exemplo com pontos no plano 24/5/2001 12: 00

Detecção de Outliers baseada em Distância n n Estatística X Distância Conceito de distância

Detecção de Outliers baseada em Distância n n Estatística X Distância Conceito de distância ≠ Testes estatísticos vantagens: u evita suposição sobre distribuição dos dados u custo computacional menor u em muitos casos: t outlier baseado em distância outlier estatístico 24/5/2001 12: 00 n Alguns algoritmos: u Index-based u Nested-loop u Cell-based n desvantagens u Escolha dos parâmetros ‘p’ e ‘d’.

Detecção de Outliers baseada em Desvio n n Nem estatística, nem distância Outliers Desvios

Detecção de Outliers baseada em Desvio n n Nem estatística, nem distância Outliers Desvios Identifica outliers a partir das características do grupo 2 técnicas para detecção: u Técnica de exceção sequencial u Técnica de cubo de dados OLAP 24/5/2001 12: 00

Técnica de Exceção Sequencial n n Compara objetos sequencialmente num conjunto (Exemplo: humanos na

Técnica de Exceção Sequencial n n Compara objetos sequencialmente num conjunto (Exemplo: humanos na distinção de objetos) Alguns termos chaves: u Conjunto de Exceções t u subconjunto mínimo de objetos cuja remoção resulta na maior redução de dissimilaridade Função de dissimilaridade Ex: para dados numéricos variância t Ex: para dados categóricos diferença entre proporções de objetos que se casam com padrão simbólico com variáveis livres (aa**b) t 24/5/2001 12: 00

Técnica de Exceção Sequencial n Termos Chaves: (Cont. ) u Função de Cardinalidade →

Técnica de Exceção Sequencial n Termos Chaves: (Cont. ) u Função de Cardinalidade → No de objetos u Fator de suavização t mede redução de dissimilaridade por exclusão de subconjuntos, normalizado pelo número de elementos t Conjunto com maior fator de suavização = Conjunto de exceções 24/5/2001 12: 00

Técnica de Exceção Sequencial n Funcionamento da técnica n Pode a ordem dos subconjuntos

Técnica de Exceção Sequencial n Funcionamento da técnica n Pode a ordem dos subconjuntos na sequência afetar o resultado ? 24/5/2001 12: 00

Exploração Baseada em Descoberta Modelo usando o cubo de dados n O especialista é

Exploração Baseada em Descoberta Modelo usando o cubo de dados n O especialista é vai procurar por anomalias nos dados guiado por indicadores de exceções pré-computados n Modelo estatístico usado para computar o valor esperado do dado n Uso de ferramentas OLAP n 24/5/2001 12: 00

O Cubo de Dados Dimensões n Hierarquia n Operações OLAP u Drill down u

O Cubo de Dados Dimensões n Hierarquia n Operações OLAP u Drill down u Roll up u Slice n 24/5/2001 12: 00

Definindo Exceções em Cubos n n Exceções são, intuitivamente, dados que nos surpreendem Como

Definindo Exceções em Cubos n n Exceções são, intuitivamente, dados que nos surpreendem Como medir a ‘surpresa’? u Self. Exp t Valor relativo ao seu próprio nível u In. Exp t Valor relativo ao drill-down em todos as dimensões u Path. Exp t Um In. Exp relativo a um determinada dimensão 24/5/2001 12: 00

Exemplo 24/5/2001 12: 00

Exemplo 24/5/2001 12: 00

Exemplo 24/5/2001 12: 00

Exemplo 24/5/2001 12: 00

Exemplo 24/5/2001 12: 00

Exemplo 24/5/2001 12: 00

Exemplo 24/5/2001 12: 00

Exemplo 24/5/2001 12: 00

Exceções em Cubos: a qual granularidade? Quanto menor a granularidade, mais fácil será achar

Exceções em Cubos: a qual granularidade? Quanto menor a granularidade, mais fácil será achar uma(s) exceção(ões) n Uma exceção pode ser considerada uma exceção por um group-by e não ser considerada por outro group-by u Exemplo n 24/5/2001 12: 00

Cálculo do Valor Esperado O valor esperado é calculado levando em conta a contribuição

Cálculo do Valor Esperado O valor esperado é calculado levando em conta a contribuição dos vários níveis de group-by n Exemplo: n ŷijk = f(γ, γi. A, γj. B, γk. C, γij. AB, γjk. BC, γik. AC) u yijk é uma exceção se: t (yijk – ŷijk)/ ijk > ( = 2. 5) u Por que o valor de é 2. 5? u Qual o valor de ijk? u 24/5/2001 12: 00

Cálculo do Valor Esperado n A função f() pode ser das seguintes formas: u

Cálculo do Valor Esperado n A função f() pode ser das seguintes formas: u Aditiva t u u Multiplicativa t Outras mais complexas 24/5/2001 12: 00

Cálculo do Valor Esperado n O valor de ŷijk é: u n (γ +

Cálculo do Valor Esperado n O valor de ŷijk é: u n (γ + γi. A + γj. B + γk. C + γij. AB + γjk. BC + γik. AC) ŷijk = e Para o caso de um cubo com 3 dimensões, usando a forma aditiva de f() 24/5/2001 12: 00

Cálculo do Valor de cada γ Primeiro calcula o nível específico u γ =

Cálculo do Valor de cada γ Primeiro calcula o nível específico u γ = l+. . . + n Para cada dimensão, suba um nível , calcule o valor de γ como sendo: u γir. Ar = l+. . . +ir+. . . + - γ n Para os níveis acima, faça o mesmo, da forma u γiris. Ar. As = l+. . . +ir+. . . + is+. . . + - γir. Ar - γis. As - γ n 24/5/2001 12: 00

Exemplificando A B C A, B A, C B, C A, B, C 24/5/2001

Exemplificando A B C A, B A, C B, C A, B, C 24/5/2001 12: 00

Cálculo do valor de ijk A fórmula de ijk é: 2 u ijk =

Cálculo do valor de ijk A fórmula de ijk é: 2 u ijk = (ŷijk) n onde tem que satisfazer a equação (baseada no princípio da máxima verossimilhança): u (yijk - ŷijk)2 log ŷijk 0 (ŷijk) n 24/5/2001 12: 00

Estimando os Coeficientes do Modelo (γ) n n n Baseada na média u Ex:

Estimando os Coeficientes do Modelo (γ) n n n Baseada na média u Ex: Formar uma linha de regressão e remover da consideração 10% dos pontos que se encontram mais longe da mesma Baseada em média “emagrecida” Baseada na mediana u Mais robusta, pois é melhor na presença de outliers muito grandes u Alto custo computacional → muitas vezes impraticável 24/5/2001 12: 00

Exemplo 24/5/2001 12: 00

Exemplo 24/5/2001 12: 00

Outros Tipos de Modelo Hierárquico u A idéia é calcular o valor esperado baseado

Outros Tipos de Modelo Hierárquico u A idéia é calcular o valor esperado baseado na sua posíção e parentes na hierarquia n Série de Regressão Temporal u Baseado na idéia que as células tem um atributo temporal u É possível encontrar padrões em períodos n 24/5/2001 12: 00

Outros métodos Valor extremo no conjunto n Clustering multi-dimensional n Regressão em dimensões contínuas

Outros métodos Valor extremo no conjunto n Clustering multi-dimensional n Regressão em dimensões contínuas n Efeitos combinados de dimensões categóricas n 24/5/2001 12: 00

Referências n n n Data Mining: concepts and techniques, de Han, J. & Kamber,

Referências n n n Data Mining: concepts and techniques, de Han, J. & Kamber, M. , 2001, Morgan Kaufmann Data Mining: practical machine learning tools and techniques with Java implementations, de Witten, I. H. & Frank, E. , 2000, Morgan Kaufmann Discovery-driven Exploration of OLAP Data Cubes, de Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, IBM Research Division 24/5/2001 12: 00