Seminrio Minerao de Excees Erivan A Andrade eaacin

  • Slides: 42
Download presentation
Seminário Mineração de Exceções Erivan A. Andrade (eaa@cin. ufpe. br) Jacques Robin (jr@cin. ufpe.

Seminário Mineração de Exceções Erivan A. Andrade (eaa@cin. ufpe. br) Jacques Robin (jr@cin. ufpe. br) 1 UFPE-CIN 2002

Roteiro n Motivação n Métodos Baseados em Agrupamento n Métodos Baseados em Estatística n

Roteiro n Motivação n Métodos Baseados em Agrupamento n Métodos Baseados em Estatística n Métodos baseados em Distância n Métodos Baseados em Desvio n Conclusões n Referências 2 UFPE-CIN 2002

Motivação: definição n O que é outlier? Ø É uma observação, num conjunto de

Motivação: definição n O que é outlier? Ø É uma observação, num conjunto de dados, que é suficientemente dissimilar ou aberrante do restante dos dados para levantar suspeita de ser causado por um mecanismo diferenciado Ø Equivalente a exceções n Causa dos outliers: o que é esse mecanismo? Ø Erro de medida Ø Comportamento diferente do padrão Ø Dilema: “o ruído de uns é o sinal dos outros” n Mineração de outliers Ø Detecção e análise de outliers 3 UFPE-CIN 2002

Motivação: aplicações práticas 4 n Detecção de Fraudes n Comportamento de gastos de consumidores

Motivação: aplicações práticas 4 n Detecção de Fraudes n Comportamento de gastos de consumidores n Em análises médicas (resultados não esperados de tratamentos ) n Pesquisa farmacêutica n Marketing n Coaching (hey Felipão, Romário é um outlier! ) n Etc. UFPE-CIN 2002

Técnicas de Mineração de Exceções n Classes de técnicas: Ø Semi-automático: v Visualização Ø

Técnicas de Mineração de Exceções n Classes de técnicas: Ø Semi-automático: v Visualização Ø Automático v Baseados em Clustering v Baseado em Estatística v Baseado em Desvio v Baseado em Distância 5 UFPE-CIN 2002 n Características desejáveis Ø Escalável para alta dimensionalidade Ø Interpretabilidade dos resultados Ø Computacionalmente eficiente Ø Dá importância ao comportamento local dos dados Ø Ordenação dos outliers

Roteiro n Motivação n Métodos Baseados em Agrupamento n Métodos Baseados em Estatística n

Roteiro n Motivação n Métodos Baseados em Agrupamento n Métodos Baseados em Estatística n Métodos baseados em Distância n Métodos Baseados em Desvio n Conclusões n Referências 6 UFPE-CIN 2002

Mineração de exceção baseada em agrupamento n Idéia: Ø Formar grupos de dados Ø

Mineração de exceção baseada em agrupamento n Idéia: Ø Formar grupos de dados Ø Dados que não se encaixam em nenhum grupos são considerados exceções Inserir figura exemplo aqui 7 UFPE-CIN 2002

Mineração de exceção baseada em agrupamento n Limitações n Vantagens ØReutiliza vasto leque de

Mineração de exceção baseada em agrupamento n Limitações n Vantagens ØReutiliza vasto leque de métodos de agrupamentos ØNão requer conhecimento prévio de distribuição 8 UFPE-CIN 2002 ØO que se busca é otimizar os agrupamentos, não a detecção de exceções ØO que é exceção para uma configuração pode não ser para outra

Roteiro n Motivação n Métodos baseados em Agrupamento n Métodos baseados em Estatística n

Roteiro n Motivação n Métodos baseados em Agrupamento n Métodos baseados em Estatística n Métodos baseados em Distância n Métodos Baseados em Desvio n Conclusões n Referências 9 UFPE-CIN 2002

Mineração de Outliers Baseada em Estatística n Assume distribuição ou modelo probabilístico para um

Mineração de Outliers Baseada em Estatística n Assume distribuição ou modelo probabilístico para um conjunto de dados Ø Ex: distribuição normal n Usa Teste de discordância (TD) → identifica os outliers com respeito ao modelo escolhido Ø Se um objeto for significativamente maior ou menor que o modelo escolhido ele é uma exceção n O TD examina 2 hipóteses: Ø Uma hipótese de trabalho Ø Uma hipótese alternativa 10 UFPE-CIN 2002

Mineração de Outliers Baseada em Estatística n Vantagens: n Limitações: Ø Pode ser avaliado

Mineração de Outliers Baseada em Estatística n Vantagens: n Limitações: Ø Pode ser avaliado o nível de significância de uma exceção Ø Usa métodos estatístico consolidados ao longo dos tempos Ø O modelo escolhido influencia a identificação dos Outliers Ø Testa aberração ao longo de apenas uma única dimensão Ø Dificuldade na escolha de uma distribuição 11 UFPE-CIN 2002

Roteiro n Motivação n Métodos baseados em Agrupamento n Métodos baseados em Estatística n

Roteiro n Motivação n Métodos baseados em Agrupamento n Métodos baseados em Estatística n Métodos Baseados em Desvio n Métodos baseados em Distância n Conclusões n Referências 12 UFPE-CIN 2002

Mineração de Outliers Baseada em Desvio n Não usa métodos estatísticos nem medidas de

Mineração de Outliers Baseada em Desvio n Não usa métodos estatísticos nem medidas de distância n Define exceção como pontos cujo valor desviam da maioria ao longo de algumas ou todas as dimensões n Exceções são equivalentes a Desvios de comportamento 13 UFPE-CIN 2002

Mineração de Outliers Baseada em Densidade de Distribuição Características n Divide o espaço de

Mineração de Outliers Baseada em Densidade de Distribuição Características n Divide o espaço de dados em classe equi-depth n Cada classe contém uma fração f=1/ dos registros n Diferentes localidades dos dados são densas com n n n 14 respeito a diferentes subconjuntos de atributos Observa a densidade de distribuição da projeção dos dados Gera projeções dos dados sobre k dimensões Identifica nessas projeções, regiões de densidade anormalmente baixa Pontos nessas regiões são considerados outliers Suporta dados com alta dimensionalidade UFPE-CIN 2002

Mineração de Outliers Baseada em Densidade de Distribuição Ideia 15 UFPE-CIN 2002

Mineração de Outliers Baseada em Densidade de Distribuição Ideia 15 UFPE-CIN 2002

Mineração de Outliers Baseada em Densidade de Distribuição n O número de pontos em

Mineração de Outliers Baseada em Densidade de Distribuição n O número de pontos em um cubo pode ser aproximando por uma distribuição normal e então: ØFração esperada ØDesvio padrão ØCoeficiente de dispersão de um cubo D v n(D) número de pontos em um cubo k-dimensional v N número de pontos no conjunto de dados Ø S(D)<0 indica cubos com numero de pontos significativamente abaixo do esperado 16 UFPE-CIN 2002

Mineração de Outliers Baseada em Densidade de Distribuição n Busca necessária para gerar as

Mineração de Outliers Baseada em Densidade de Distribuição n Busca necessária para gerar as projeções n Busca exaustiva: garante encontrar todas a exceções mas complexidade alta n Busca genética com função de seleção, crossover e mutação específica para o problema permite encontrar, a um custo muito menor, a maioria das exceções Comparativo de resultado 17 UFPE-CIN 2002

Mineração de Outliers em Cubos OLAP n Exploração dirigida a hipótese Ø O usuário

Mineração de Outliers em Cubos OLAP n Exploração dirigida a hipótese Ø O usuário interativamente busca por regiões de anomalias Ø As regiões de anomalias representam áreas de interesse Ø A busca das anomalias é feita com o uso das operações de cubo OLAP v Dril-down, roll-up, seleção n Problemas da exploração dirigida a hipótese Ø Espaço de busca muito grande Ø As anomalias podem estar em níveis inferiores ao ponto de partida da análise Ø Grande quantidade de agregados 18 UFPE-CIN 2002

Mineração de Outliers em Cubos OLAP n Exploração dirigida a descoberta Ø O usuário

Mineração de Outliers em Cubos OLAP n Exploração dirigida a descoberta Ø O usuário busca por anomalias guiado por indicadores pré-computados Ø Os indicadores permitem a observação de padrões anormais em qualquer nível de agregação Ø Muito útil, especialmente, para grande numero de dimensões Ø Um valor é uma exceção se ele difere significativamente do seu valor antecipado v Valor calculado por um modelo estatístico v Considera o contexto da posição da célula no cubo v Combina as tendências ao longo das diferentes dimensões a que uma célula pertence 19 UFPE-CIN 2002

Mineração de Outliers em Cubos OLAP n Exploração dirigida a descoberta Ø Definição de

Mineração de Outliers em Cubos OLAP n Exploração dirigida a descoberta Ø Definição de exceção (yijk – ŷijk)/ ijk > ( = 2. 5) Ø Cálculo do valor antecipado ŷijk (γ + γi. A + γj. B + γk. C + γij. AB + γjk. BC + γik. AC) ŷijk = e Ø Onde Ø γ = l+. . . + (média ao longo de todas as dimensões) Ø γir. Ar = l+. . . +ir+. . . + - γ(média ao longo de uma dimensão) Ø γi is. Ar. As = l+. . . +ir+. . . + is+. . . + - γir. Ar - γis. As – γ (Média ao longo de duas r dimensões) 20 UFPE-CIN 2002

Mineração de Outliers em Cubos OLAP n Exploração dirigida a descoberta Ø Equação iterativa

Mineração de Outliers em Cubos OLAP n Exploração dirigida a descoberta Ø Equação iterativa para cálculo do (desvio padrão) 2 ijk = (ŷijk) ØOnde é calculado por 21 (yijk - ŷijk)2 (ŷijk) log ŷijk UFPE-CIN 2002 log ŷijk 0

Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta n Os indicadores dão

Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta n Os indicadores dão o grau de surpresa do valor da célula n Os indicadores são 3: Ø Self. Exp: valor surpresa da célula em relação a outras células no mesmo nível de agregação Ø In. Exp: Grau de surpresa em algum nível abaixo desta célula Ø Path. Exp: grau de surpresa para cada caminho de drill -down a partir da célula. 22 UFPE-CIN 2002

Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) Destacar Exceções 23

Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) Destacar Exceções 23 UFPE-CIN 2002

Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) Exceção de Caminho

Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) Exceção de Caminho 24 UFPE-CIN 2002

Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) Drill-Down por produto

Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) Drill-Down por produto (Path. Exp) 25 UFPE-CIN 2002

Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) Drill-Drown para Diet-S

Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) Drill-Drown para Diet-S (In. Exp) 26 UFPE-CIN 2002

Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) 27 UFPE-CIN 2002

Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) 27 UFPE-CIN 2002

Roteiro n Motivação n Métodos baseados em Agrupamento n Métodos baseados em Estatística n

Roteiro n Motivação n Métodos baseados em Agrupamento n Métodos baseados em Estatística n Métodos Baseados em Desvio n Métodos baseados em Distância n Conclusões n Referências 28 UFPE-CIN 2002

Mineração de Outliers Baseada em Distância: Dk(p) n Busca Resolver limitações do estatístico n

Mineração de Outliers Baseada em Distância: Dk(p) n Busca Resolver limitações do estatístico n Um outlier é determinado baseado na distancia Dk(p) n Dk(p)= distância de p ao seu k-esimo vizinho n Evita suposição sobre distribuição dos dados n Menor custo computacional n Pode, ás vezes, convergir para os métodos estatísticos n Desvantagem ØNão é escalável para mais que 5 dimensões 29 UFPE-CIN 2002

Detecção de Outliers Baseada em Distâncias: Dk(p) Algoritmo Loop aninhado n Para cada ponto

Detecção de Outliers Baseada em Distâncias: Dk(p) Algoritmo Loop aninhado n Para cada ponto p no conjunto de dados calcula Dk(p) n Para calcular cada Dk(p) varre todos os dados n Mantém uma lista de k vizinhos mais próximo para cada ponto p n Os n pontos com maior valor de Dk(p) são os n outliers n Para melhorar a eficiência pode-se considerar blocos de pontos ao invés de pontos individuais 30 UFPE-CIN 2002

Detecção de Outliers Baseada em Distâncias: Dk(p) Algoritmo baseado em índice n O uso

Detecção de Outliers Baseada em Distâncias: Dk(p) Algoritmo baseado em índice n O uso de estruturas de índices espaciais pode diminuir substancialmente o calculo de distâncias (R*-tree, por exemplo) n É possível podar sub-arvores cujos nós não podem conter outlier ØA cada passo guarda-se os n outliers encontrados ØDnmin menor Dk entre os outlier ØDk(p)< Dnmin P não pode ser um outlier 31 UFPE-CIN 2002

Detecção de Outliers Baseada em Distâncias: Dk(p) Algoritmo Baseado em partições n Detecta os

Detecção de Outliers Baseada em Distâncias: Dk(p) Algoritmo Baseado em partições n Detecta os n outliers mais fortes Ø Os outliers são ordenados pela distância Dk(p) n Baseia se na distância dos vizinhos mais próximos n O conjunto de dados é divididos em partições por meio de algoritmos de agrupamento n Poda partições que não são candidatas a conter outlier Ø Acelera a identificação pois diminui a quantidade de pontos 32 UFPE-CIN 2002

Detecção de Outliers Baseada em Distâncias : Dk(p) Algoritmo Baseado em partições (passos) n

Detecção de Outliers Baseada em Distâncias : Dk(p) Algoritmo Baseado em partições (passos) n Gerar partições Ø Através de clustering n Calcular limites Dk para os pontos em cada partição Ø P. upper=max(Dk) e P. lower=min(Dk) dos pontos da partição P n Identificar partições candidatas a conter exceções Ø P. upper min. Dk. Dist=min{Pi. lower: 1 i l} Ø Pi. lower>Pj. lower>. . >Pl. lower e o número de pontos seja pelo menos n n Computar exceções com os pontos nas partições candidatas Ø P. neighbors denota as partições vizinhas de P a uma distância de P. upper 33 UFPE-CIN 2002

Detecção de Outliers Baseada em Distâncias : Dk(p) Algoritmo Baseado em partições (passos) O

Detecção de Outliers Baseada em Distâncias : Dk(p) Algoritmo Baseado em partições (passos) O número total de pontos a ser examinado para calcular outlier é o das partições candidatas+os de suas vizinhas 34 UFPE-CIN 2002

Detecção de Outliers Baseada em Distâncias : Dk(p) Algoritmo Baseado em partições 35 UFPE-CIN

Detecção de Outliers Baseada em Distâncias : Dk(p) Algoritmo Baseado em partições 35 UFPE-CIN 2002

Detecção de Outliers Baseada em Distâncias : Dk(p) Comparativo de desempenho 36 UFPE-CIN 2002

Detecção de Outliers Baseada em Distâncias : Dk(p) Comparativo de desempenho 36 UFPE-CIN 2002

Detecção de Outliers Baseada em Distâncias : Dk(p) Comparativo de desempenho 37 UFPE-CIN 2002

Detecção de Outliers Baseada em Distâncias : Dk(p) Comparativo de desempenho 37 UFPE-CIN 2002

Roteiro n Motivação n Métodos baseados em Agrupamento n Métodos baseados em Estatística n

Roteiro n Motivação n Métodos baseados em Agrupamento n Métodos baseados em Estatística n Métodos Baseados em Desvio n Métodos baseados em Distância n Conclusões n Referências 38 UFPE-CIN 2002

Conclusões n Mineração de exceções ØÉ de grande interesse ØÉ custosa computacionalmente, principalmente para

Conclusões n Mineração de exceções ØÉ de grande interesse ØÉ custosa computacionalmente, principalmente para grande quantidade de dimensões ØNecessita de métodos robustos 39 UFPE-CIN 2002

Referências n Data Mining: concepts and techniques, de Han, J. & Kamber, M. ,

Referências n Data Mining: concepts and techniques, de Han, J. & Kamber, M. , 2001, Morgan Kaufmann n Discovery-driven Exploration of OLAP Data Cubes, de Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, IBM Research Division n Efficient Algoritms for Mining Outliers from Data sets. Sridhar Ramaswamy, Rajeev Ratogi e Kyuseok Shim. 2000 n Outlier Detection for High Dimensional Data. Charu C. Aggarwal e Philip S. Yu. 2001 40 UFPE-CIN 2002

Visão de Outliers 41 UFPE-CIN 2002

Visão de Outliers 41 UFPE-CIN 2002

Comparativo: Força bruta x algorotimo Evolutivo 42 UFPE-CIN 2002

Comparativo: Força bruta x algorotimo Evolutivo 42 UFPE-CIN 2002