Minerao de Dados Mestrado de Informtica UCE Sistema

  • Slides: 11
Download presentation
Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão Paulo

Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão Paulo J Azevedo Departamento de Informática (pja@di. uminho. pt) Sistemas de informação cada vez mais sofisticados, envolvendo elevadas quantidades de dados, motivam o desenvolvimento de técnicas de Análise Exploratória de Dados para apoio à Decisão Mineração de Dados - Apresentação 1

Extracção de “conhecimento” (relações não triviais entre os dados) em bases de dados •

Extracção de “conhecimento” (relações não triviais entre os dados) em bases de dados • Uma possível definição (KDD): é a tarefa de desenvolver algoritmos (processos) para extrair estrutura dos dados. Esta estrutura pode ser descrita na sob a forma de padrões estatísticos, modelos ou mesmo relações. Encontrar esta estrutura pode ser visto como um processo de redução que permite uma sumarização dos dados. • Preparação e recolha dos dados (via Warehousing) • Data Mining (extracção das relações “escondidas” entre os dados recolhidos) • Pós-processamento e análise dos resultados • Visualização 2 Mineração de Dados - Apresentação

Perguntas representativas dos problemas a tratar: • • Mostrar as transacções que indiciam fraude

Perguntas representativas dos problemas a tratar: • • Mostrar as transacções que indiciam fraude ? Quais os indivíduos que tem tendência a comprar o produto X ? Quais os acessos ao servidor Y que tinham o intuito de “ataque” ? A que clientes (ou tipo de clientes) deveremos enviar o catálogo de Natal ? • Quais os grupos que melhor caracterizam os nosso clientes ? • Como organizar (e apresentar ao utilizador) o resultado de uma pesquisa muito genérica no Google ? • Considerando o historial de concessão de crédito da nossa instituição deverá ser considerada a proposta Z ? • Sabendo o conjunto de páginas visitados, que tipo de produto consultará o utilizador no resto da sua sessão ? • Que padrões de aminoácidos, de elevado “interesse” biológico, se pode encontrar numa dada família de proteínas ? • Como se comporta um dado conjunto de aminoácidos ao longo do tempo (i. e. ao longo de um determinado processo sofrido pela proteína)? Mineração de Dados - Apresentação 3

Case Study (1) • Web sites Adaptativos – Amazon: site sugere novos interesses com

Case Study (1) • Web sites Adaptativos – Amazon: site sugere novos interesses com base nas compras efectuadas. – Challange Netflix: http: //www. netflixprize. com • Email Spam filtering, • Códigos Postais, – Handwriting recognition. • Crédito à Habitação – Apoio à decisão na atribuição de crédito baseando no historial da instituição. 4 Mineração de Dados - Apresentação

Case Study (2) • DARPA challenge http: //www. darpa. mil/grandchallenge/index. asp – Conduzir um

Case Study (2) • DARPA challenge http: //www. darpa. mil/grandchallenge/index. asp – Conduzir um veiculo autónomo no deserto durante cerca de 200 km. • Detecção de fraude nas chamadas de telefones móveis • Detecção de “churning”http: //www. kdnuggets. com/news/2009/n 05/4 i. html (propensão para os clientes de uma empresa de comunicações/cartões de crédito/etc mudar de fornecedor) • Micro. Arrays http: //www. en. wikipedia. org/wiki/DNA_microarray – Análise de expressão de DNA (matriz de genes x amostras “situações”) 5 Mineração de Dados - Apresentação

A Estrutura extraída dos dados pode ter a forma de: • Padrões sequenciais, •

A Estrutura extraída dos dados pode ter a forma de: • Padrões sequenciais, • Motifs • Modelos de Previsão (árvores de decisão, redes neuronais, regras de decisão, etc), • Agrupamentos (clustering)/ Segmentação, • Regras de Associação. • Dependências entre dados (dependências funcionais, multivalor, etc) 6 Mineração de Dados - Apresentação

O processo KDD Data Mining Transformação Interpretação DATA Pré-processamento Selecção (reavaliação) Visualização 7 Mineração

O processo KDD Data Mining Transformação Interpretação DATA Pré-processamento Selecção (reavaliação) Visualização 7 Mineração de Dados - Apresentação

Algumas ferramentas usadas durante o curso: • • C 4. 5 R Cubist Caren

Algumas ferramentas usadas durante o curso: • • C 4. 5 R Cubist Caren Weka Microsoft SQL Server Outras… 8 Mineração de Dados - Apresentação

Principais temas a estudar… • Modelos de Previsão: árvores de decisão, classificação, previsão numérica,

Principais temas a estudar… • Modelos de Previsão: árvores de decisão, classificação, previsão numérica, simplificação de modelos, avaliação, composição de modelos, etc. • Regras de Associação: algoritmos, medidas de interesse, pruning, tratamento de numéricos, aplicações, etc. • Clustering: algoritmos, medidas de similaridade, tipos de clustering, etc. • Revisão de significância estatística 9 Mineração de Dados - Apresentação

Avaliação • Proposta: – Teste Teórico – Projectos Prático : • Exercícios semanais •

Avaliação • Proposta: – Teste Teórico – Projectos Prático : • Exercícios semanais • Projecto final com apresentação em grupo. – Nota = 0. 5 x projecto + 0. 5 x teste ? ? ? 10 Mineração de Dados - Apresentação

Biblio • Data Mining (Pratical Machine Learning tools and Techniques), Ian Witten & Eibe

Biblio • Data Mining (Pratical Machine Learning tools and Techniques), Ian Witten & Eibe Frank, Morgan Kaufmann Publishers. (WEKA book) • Data Mining, Concepts and Techniques, Han & Micheline Kamber, Jiawei Morgan Kaufmann Publishers. • Apontamentos das aulas Mineração de Dados - Apresentação 11