Eksploracja danych Data Mining Tadeusz Morzy Instytut Informatyki

  • Slides: 28
Download presentation
Eksploracja danych Data Mining Tadeusz Morzy Instytut Informatyki Politechnika Poznańska

Eksploracja danych Data Mining Tadeusz Morzy Instytut Informatyki Politechnika Poznańska

Plan wystąpienia § Wprowadzenie: Powódź danych § Eksploracja danych – przykłady zastosowań § Eksploracja

Plan wystąpienia § Wprowadzenie: Powódź danych § Eksploracja danych – przykłady zastosowań § Eksploracja danych – metody eksploracji danych 2

Skąd się biorą dane ? § Dane są generowane przez: § banki, ubezpieczalnie, firmy

Skąd się biorą dane ? § Dane są generowane przez: § banki, ubezpieczalnie, firmy sieci handlowe, szpitale § Dane eksperymentalne: astronomia, biologia, etc § Web, tekst, i e-handel 3

Przykłady (1) § Very Long Baseline Interferometry (VLBI) posiada 16 teleskopów, z których każdy

Przykłady (1) § Very Long Baseline Interferometry (VLBI) posiada 16 teleskopów, z których każdy produkuje 1 Gigabit/second danych astronomicznych w czasie 25 -dniowej sesji obserwacyjnej § AT&T obsługuje miliardy połączeń dziennie § Danych jest tyle, że nie można ich wszystkich zapamiętać – analiza tych danych jest wykonywana “on the fly” ( „w locie”) 4

Przykłady (2) § sieć sprzedaży Wal-Mart gromadzi dziennie dane dotyczące ponad 20 milionów transakcji

Przykłady (2) § sieć sprzedaży Wal-Mart gromadzi dziennie dane dotyczące ponad 20 milionów transakcji § koncern Mobil Oil rozwija magazyn danych pozwalający na przechowywanie ponad 100 terabajtów danych o wydobyciu ropy naftowej § system satelitarnej obserwacji EOS zbudowany przez NASA generuje w każdej godzinie dziesiątki gigabajtów danych § niewielkie supermarkety rejestrują codziennie sprzedaż tysięcy artykułów 5

Największe systemy baz danych 2003 § Komercyjne bazy danych: § Winter Corp. 2003 Survey:

Największe systemy baz danych 2003 § Komercyjne bazy danych: § Winter Corp. 2003 Survey: France Telecom posiada najwiekszą bazę danych, ~30 TB; AT&T ~ 26 TB § Web § Alexa internet archiwum: 7 -letnie dane, 500 TB § Google wyszukuje 4+ miliarda stron, tysiące TB § IBM Web. Fountain, 160 TB (2003) § Internet archiwum (www. archive. org), ~ 300 TB 6

5 milionów TB wygenerowanych w 2002 § UC Berkeley 2003 szacuje: 5 exabytes (5

5 milionów TB wygenerowanych w 2002 § UC Berkeley 2003 szacuje: 5 exabytes (5 million terabytes) nowych danych wygenerowanych w 2002. www. sims. berkeley. edu/research/projects/how-much-info-2003/ § USA produkuje ~40% danych światowych 7

Przyrost danych § Podwojenie danych w stosunku do roku 1999 (~30% przyrost roczny) §

Przyrost danych § Podwojenie danych w stosunku do roku 1999 (~30% przyrost roczny) § Niewielka część danych jest przeglądana i analizowana, oraz wykorzystywana w praktyce!!! § Niezbędna jest analiza przechowywanych danych – inaczej przechowywanie takich wolumenów danych nie ma najmniejszego sensu § Dziedziną, która zajmuje się analizą i odkrywaniem zależności, reguł, wzorców w BD i DW jest – eksploracja danych (ang. data mining) 8

Plan wystąpienia § Wprowadzenie: Powódź danych § Eksploracja danych – przykłady zastosowań § Eksploracja

Plan wystąpienia § Wprowadzenie: Powódź danych § Eksploracja danych – przykłady zastosowań § Eksploracja danych - metody eksploracji danych 9

Dziedziny zastosowań § Nauka § astronomia, bioinformatyka, przemysł farmaceutyczny, … § Biznes § reklama,

Dziedziny zastosowań § Nauka § astronomia, bioinformatyka, przemysł farmaceutyczny, … § Biznes § reklama, CRM (Customer Relationship management), inwestycje, finanse, ubezpieczenia, telekomunikacja, medycyna, … § Web: § Przeglądarki (Google), handel elektroniczny – Amazon, e. Bay, Allegro § Administracja § wykrywanie przestępstw, wykrywanie nadużyć podatkowych, etc. 10

Dziedziny zastosowań § Handel i marketing § identyfikacja „profilu klienta” dla przewidywania, którzy klienci

Dziedziny zastosowań § Handel i marketing § identyfikacja „profilu klienta” dla przewidywania, którzy klienci odpowiedzą na marketing korespondencyjny, § wykrywanie schematów zakupów i planowanie lokalizacji artykułów § Finanse i bankowość § identyfikacja schematów wykorzystywania kradzionych kart kredytowych § przewidywanie dochodowości portfela akcji, znajdowanie korelacji wśród wskaźników finansowych § Nauka i technologia § Odkrywanie nowych obiektów (astronomia) § wykrywanie schematów alarmowych w sieciach telekomunikacyjnych 11

Udzielanie kredytów: § Sytuacja: klient występuje o kredyt § Zadanie: Czy bank powinien udzielić

Udzielanie kredytów: § Sytuacja: klient występuje o kredyt § Zadanie: Czy bank powinien udzielić kredytu? § Uwaga: klienci, którzy posiadają najlepsza wiarygodność kredytową nie potrzebują kredytów; ci którzy potrzebują kredytów najczęściej posiadają najgorszą wiarygodność kredytową. Najlepszymi klientami banków są klienci ulokowani pośrodku. Jak ich zidentyfikować? ? ? 12

Genomic Microarrays Dany jest zbiór danych opisujących pacjentów szpitala. Czy potrafimy w oparciu o

Genomic Microarrays Dany jest zbiór danych opisujących pacjentów szpitala. Czy potrafimy w oparciu o ten zbiór danych: § Poprawnie zdiagnozować pacjenta (określić chorobę)? § Przewidzieć poprawnie wynik terapii? § Zaproponować najlepszą terapię? 13

Przykład: ALL vs AML § 38 przypadków treningowych, 34 testy § 2 klasy: Acute

Przykład: ALL vs AML § 38 przypadków treningowych, 34 testy § 2 klasy: Acute Lymphoblastic Leukemia (ALL) vs Acute Myeloid Leukemia (AML) § W oparciu o dane treningowe opracowano model diagnostyczny ALL AML Wynik testu: 33/34 poprawnie, 1 błąd 14

Plan wystąpienia § Wprowadzenie: Powódź danych § Eksploracja danych – przykłady zastosowań § Eksploracja

Plan wystąpienia § Wprowadzenie: Powódź danych § Eksploracja danych – przykłady zastosowań § Eksploracja danych - metody eksploracji danych 15

Eksploracja danych § Eksploracja danych (Data Mining): zbiór technik automatycznego odkrywania nietrywialnych zależności i

Eksploracja danych § Eksploracja danych (Data Mining): zbiór technik automatycznego odkrywania nietrywialnych zależności i schematów (patterns) w dużych zbiorach danych (bazach danych) § Eksploracja danych (Data Mining) często nazywana jest również odkrywaniem wiedzy w bazach danych (Knowledge Discovery in Databases) lub eksploracją baz danych (Database Mining) DATA MINING DANE 16 SCHEMATY

Eksploracja danych Increasing potential to support business decisions Making Decisions Data Presentation Visualization Data

Eksploracja danych Increasing potential to support business decisions Making Decisions Data Presentation Visualization Data Mining Information Discovery End User Business Analyst Data Exploration Statistical Analysis, Reporting Data Warehouses/Data Marts OLAP, MDA Data Sources Paper, Files, Database systems, OLTP, WWW 17 Data Analyst DBA

Metody eksploracji danych § klasyfikacja/regresja § grupowanie § odkrywanie sekwencji § odkrywanie charakterystyk §

Metody eksploracji danych § klasyfikacja/regresja § grupowanie § odkrywanie sekwencji § odkrywanie charakterystyk § analiza przebiegów czasowych § odkrywanie asocjacji § wykrywanie zmian i odchyleń § analiza połączeń (eksploracja Web’u) 18

Metody eksploracji: klasyfikacja Metoda analizy danych, której celem jest predykcja wartości określonego atrybutu w

Metody eksploracji: klasyfikacja Metoda analizy danych, której celem jest predykcja wartości określonego atrybutu w oparciu o pewien zbiór danych treningowych ? ? ? 19 Wiele technik: statystyka, drzewa decyzyjne, sieci neuronowe, . . .

Metody eksploracji: klasyfikacja § przykład klasyfikacji: automatyczny podział kierowców na powodujących i nie powodujących

Metody eksploracji: klasyfikacja § przykład klasyfikacji: automatyczny podział kierowców na powodujących i nie powodujących wypadków drogowych: § kierowcy prowadzący czerwone pojazdy o pojemności 650 ccm powodują wypadki drogowe § kierowcy, którzy posiadają prawo jazdy ponad 3 lata lub jeżdżą niebieskimi samochodami nie powodują wypadków drogowych § zastosowania klasyfikacji: § diagnostyka medyczna § rozpoznawanie trendów na rynkach finansowych § automatyczne rozpoznawanie obrazów § przydział kredytów bankowych 20

Metody eksploracji: grupowanie Znajdź „naturalne” pogrupowanie obiektów w oparciu o ich wartości • zastosowania

Metody eksploracji: grupowanie Znajdź „naturalne” pogrupowanie obiektów w oparciu o ich wartości • zastosowania grupowania: - grupowanie dokumentów - grupowanie klientów - segmentacja rynku 21

Metody eksploracji: odkrywanie asocjacji § odkrywanie asocjacji: znajdowanie związków pomiędzy występowaniem grup elementów w

Metody eksploracji: odkrywanie asocjacji § odkrywanie asocjacji: znajdowanie związków pomiędzy występowaniem grup elementów w zbiorach danych § przykłady asocjacji: § klienci, którzy kupują pieluszki, kupują również piwo § klienci, którzy kupują chleb, masło i ser, kupują również wodę mineralną i ketchup § zastosowania odkrytych asocjacji: § planowanie kampanii promocyjnych § planowanie rozmieszczenia stoisk sprzedaży w supermarketach 22

Metody eksploracji: odkrywanie wzorców sekwencji § odkrywanie wzorców sekwencji: znajdowanie najczęściej występujących sekwencji elementów

Metody eksploracji: odkrywanie wzorców sekwencji § odkrywanie wzorców sekwencji: znajdowanie najczęściej występujących sekwencji elementów § przykład odkrywania wzorców sekwencji: § klienci, którzy kupili farbę emulsyjną, kupią w najbliższym czasie pędzel płaski § kurs akcji BPH, który podczas ostatnich trzech sesji wzrósł o 0. 5%, 0. 9%, 0. 1%, na następnej sesji spadnie o 0. 5% § zastosowania odkrytych wzorców sekwencji: § planowanie inwestycji giełdowych § przewidywanie sprzedaży § znajdowanie skutecznej terapii 23

Metody eksploracji: odkrywanie charakterystyk § odkrywanie charakterystyk: znajdowanie zwięzłych opisów (charakterystyk) podanego zbioru danych

Metody eksploracji: odkrywanie charakterystyk § odkrywanie charakterystyk: znajdowanie zwięzłych opisów (charakterystyk) podanego zbioru danych § przykład odkrywania charakterystyk: opis pacjentów chorujących na anginę § pacjenci chorujący na anginę cechują się temperaturą ciała większą niż 37. 5 C, bólem gardła, osłabieniem organizmu § zastosowania odkrywania charakterystyk: § znajdowanie zależności funkcyjnych pomiędzy zmiennymi § określanie profilu klienta - zbioru cech charakterystycznych 24

Problemy odkrywania wiedzy § Problemy odkrywania wiedzy: § w dużych bazach danych mogą zostać

Problemy odkrywania wiedzy § Problemy odkrywania wiedzy: § w dużych bazach danych mogą zostać odkryte tysiące reguł § człowiek nie potrafi rozumieć i przeanalizować bardzo dużych zbiorów informacji § różni użytkownicy systemu bazy danych są zainteresowani różnymi typami reguł z różnych relacji § odkrywanie reguł jest procesem bardzo złożonym obliczeniowo 25

Problemy odkrywania wiedzy § Rozwiązanie: § odkrywanie tylko części wszystkich możliwych reguł wskazanej przez

Problemy odkrywania wiedzy § Rozwiązanie: § odkrywanie tylko części wszystkich możliwych reguł wskazanej przez użytkownika przy pomocy kryteriów § tylko użytkownik potrafi ocenić poprawnie wartość odkrytej wiedzy § Jak zagwarantować poufność i ochronę danych osobistych w przypadku eksploracji danych? 26

Proces odkrywania wiedzy • użytkownik specyfikuje zapytanie regułowe - żądanie odszukania reguł spełniających określone

Proces odkrywania wiedzy • użytkownik specyfikuje zapytanie regułowe - żądanie odszukania reguł spełniających określone kryteria • system odkrywania wiedzy (Knowledge Discovery Management System) wykorzystuje algorytm generowania reguł dla znalezienia reguł spełniających kryteria użytkownika • odkryte reguły stanowią wynik wykonania zapytania • po otrzymaniu wyniku, użytkownik może zdecydować o zmianie kryteriów dla szukanych reguł i ponownie wyspecyfikować zapytanie regułowe użytkownik zapytanie regułowe odkryte reguły 27 KDDMS baza danych

Uwagi końcowe § Systemy baz danych – narzędzie do przechowywania danych § Hurtownie danych

Uwagi końcowe § Systemy baz danych – narzędzie do przechowywania danych § Hurtownie danych – narzędzie wspomagania podejmowania decyzji § Eksploracja danych – narzędzie do analizy zgromadzonych danych 28