VI EKSPLORACJA DANYCH Zadania eksploracji danych klasyfikacja Klasyfikacja

  • Slides: 17
Download presentation
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Klasyfikacja polega na przewidywaniu wartości jednej zmiennej

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Klasyfikacja polega na przewidywaniu wartości jednej zmiennej na podstawie znanych wartości innych zmiennych. Przy zastosowaniu klasyfikacji zmienna, która będzie przewidywana jest kategoryczna.

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Metody klasyfikacji: Taksonomia fenetyczna: opiera się na

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Metody klasyfikacji: Taksonomia fenetyczna: opiera się na relacji podobieństwa pomiędzy klasyfikowanymi obiektami Taksonomia filogenetyczna: opiera się na relacji pokrewieństwa klasyfikowanych obiektów Taksonomia: (gr. taxis = układ, porządek + nomos = prawo) nauka o zasadach i metodach klasyfikowania, w szczególności o tworzeniu i opisywaniu jednostek systematycznych - taksonów

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja W zadaniach klasyfikacji nowemu rekordowi przypisuje się

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja W zadaniach klasyfikacji nowemu rekordowi przypisuje się kategorię najbardziej podobnego rekordu lub rekordów. Podobieństwo określone jest bliskością rekordów w wielowymiarowej przestrzeni. Do mierzenia podobieństwa konieczne są zdefiniowane miary odległości. Miara odległości lub funkcja odległości jest rzeczywistoliczbową funkcją d, taką, że dla dowolnych współrzędnych x, y i z: 1. d(x, y) ≥ 0 i d(x, y) = 0 wtedy i tylko wtedy, gdy x = y 2. d(x, y) = d(y, x) 3. d(x, z) ≤ d(x, y) + d(y, z)

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Metryka euklidesowa Naturalna, „zwykła” odległość punktów na

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Metryka euklidesowa Naturalna, „zwykła” odległość punktów na prostej, płaszczyźnie, czy też dowolnej euklidesowej przestrzeni Rn w przypadku, gdy n = 1 de(x, y) = │y - x│ w przypadku ogólnym, gdy x, y Rn oraz x = ( x 1, x 2, …, xn) i y = ( y 1, y 2, …, yn) de(x, y) = √(y 1 – x 1)2 + (y 2 – x 2)2 + … + (yn – xn)2

II EKSPLORACJA DANYCH Przygotowanie danych: przekształcanie danych

II EKSPLORACJA DANYCH Przygotowanie danych: przekształcanie danych

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja • normalizacja min - max X* =

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja • normalizacja min - max X* = X - Xmin / Xmax - Xmin • standaryzacja X* = X - Xśr / (X)

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Algorytm klasyfikacji: algorytm k - najbliższych sąsiadów

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Algorytm klasyfikacji: algorytm k - najbliższych sąsiadów • wybieramy nowy obiekt o wejściowym wektorze Y • analizujemy k najbliższych punktowi Y punktów ze zbioru danych treningowych (uczących) • przydzielamy ten obiekt do klasy, w której jest większość spośród tych k punktów

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Funkcja decyzyjna: Funkcja określająca metodę porównania wybranych

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Funkcja decyzyjna: Funkcja określająca metodę porównania wybranych rekordów (leżących najbliżej) do podjęcia decyzji klasyfikacyjnej dla nowego rekordu. Funkcją decyzyjną jest głosowanie. • głosowanie proste • głosowanie ważone

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Głosowanie proste • określ wartość k, czyli

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Głosowanie proste • określ wartość k, czyli liczbę rekordów decydujących o klasyfikacji nowego rekordu • porównaj nowy rekord z k najbliższymi sąsiadami, czyli z k rekordami mającymi najmniejszą odległość • określ liczby rekordów (należących do k) w poszczególnych klasach • przypisz nowy rekord do klasy dominującej

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja 0, 4 0, 1 0, 5 0,

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja 0, 4 0, 1 0, 5 0, 4 0, 2 0, 3

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Głosowanie ważone • określ wartość k, czyli

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Głosowanie ważone • określ wartość k, czyli liczbę rekordów decydujących o klasyfikacji nowego rekordu • porównaj nowy rekord z k najbliższymi sąsiadami, czyli z k rekordami mającymi najmniejszą odległość • oblicz wagi k rekordów w poszczególnych klasach • oblicz sumaryczne ważone głosy dla każdej klasy reprezentowanej przez k najbliższych sąsiadów • wybierz dla nowego rekordu klasę z dominującym głosem

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Wybór k – małe vs. duże Wybór

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Wybór k – małe vs. duże Wybór k – małe: klasyfikacja jest pod wpływem przypadkowych pojedynczych danych (punktów). Dla małej wielkości k algorytm zwróci wartość zmiennej celu najbliższej obserwacji. Proces może prowadzić do przeuczenia – zapamiętania całego zbioru uczącego. Wybór k – duże: dla dużej wartości k pojawia się skłonność do „wygładzania” odpowiedzi. Lokalne ciekawe zachowania wydobyte ze zbioru uczącego zostają utracone.

VI EKSPLORACJA DANYCH Zalety metody najbliższego sąsiedztwa: • metoda łatwo daje się zaprogramować, •

VI EKSPLORACJA DANYCH Zalety metody najbliższego sąsiedztwa: • metoda łatwo daje się zaprogramować, • metoda nie wymaga żadnej optymalizacji ani uczenia, • metoda bez problemów daje sobie radę z brakującymi danymi (wartościami), • przy niektórych problemach jej dokładność klasyfikacyjna jest bardzo dobra i wypada lepiej niż inne metody.

VI EKSPLORACJA DANYCH Wady metody najbliższego sąsiedztwa: • metoda należy do tzw. metod leniwych,

VI EKSPLORACJA DANYCH Wady metody najbliższego sąsiedztwa: • metoda należy do tzw. metod leniwych, tzn. nie jest tutaj budowany model, lecz zapamiętywane są wszystkie punkty zbioru danych, • jeśli zbiór danych jest duży, to przeszukiwanie go w celu znalezienia k najbliższych sąsiadów jest procesem czasochłonnym, • metoda wymaga przechowywania całego zbioru danych, o objętości np, • ograniczenia czasowe lub objętościowe uniemożliwiają zastosowanie tej metody online,

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Algorytm klasyfikacji: algorytm k - najbliższych sąsiadów

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Algorytm klasyfikacji: algorytm k - najbliższych sąsiadów Algorytm k – najbliższych sąsiadów może być również stosowany do szacowania i przewidywania. Uśrednianie lokalnie ważone – metoda szacuje zmienną celu jako średnią ważoną dla k najbliższych sąsiadów wg. wzoru: ynowy = Σi w i yi Σi w i gdzie wi = 1/ odległość2