II EKSPLORACJA DANYCH Przygotowanie danych rodzaje danych nominalne

  • Slides: 13
Download presentation
II EKSPLORACJA DANYCH Przygotowanie danych: rodzaje danych • • • nominalne (nominal) kategoryczne (categorical)

II EKSPLORACJA DANYCH Przygotowanie danych: rodzaje danych • • • nominalne (nominal) kategoryczne (categorical) porządkowe (ordinal) interwałowe (interval) proporcjonalne (ratio)

II EKSPLORACJA DANYCH Przygotowanie danych: czyszczenie danych W bazach danych znajdują się informacje nieprawdziwe,

II EKSPLORACJA DANYCH Przygotowanie danych: czyszczenie danych W bazach danych znajdują się informacje nieprawdziwe, wprowadzone omyłkowo, zaszumione, itp. GIGO • pola, które są przestarzałe lub zbędne • rekordy z brakującymi wartościami, • punkty oddalone, odstające (outliers) • dane w formatach nie nadających się do przetwarzania • wartości niezgodne z zasadami lub ze zdrowym rozsądkiem

II EKSPLORACJA DANYCH Przygotowanie danych: czyszczenie danych Pola, w których zapisane informacje są przestarzałe

II EKSPLORACJA DANYCH Przygotowanie danych: czyszczenie danych Pola, w których zapisane informacje są przestarzałe lub zbędne

II EKSPLORACJA DANYCH Przygotowanie danych: uzupełnianie danych Baza danych może niewypełnionych pól: • •

II EKSPLORACJA DANYCH Przygotowanie danych: uzupełnianie danych Baza danych może niewypełnionych pól: • • zawierać dwa rodzaje brakujące dane (missing value) puste dane (empty value) Każdy z tych przypadków musi być inaczej potraktowany

II EKSPLORACJA DANYCH Przygotowanie danych: uzupełnianie danych Problem brakujących i pustych danych może zostać

II EKSPLORACJA DANYCH Przygotowanie danych: uzupełnianie danych Problem brakujących i pustych danych może zostać rozwiązany na wiele sposobów. Wbudowane w komercyjne programy moduły uzupełniania danych są łatwe do zastosowania. Jednak najważniejsze jest to, aby modelujący nie tylko znał wykorzystywaną metodę uzupełniania, jej ograniczenia i niebezpieczeństwa wynikające ze stosowania, ale również, aby mógł wpływać na nią i korygować proponowane rozwiązania.

II EKSPLORACJA DANYCH Przygotowanie danych: uzupełnianie danych Powody uzupełniania danych: • • techniki modelowania

II EKSPLORACJA DANYCH Przygotowanie danych: uzupełnianie danych Powody uzupełniania danych: • • techniki modelowania nie potrafią poradzić sobie z brakiem danych stosowanie automatycznych technik uzupełniania danych może prowadzić do zniekształcenia cech zbioru modelujący musi znać i kontrolować sposób uzupełniania danych większość automatycznych metod uzupełniania zbiorów gubi informację zawartą w brakujących danych

II EKSPLORACJA DANYCH Przygotowanie danych: uzupełnianie danych Uzupełnianie danych polega na znajdowaniu wielkości mających

II EKSPLORACJA DANYCH Przygotowanie danych: uzupełnianie danych Uzupełnianie danych polega na znajdowaniu wielkości mających zastąpić dane brakujące lub puste. Najlepszym estymatorem (wartością oszacowaną) jest estymator nieobciążony. Estymator jest nieobciążony, jeśli wartość oczekiwana rozkładu estymatora jest równa wartości szacowanego parametru, czyli dana którą mamy zamiar zastąpić brakującą lub pustą daną wprowadzi najmniej lub w ogóle nie wprowadzi zaburzenia do uzupełnianego zbioru. 1 2 3 x 5

II EKSPLORACJA DANYCH Przygotowanie danych: dane odstające Przez dane odstające rozumiemy pojedyncze lub bardzo

II EKSPLORACJA DANYCH Przygotowanie danych: dane odstające Przez dane odstające rozumiemy pojedyncze lub bardzo rzadko występujące dane, które lokują się bardzo, bardzo daleko od głównego zbioru analizowanej zmiennej. Czy to jest błąd?

II EKSPLORACJA DANYCH Przygotowanie danych: przekształcanie danych Ogromne zbiory danych charakteryzują się między innymi

II EKSPLORACJA DANYCH Przygotowanie danych: przekształcanie danych Ogromne zbiory danych charakteryzują się między innymi wielowymiarowością. Zgromadzone dane obejmują wielkości różnej natury. Przekształcanie danych jest procedurą wstępnej obróbki tych danych mającą na celu umożliwienie ich wzajemnego porównywania i prowadzenie dalszej analizy.

II EKSPLORACJA DANYCH Przygotowanie danych: przekształcanie danych Zmienne najczęściej mają bardzo różne zakresy. Dla

II EKSPLORACJA DANYCH Przygotowanie danych: przekształcanie danych Zmienne najczęściej mają bardzo różne zakresy. Dla pewnych algorytmów takie różnice przedziałów będą powodować nadmierny wpływ na wyniki. Aby tego uniknąć należy znormalizować dane: • • normalizacja min - max normalizacja soft max normalizacja z danymi odstającymi normalizacja Z-score (standaryzacja)

II EKSPLORACJA DANYCH Przygotowanie danych: normalizacja danych

II EKSPLORACJA DANYCH Przygotowanie danych: normalizacja danych

II EKSPLORACJA DANYCH Przygotowanie danych: normalizacja danych

II EKSPLORACJA DANYCH Przygotowanie danych: normalizacja danych

II EKSPLORACJA DANYCH Przygotowanie danych: normalizacja danych

II EKSPLORACJA DANYCH Przygotowanie danych: normalizacja danych