TESTY NIEPARAMETRYCZNE Zastosowanie statystyki w bioinynierii wiczenia 2
TESTY NIEPARAMETRYCZNE Zastosowanie statystyki w bioinżynierii Ćwiczenia 2 Dr Wioleta Drobik-Czwarno
DANE TESTOWE AIRQUALITY Pomiary prowadzone jednorazowo w ciągu dnia (Day) Ozone – średnie stężenie ozonu w powietrzu (ppb) Solar R – promieniowanie słoneczne Wind – siła wiatru (mph) Temp – temperatura (F) Month – miesiące (od maja – 5 do września – 9)
DANE TESTOWE TITANIC Dane pasażerów z katastrofy Titanica - najważniejsze kolumny: • pclass – klasa jaką podróżował pasażer • survived – informacja czy pasażer przeżył katastrofę • sex – płeć pasażera • age - wiek
DANE TESTOWE PRZECIWCIAŁA Czy szczepienie spowodowało wzrost liczby przeciwciał? Dane od 8 zwierząt - pomiar przed i po szczepieniu
TESTY NIEPARAMETRYCZNE Testy nieparametryczne umożliwiają analizę małych prób, szczególnie pochodzących z nieznanego rozkładu � W wielu przypadkach przy próbach o N > 100 możemy stosować testy parametryczne mimo nie spełnionych założeń co do rozkładu zmiennej! Kiedy stosować testy nieparametryczne? Założenia do ich odpowiednika parametrycznego nie są spełnione � Nie pozwala na to charakter zmiennej zależnej � Opierają się na rangach obserwacji, a nie danych wyjściowych Dotyczą rozkładu cechy � H 0: Próby pochodzą z populacji o tym samym (lub założonym) rozkładzie
TESTY NIEPARAMETRYCZNE Łatwość wykonania obliczeń Łatwość interpretacji wyników Liczba założeń do spełnienia Moc (czułość testu)
RANGOWANIE Rangowanie obserwacji polega na uszeregowaniu wartości od najmniejszych do największych oraz przypisaniu im kolejnych rang zaczynając od 1 Po uporządkowaniu Rangi 2, 0 1 3, 0 2 4, 5 3 2, 0 4, 5 4, 0 4, 5 5, 0 4, 5 6 5, 0 7 Oceny 3, 5 3, 0 Rangi wiązane: Dla wartości powtórzonych n razy wyciągana jest średnia arytmetyczna z n sąsiednich rang
TEST SERII DLA JEDNEJ PRÓBY Zwany testem serii Walda-Wolfowitza – sprawdzenie czy wyniki eksperymentu spełniają postulat losowości próby � Dla rozpatrywanego szeregu statystycznego wyznaczamy medianę (Me) � Elementom próby (nieuporządkowanym!) przypisujemy symbol A lub B A gdy xi > Me B gdy xi > Me Elementów xi = Me nie rozpatrujemy � Serie to podciągi złożone z jednakowych symboli � Wartością empiryczną testu jest stwierdzona liczba serii � Hipoteza zerowa: dobór obserwacji do próby jest losowy
TEST SERII DLA JEDNEJ PRÓBY SPSS: Analiza > Testy nieparametryczne > Testy tradycyjne > Test serii Testowana zmienna Przyporządkowanie do serii względem mediany Dobór obserwacji nie jest losowy – nie uwzględniliśmy podziału na miesiące!
TEST DWUMIANOWY Testowana zmienna Sprawdzamy czy proporcja obserwacji w populacji jest zgodna z założoną SPSS: Analiza > Testy nieparametryczne > Testy tradycyjne > Dwumianowy Założona proporcja
TESTY CHI-KWADRAT Zgodność z rozkładem � Próba jednowymiarowa � H 0: Rozkład jest zgodny z teoretycznym Niezależność stochastyczna � Próba dwuwymiarowa � H 0: Cechy są niezależne
CHI-KWADRAT ZGODNOŚĆ Z ROZKŁADEM SPSS: Analiza > Testy nieparametryczne > Testy tradycyjne > Chi-kwadrat Testowana zmienna Rozkład oczekiwany 1: 1
CHI-KWADRAT ZGODNOŚĆ Z ROZKŁADEM H 0: Rozkład osób, które przeżyły katastrofę Titanica do tych którzy zginęli jest równa 1: 1 W tabeli częstości znaczne różnice w liczebnościach obserwowanych i oczekiwanych Istotność: p < 0. 001 Wniosek: Wysoko istotnie odrzucamy hipotezę zerową. Proporcja osób które zginęły do tych, które przeżyły nie jest równa 1: 1
TEST CHI-KWADRAT NA NIEZALEŻNOŚĆ SPSS: Analiza > Statystyka opisowa > Tabele krzyżowe
TEST CHI-KWADRAT NA NIEZALEŻNOŚĆ Tabela krzyżowa Wartości empiryczne testu i istotność Siła zależności – współczynniki: phi Yule’a – dla tabel 2 x 2 � kontyngencji (C) – stosujemy dla tabel symetrycznych, większych niż 2 x 2 (wrażliwy na liczbę kolumn i wierszy) � V Kramera – dowolny rozmiar tabeli, bierze pod uwagę liczbę wierszy i kolumn �
TEST NORMALNOŚCI ROZKŁADU Testy do sprawdzania normalności rozkładu: � test Shapiro-Wilka Jest uważany za najlepszy test normalności Czuły na odstępstwa od normalności rozkładu Uwaga! Ponieważ ANOVA i regresja liniowa są dość odporne na niewielkie odstępstwa od normalności, negatywny wynik testu nie oznacza jednoznacznego zakazu ich przeprowadzania Hipoteza zerowa: Cecha ma rozkład normalny � test Kołmogorowa Najlepiej sprawdza się dla dużych prób (N > 50)
TEST SHAPIRO-WILKA H 0: Zgodność z rozkładem normalnym SPSS: Analiza > Opis statystyczny > Eksploracja > Wykresy normalności z testami gdzie a. N, i są wartościami stałymi (odczytywanymi z tablic), zależnymi od wielkości próby (N) oraz numeru pary w uporządkowanej próbie
PRÓBY ZALEŻNE Odpowiedniki testu t-studenta w dwóch próbach zależnych (sparowanych): � Test znaków � Test Wilcoxona Próby zależne czy niezależne? ten sam osobnik znajduje się w jednej i drugiej grupie � próby są zawsze równoliczne �
TEST ZNAKÓW Zakładamy że: � N+ oznacza liczbę par w których yi < xi � N 0 oznacza liczbę par w których yi = xi � N- oznacza liczbę par w których yi > xi N+ podlega rozkładowi dwumianowemu z parametrem (n-N 0) oraz prawdopodobieństwem równym 0. 5 Umożliwia bezpośrednie wyznaczenie prawdopodobieństwa testowego Hipoteza zerowa: N+ i N- są wartościami zmiennych losowych o tych samych wymiarach. Test nie bierze pod uwagę jak duża jest różnica w dwóch grupach (przed i po) – jedynie znak różnicy
TEST ZNAKÓW Testowane zmienne Wybór testu Otrzymujemy dokładne prawdopodobieństwo testowe (dla innych testów podawane jest w większości prawdopodobieństwo asymptotyczne)
TEST RANGOWANYCH ZNAKÓW WILCOXONA Wymaga minimum 6 obserwacji w próbie Zmienna zależna mierzona na skali porządkowej lub ilościowej Obliczamy: 1. 2. 3. Różnice (d) między parami w dwóch próbach – pomiar 1 i 2 nadajemy rangi wartościom bezwzględnym różnic wartość empiryczna testu - oddzielnie sumujemy wartości bezwzględne różnić rang dodatnich oraz ujemnych, a następnie wybieramy mniejszą wartość – jest wartość empiryczna testu
TEST RANGOWANYCH ZNAKÓW WILCOXONA Czy szczepienie spowodowało istotny wzrost liczby przeciwciał? zbiór danych: przeciwciala. xls przed po 2, 2 2, 15 2, 4 2, 25 1, 6 1, 78 1, 9 2, 03 1, 6 1, 8 1, 9 2, 05 2, 3 2, 11 2, 22 Wartości w próbie nie powinny się w dużym stopniu powtarzać
Zmienne do analizy -Dokładne … - zmiana metody obliczania prawdopodobieństwa błędu - Opcje – statystyki opisowe oraz braki danych Wybieramy typ testu SPSS: Analiza > Testy nieparametryczne > Testy tradycyjne > Dwie próby zależne
PRÓBY NIEZALEŻNE Odpowiedniki testu t-studenta w dwóch próbach niezależnych (niesparowanych): � test serii Walda-Wolfowitza � test U Manna-Whitneya � test Kołmogorowa-Smirnowa Więcej niż dwie próby niezależne � Test Kruskalla-Wallisa Uwaga! Dla licznych prób można wykorzystać testy parametryczne, nawet jeżeli rozkład z jakiego pochodzą odbiega od normalnego!
TEST SERII DLA DWÓCH PRÓB Sortujemy próby łącznie od najmniejszej do największej, oznaczając wartości z próby pierwszej literą A, a z próby drugiej literą B � Usuwamy jednakowe wartości jeżeli należą do różnych prób! W utworzonym ciągu sprawdzamy liczbę serii, którą tworzy ciąg jednakowych oznaczeń Serie to podciągi złożone z jednakowych symboli Wartością empiryczną testu jest stwierdzona liczba serii
TEST SERII DLA DWÓCH PRÓB SPSS: Analiza > Testy nieparametryczne > Testy tradycyjne > Dwie próby niezależne Ustawiamy zmienne Wybieramy test serii
TEST U MANNA-WHITNEYA Najmocniejsza alternatywa dla testu t-studenta dla prób niezależnych H 0: Próby pochodzą z populacji o tej samej wartości oczekiwanej Miarą tendencji centralnej jest mediana – test nie bierze pod uwagę wariancji w badanych grupach (test t-studenta zakłada że wariancje są równe) Liczba obserwacji posiadających tą samą Wzory: Suma rang dla grupy, w której suma ta jest mniejsza rangę (poprawka na rangi wiązane) Liczba obserwacji w grupie z mniejszą liczbą rang
TEST U MANNA-WHITNEYA Czy jest różnica w przeciętnej temperaturze pomiędzy czerwcem a wrześniem? Testowana zmienna Wybieramy test Wyniki
WIĘCEJ NIŻ DWIE PRÓBY? TEST KRUSKALLA-WALLISA Nieparametryczny odpowiednik jednoczynnikowej analizy wariancji Jest rozszerzeniem testu U Manna-Whitneya służącego do porównywania dwóch prób Nie wymaga rozkładu normalnego, homogeniczności wariancji ani równoliczności grup. Wymagania: Zmienna zależna mierzona na skali porządkowej lub ilościowej Obserwacje w analizowanych grupach powinny być niezależne od siebie
TEST KRUSKALLA-WALLISA Podobnie jak test U-Manna Whitneya opiera się na rangach obserwacji Opiera się na statystyce Chi-kwadrat Wzór: � Gdzie: k – liczba grup Ri – suma rang w grupie i N – liczebność próby ni – liczebność grupy i SPSS: Analiza > Testy nieparametryczne > Testy tradycyjne > K prób niezależnych
TEST KRUSKALLA-WALLISA Jak wyznaczyć rangi dla poniższych obserwacji? I II III 44 70 80 6, 5 11 17 44 77 76 6, 5 15 14 54 48 34 9 8 5 32 64 80 4 10 17 21 71 73 1 12 13 28 - 80 3 - 17 26 - - 2 - -
PRZYKŁAD W R Czy miesiąc pomiaru ma wpływ na stężenie ozonu w powietrzu? Boxplot
TEST KRUSKALLA-WALLISA Stwierdzono istotne różnice pomiędzy grupami, ale którymi? !
TEST KRUSKALLA-WALLISA WIELOKROTNE PORÓWNANIA Analiza > Testy nieparametryczne > Próby niezależne Dalsze ustawienia w zakładkach: Cele, Zmienne, Ustawienia
TEST KRUSKALLA-WALLISA WIELOKROTNE PORÓWNANIA
TEST KRUSKALLA-WALLISA WIELOKROTNE PORÓWNANIA
TEST KRUSKALLA-WALLISA WIELOKROTNE PORÓWNANIA Klikamy dwukrotnie na obszar tabeli
TEST KRUSKALLA-WALLISA WIELOKROTNE PORÓWNANIA Klikamy na widok i wybieramy porównanie parami z listy rozwijanej
TEST KRUSKALLA-WALLISA WIELOKROTNE PORÓWNANIA Pomiędzy grupami różnice są istotne statystycznie
ANOVA? Założenia co do normalności rozkładu reszt nie są spełnione:
ANOVA + TRANSFORMACJA ZMIENNEJ ZALEŻNEJ? Dane po transformacji:
DZIĘKUJĘ ZA UWAGĘ ŹRÓDŁA Olech W. , Wieczorek M. 2010. Zastosowanie metod statystyki w doświadczalnictwie zootechnicznym. Wydawnictwo SGGW. Internetowy podręcznik statystyki: http: //www. statsoft. pl/textbook/stathome. html Jurek K. Praktyczne wykorzystanie IBM SPSS Statistics. Ver 21.
- Slides: 42