Statystyka Wykady dla II rok Geoinformacji rok akademicki
- Slides: 77
Statystyka Wykłady dla II rok Geoinformacji rok akademicki 2012/2013 Wykład 7 i 8: Wnioskowanie statystyczne, estymacja punktowa i przedziałowa, weryfikacja hipotez statystycznych, test dla średnich i wariancji, ANOVA, MANOVA
Przedział ufności • Niech cecha X ma rozkład w populacji z nieznanym parametrem θ. Z populacji wybieramy próbę losową (X 1, X 2, . . . , Xn). • Przedziałem ufności (θ – θ 1, θ + θ 2) o współczynniku ufności 1 - α nazywamy taki przedział (θ – θ 1, θ + θ 2), który spełnia warunek: P(θ 1 < θ 2) = 1 − α gdzie θ 1 i θ 2 są funkcjami wyznaczonymi na podstawie próby losowej. • Podobnie jak w przypadku estymatorów definicja pozwala na dowolność wyboru funkcji z próby, jednak tutaj kryterium wyboru najlepszych funkcji narzuca się automatycznie - zazwyczaj będziemy poszukiwać przedziałów najkrótszych. 2
• Współczynnik ufności 1 - α jest wielkością, którą można interpretować w następujący sposób: jest to prawdopodobieństwo, że rzeczywista wartość parametru θ w populacji znajduje się w wyznaczonym przez nas przedziale ufności. • Im większa wartość tego współczynnika, tym szerszy przedział ufności, a więc mniejsza dokładność estymacji parametru. • Im mniejsza wartość 1 - α, tym większa dokładność estymacji, ale jednocześnie tym większe prawdopodobieństwo popełnienia błędu. • Wybór odpowiedniego współczynnika jest więc kompromisem pomiędzy dokładnością estymacji a ryzykiem błędu. • W praktyce przyjmuje się zazwyczaj wartości: 0, 99; 0, 95 lub 0, 90, zależnie od parametru. 3
Przedział ufności dla wartości oczekiwanej (średniej) – rozkład normalny • Jeśli cecha ma w populacji rozkład normalny N(m, σ), przy czym odchylenie standardowe σ jest znane. Przedział ufności dla parametru m tego rozkładu ma postać: n to liczebność próby losowej oznacza średnią z próby losowej σ to odchylenie standardowe z próby uα jest statystyką, spełniającą warunek: P( − uα < U < uα) = 1 − α gdzie U jest zmienną losową o rozkładzie normalnym N(0, 1). oraz to kwantyle rzędów odpowiednio i rozkładu N(0, 1) 4
Przedział ufności dla wariancji • Przedział ufności dla wariancji w populacji o rozkładzie normalnym N(m, σ) wyznaczamy ze wzoru • gdzie: • n to liczebność próby losowej i • s to odchylenie standardowe z próby • i to statystyki spełniające odpowiednio równości: • gdzie χ2 ma rozkład chi-kwadrat z n - 1 stopniami swobody 5
Przykład - Minimalna liczebność próby • Jeśli chcemy oszacować parametr z określoną dokładnością d, możemy, po odpowiednich przekształceniach wzorów na przedziały ufności, wyznaczyć liczebność próby losowej potrzebną do osiągnięcia zakładanej dokładności. • Przykład: • Niech wzrost wszystkich osób w Polsce ma rozkład normalny z odchyleniem standardowym 25, 28 cm. Obliczmy ile osób wystarczy zmierzyć, aby z prawdopodobieństwem 95% wyznaczyć średni wzrost z dokładnością do 5 cm. • Jeśli chcemy uzyskać dokładność 5 cm, należy zadbać o to, aby połowa długości przedziału ufności była mniejsza lub równa niż 5 cm. Ze wzoru na przedział ufności dla rozkładu normalnego o znanym odchyleniu standardowym wynika, że dokładność estymacji powinna spełniać zależność: 6
Mamy więc: • Podstawiając do wzoru wartości σ = 25, 28; d = 5 cm; u = 1, 96 (wartość obliczona na podstawie tablic rozkładu normalnego lub w matlabie u =norminv(1 /2, 0, 1) ) uzyskujemy minimalną wielkość próby na poziomie n=99. 7
Poziom istotności • Poziom istotności - jest to prawdopodobieństwo popełnienia błędu I rodzaju (zazwyczaj oznaczane symbolem α). Określa również maksymalne ryzyko błędu, jakie badacz jest skłonny zaakceptować. Wybór wartości α zależy natury problemu i od tego jak dokładnie chce on weryfikować swoje hipotezy, najczęściej przyjmuje się α = 0, 05, 0, 03 lub 0, 01. • Błąd pierwszego rodzaju (false positive) - w statystyce pojęcie z zakresu weryfikacji hipotez statystycznych - błąd polegający na odrzuceniu hipotezy zerowej, która w rzeczywistości jest prawdziwa. Błąd pierwszego rodzaju znany też jest jako: błąd pierwszego typu, błąd przyjęcia lub alfa-błąd. • Oszacowanie prawdopodobieństwa popełnienia błędu pierwszego rodzaju oznaczamy symbolem α i nazywamy 8 poziomem istotności testu.
Weryfikacja hipotez statystycznych • Weryfikacja hipotez statystycznych jest drugim, obok estymacji statystycznej, sposobem uogólniania wyników losowej próby na populacje z której próba pochodzi. • Polega ona na sprawdzaniu przypuszczeń na temat rozkładów statystycznych jednej lub wielu zmiennych w populacji. • Podobnie jak w przypadku estymacji, wnioskowanie z próby o populacji nie jest i nie może być niezawodne. • Będzie można jednak oceniać prawdopodobieństwa popełnienia błędów związanych ze stosowaną metodą weryfikacji hipotez. • Hipotezą statystyczną nazywa się dowolne przypuszczenie dotyczące nieznanego rozkładu statystycznego jednej zmiennej lub łącznego rozkładu wielu zmiennych w populacji. 9
• Wyróżnia się hipotezy parametryczne dotyczące nieznanych wartości parametrów rozkładu statystycznego oraz hipotezy nieparametryczne, które są przypuszczeniami na temat klasy rozkładów do których należy rozkład statystyczny w populacji. Przebieg procedury weryfikacyjnej 1. Sformułowanie hipotezy zerowej i alternatywnej • Hipoteza zerowa (H 0) - Jest to hipoteza poddana procedurze weryfikacyjnej, w której zakładamy, że różnica między analizowanymi parametrami lub rozkładami wynosi zero. Przykładowo wnioskując o parametrach hipotezę zerową zapiszemy jako: H 0: θ 1 = θ 2. • Hipoteza alternatywna (H 1) - hipoteza przeciwstawna do weryfikowanej. Możemy ją zapisać na trzy sposoby w zależności od sformułowania badanego problemu: » H 1 : θ 1 ≠ θ 2 » H 1 : θ 1 > θ 2 » H 1 : θ 1 < θ 2 10
2. Wybór statystyki testowej Budujemy pewną statystykę W, która jest funkcją wyników z próby losowej W = f(x 1, x 2, . . . , xn) i wyznaczamy jej rozkład przy założeniu, że hipoteza zerowa jest prawdziwa. Funkcję W nazywa się statystyką testową lub funkcją testową. 3. Określenie poziomu istotności α Na tym etapie procedury weryfikacyjnej przyjmujemy prawdopodobieństwo popełnienia błędu I rodzaju, który polega na odrzuceniu hipotezy zerowej wtedy, gdy jest ona prawdziwa. Prawdopodobieństwo to jest oznaczane symbolem α i nazywane poziomem istotności. Na ogół przyjmujemy prawdopodobieństwo bliskie zeru, ponieważ chcemy aby ryzyko popełnienia błędu było jak najmniejsze. Najczęściej zakładamy, że poziom istotności α≤ 0, 1 (np. α=0, 01 ; α=0, 05 ; α=0, 1) 11
4. Wyznaczenie obszaru krytycznego testu – Obszar krytyczny - obszar znajdujący się zawsze na krańcach rozkładu. Jeżeli obliczona przez nas wartość statystyki testowej znajdzie się w tym obszarze to weryfikowaną przez nas hipotezę Ho odrzucamy. Wielkość obszaru krytycznego wyznacza dowolnie mały poziom istotności α, natomiast jego położenie określane jest przez hipotezę alternatywną. – Obszar krytyczny od pozostałej części rozkładu statystyki odzielony jest przez tzw. wartości krytyczne testu (w ), czyli wartości odczytane z rozkładu statystyki przy danym α, tak aby spełniona była relacja zależna od sposobu sformułowania H 1: • P{|w|≥w } = α gdy H 1: θ 1 ≠ θ 2 (obszar dwustronny) • P{w ≥w } = α gdy H 1: θ 1 > θ 2 (obszar prawostronny) • P{w ≤w } = α gdy H 1: θ 1 < θ 2 (obszar lewostronny) 12
5. Obliczenie statystyki na podstawie próby Wyniki próby opracowujemy w odpowiedni sposób, zgodnie z procedurą wybranego testu i są one podstawą do obliczenia statystyki testowej. Większość statystyk testowych, mających dokładny rozkład normalny, t-Studenta lub graniczny rozkład normalny, obliczamy w następujący sposób: gdzie: • W - Statystyka testowa • a - Statystyka obliczona z próby • b - Hipotetyczna wartość parametru(ów) • c - Odchylenie standardowe rozkładu statystyki 13
6. Podjęcie decyzji – Wyznaczoną na podstawie próby wartość statystyki porównujemy z wartością krytyczną testu. – Jeżeli wartość ta znajdzie się w obszarze krytycznym to hipotezę zerową należy odrzucić jako nieprawdziwą. Stąd wniosek, że prawdziwa jest hipoteza alternatywna. – Jeżeli natomiast wartość ta znajdzie się poza obszarem krytycznym, oznacza to, że brak jest podstaw do odrzucenia hipotezy zerowej. Stąd wniosek, że hipoteza zerowa może, ale nie musi, być prawdziwa. 14
15
Test dla średniej • Hipotezę zerową i alternatywną oznaczamy w następujący sposób: • H o: μ = μ o Zakłada ona, że nieznana średnia w populacji μ jest równa średniej hipotetycznej μo H 1: μ ≠ μo lub H 1: μ > μo lub H 1: μ < μ o Jest ona zaprzeczeniem Ho, występuje w trzech wersjach w zależności od sformułowania badanego problemu. • Sprawdzianem hipotezy jest statystyka testowa, która jest funkcją wyników próby losowej. Postać funkcji testowej (tzw. statystyki) zależy od: – rozkładu cechy w populacji – znajomości wartości odchylenia standardowego w populacji – liczebności próby Biorąc pod uwagę powyższe przypadki, założoną przez nas hipotezę możemy sprawdzić za pomocą trzech 16 testów:
1. Jeżeli populacja ma rozkład normalny N(μ, σ) o nieznanej średniej μ i znanym odchyleniu standardowym σ, natomiast liczebność próby n jest dowolna, wtedy statystyka ma postać: gdzie: m - średnia z próby – Jeżeli Ho jest prawdziwa, to statystyka testowa Z ma rozkład asymptotycznie normalny. – Wartość statystyki, którą obliczymy korzystając z powyższego wzoru, oznaczamy jako z. Następnie porównujemy ją z wartością krytyczną testu z , którą możemy odczytać z tablic standaryzowanego rozkładu normalnego, uwzględniając poziom istotności α. – Decyzję o odrzuceniu Ho podejmujemy, jeżeli wartość statystyki znajduje się w obszarze krytycznym. Jeżeli natomiast wartość ta znajdzie się poza obszarem krytycznym, nie ma wtedy podstaw do odrzucenia Ho. 17
2. Jeżeli rozkład populacji jest dowolny, o nieznanej średniej μ i nieznanym odchyleniu standardowym σ, natomiast liczebność próby jest n > 30, wtedy statystyka ma postać: • Jeżeli Ho jest prawdziwa, to statystyka testowa ma rozkład asymptotycznie normalny. 3. Jeżeli rozkład populacji jest normalny N(μ, σ), o nieznanej średniej μ i nieznanym odchyleniu standardowym σ, natomiast liczebność próby jest n < 30, wtedy statystyka ma postać: • • Jeżeli Ho jest prawdziwa, to statystyka testowa ma rozkład t-Studenta o liczbie stopni swobody ν = n-1. • Wartość statystyki, którą obliczymy korzystając z powyższego wzoru, oznaczamy jako t. Następnie porównujemy ją z wartością krytyczną testu t , którą odczytujemy z tablic rozkładu t-Studenta przy założonym poziomie istotności α oraz liczbie stopni swobody ν = n-1. 18
Przykład • Istnieje opinia, że pasażerowie linii lotniczych mają tendencję do zabierania coraz większego bagażu podręcznego. • Kabiny w samolotach pewnej linii lotniczej umożliwiają przechowywanie bagażu podręcznego o nominalnej wadze 20 kg • Aby właściwie przeprojektować kabiny, zbadano wagę bagażu podręcznego dla losowej próby 150 pasażerów, uzyskując średnią wagę bagażu równą 22 kg, przy odchyleniu standardowym 6 kg • Na poziomie istotności 0, 05 zweryfikować przypuszczenie, że średnia waga bagażu podręcznego wśród pasażerów linii lotniczych nie różni się od wagi nominalnej, przeciwko hipotezie, iż ją przekracza.
Przykład • Istnieje opinia, że pasażerowie linii lotniczych mają tendencję do zabierania coraz większego bagażu podręcznego. • Kabiny w samolotach pewnej linii lotniczej umożliwiają przechowywanie bagażu podręcznego o nominalnej wadze 20 kg • Aby właściwie przeprojektować kabiny, zbadano wagę bagażu podręcznego dla losowej próby 150 pasażerów, uzyskując średnią wagę bagażu równą 22 kg, przy odchyleniu standardowym 6 kg • Na poziomie istotności 0, 05 zweryfikować przypuszczenie, że średnia waga bagażu podręcznego wśród pasażerów linii lotniczych nie różni się od wagi nominalnej, przeciwko hipotezie, iż ją przekracza.
Testy dla jednej wariancji • Porównujemy wariancję w populacji z „wzorcową” wartością o 2 • Hipotezy mają postać: H o : 2 = o 2 H 1: postać hipotezy alternatywnej zależy od sformułowania zagadnienia: (a) 2> o 2 (b) 2< o 2 (c) 2 o 2 Postać statystyki i dalszy przebieg testu zależy od rozmiaru próby. 21
Próby małe • Wyznaczamy wartość statystyki s 2 jest tutaj wariancją z próby a n – liczebnością próby. Statystyka ta ma rozkład chi-kwadrat - zatem wartość krytyczną kryt 2 odczytujemy z tablic rozkładu chi-kwadrat dla v = n − 1 stopni swobody i dla poziomu istotności gdy hipoteza alternatywna H 1 ma postać (a), w przypadku (b) – odczytujemy z tablic w przypadku (c) - odczytujemy dwie wartości: oraz Przedział krytyczny • W przypadku (a) jest prawostronny, czyli gdy 2 > kryt 2 odrzucamy H 0, w przypadku przeciwnym – nie ma podstaw do jej odrzucenia. • W przypadku (b) – przedział krytyczny jest lewostronny • (dla 2 < kryt 2 odrzucamy H 0), • W przypadku (c) – przedział krytyczny jest obustronny. 22
Próby duże • Dla liczebności próby n > 30 możemy przekształcić wyznaczoną w poprzednim punkcie statystykę chi-kwadrat w statystykę z o rozkładzie normalnym obliczając: • • • W powyższym wzorze χ2 oraz v = n − 1 oznaczają statystykę chikwadrat i jej liczbę stopni swobody wyznaczone tak, jak w poprzednim paragrafie (dla prób małych). Wartości krytyczne znajdujemy z tablic dystrybuanty rozkładu normalnego. Jeżeli Fn(z) jest dystrybuantą standardowego rozkładu normalnego, a Fn-1(z) - funkcją odwrotną do dystrybuanty, natomiast α - założonym poziomem istotności – to odczytujemy: dla przypadku (a) w przypadku (b) w przypadku (c) mamy 2 wartości graniczne: 23 oraz zkryty 2 = − zkryt 1
Inne testy wariancji • • Testy dla dwóch wariancji Testy dla dwóch prób niezależnych Testy dla dwóch prób zależnych Testy dla wielu wariancji 24
Analiza wariancji ANOVA - Analysis of Variance Sir Ronald Aylmer Fisher 1890 -1962 Statistical Methods for Research Workers 1925
Po co? W teście t prawdopodobieństwo popełnienia błędu pierwszego rodzaju wynosi α ale jedynie wtedy gdy mamy do czynienia z pojedynczym porównaniem
Po co? Przy 5 grupach (i 10 porównaniach) α wzrośnie z 0, 05 do 0, 40 (P = 1 - 0, 9510 = 1 - 0, 599 = 0, 401) Przy 10 grupach (i 45 porównaniach) α wzrośnie z 0, 05 do 0, 90 (P = 1 – 0, 9545 = 1 – 0, 099 = 0, 900) Co to oznacza ?
ANOVA - Analysis of Variance Jak sama nazwa wskazuje polega na analizie wariancji (a dokładniej źródeł wariancji) w próbie (którą w ramach badań pobraliśmy z populacji)
Analiza wariancji : § Pozwala ustalić wpływ przynależności jednostki do określonej grupy na wartość badanej zmiennej. § Możemy porównywać więcej niż dwie grupy. § Pozwala na wprowadzenie więcej niż jednego kryterium klasyfikacji. § Umożliwienie zmierzenia nie tylko istotności różnicy, ale również jej siły.
Jednoczynnikowa ANOVA
Analiza Wariancji n Hipoteza zerowa H 0 : Średnie w populacji są równe ¨ m 1 n = m 2 = m 3 = m 4 Hipoteza alternatywna H 1 : Co najmniej jedna para średnich nie jest sobie równa ¨ m 1 ≠ m 2 ≠ m 3 ≠ m 4
Założenia analizy wariancji: • analizowana zmienna jest mierzalna • odchylenia od średnich grupowych mają rozkład normalny • homogeniczność wariancji w poszczególnych podgrupach ( 12= 22=…= k 2 = 2) • poszczególne obserwacje są od siebie niezależne • działania poszczególnych czynników są addytywne (gdy jest ich więcej niż 1)
ANOVA - Analysis of Variance Całkowita wariancja wyników zostaje rozbita na: - Wariancję wewnątrzgrupową (miara błędu) - Wariancję międzygrupową (miara efektu eksperymentalnego) Osoba Grupa 1 Grupa 2 … Grupa p 1 X 11 X 21 … Xp 1 2 X 12 X 22 … Xp 2 3 X 13 X 23 … Xp 3 … … . . X 2 n . . Xpn … n X 1 n
ANOVA - Analysis of Variance Przypadek w którym eksperyment się powiódł Całkowita wariancja wyników zostaje rozbita na: - Wariancję wewnątrzgrupową (miara błędu) - Wariancję międzygrupową (miara efektu eksperymentalnego) Wariancja międzygrupowa Całkowita wariancja wyników Wariancja wewnątrzgrupowa
ANOVA - Analysis of Variance Przypadek w którym eksperyment się nie powiódł Całkowita wariancja wyników zostaje rozbita na: - Wariancję wewnątrzgrupową (miara błędu) - Wariancję międzygrupową (miara efektu eksperymentalnego) Wariancja międzygrupowa Całkowita wariancja wyników Wariancja wewnątrzgrupowa
Terminologia • SS – sum kwadratów odchyleń (ang. Sum of Squares) • SST – całkowita SS (ang. Total SS) • MS – średnia kwadratów odchyleń (ang. Mean Squares) • E – wpływ grupy (ang. Effect) na przykład SSE – międzygrupowa suma kwadratów • R – reszta (ang. Residual) na przykład SSR – wewnątrzgrupowa suma kwadratów
Całkowita wariancja (SST - suma kwadratów odchyleń obserwacji od średniej w całej próbie) MST=SST/(N-1) Wariancja wyjaśniona przez eksperyment Wariancja międzygrupowa Wariancja kontrolowana (SSTR - suma odchyleń średnich w grupach od średniej w całej próbie ważonych liczbą obserwacji w każdej grupie) MSTR=SSTR/(G-1) N-liczba przypadków, G-liczba grup Wariancja niewyjaśniona przez eksperyment Wariancja wewnątrzgrupowa Wariancja błędu (SSE - suma odchyleń obserwacji od odpowiadających im średnich grupowych) MSE=SSE/(N-G) Im wyższe MSTR, a niższe MSE, tym w większym stopniu wyodrębniony czynnik wyjaśnia nam zróżnicowanie badanej zmiennej.
Statystyka F: F = MSTR / MSE Na podstawie danych obliczamy statystykę testu F. Obszar krytyczny wyznaczamy w oparciu o tablice rozkładu F. Jeżeli statystyka testu jest większa od wielkości obszaru krytycznego dla poziomu istotności 0, 05, to odrzucamy hipotezę zerową.
Rozkład F (Fishera-Snedecora) • stosunek kwadratów odchyleń międzygrupowych do wewnątrzgrupowych kształtuje się według określonego rozkładu (rozkład F) lub inaczej • stosunek zmienności międzygrupowej do wewnątrzgrupowej kształtuje się według określonego rozkładu (rozkład F) 39
Rozkład F • Jeśli z populacji o rozkładzie normalnym wybieralibyśmy losowo po dwie próby i badalibyśmy wzajemne relacje ich wariancji (iloraz), to ten stosunek miałby rozkład zgodny z rozkładem F. 40
Rozkład F 41
Hipoteza zerowa – krety • Zakładamy, że masa ciała samic gatunku kret jest taka sama we wszystkich porach roku 42
Hipoteza alternatywna • H 1: Istnieje co najmniej jedna para średnich, które różnią się ze sobą. • H 1: 1 2 lub 1 3 lub 2 3 itd. . 43
Kolejność obliczeń 44
Liczba stopni swobody • • • Ogólna: N - 1(N – liczebność populacji) Międzygrupowa: k - 1 (k – liczba grup doświadczalnych) Wewnątrzgrupowa: N - k 45
Sumy kwadratów odchyleń • Zmienność ogólna • Zmienność międzygrupowa • Zmienność wewnątrzgrupowa: Sw = S o - Sm 46
Średnie kwadraty odchyleń • Zmienność międzygrupowa: Sm 2 = Sm / (k - 1) • Zmienność wewnątrzgrupowa: Sw 2 = Sw / (N - k) 47
Statystyka F wartość krytyczna 48
Interpretacja • Obliczoną wartość statystyki F (tzw. F empiryczne - Femp. ) odnosimy do wartości krytycznej z rozkładu F dla założonego poziomu istotności ( ) i określonej liczby stopni swobody ( 1=k-1 oraz 2=N-k) (F tabelaryczne Ftab. ). Jeżeli Femp. Ftab. – to mamy podstawę do odrzucenie hipotezy zerowej i stwierdzenia, iż istnieje co najmniej jedna para średnich, które różnią się ze sobą. Zatem czynnik doświadczalny wpływa statystycznie na cechę. W przeciwnym przypadku, nie mamy podstaw do odrzucenia H 0. 49
Wyniki • • Decyzję o odrzuceniu H 0 podejmujemy na podstawie kolumny P r> F na wysokości nazwy czynnika, tj. Pora. Roku. p jest mniejsze aniżeli 0, 0001 (0, 05) zatem mamy podstawę do odrzucenia H 0! 50
Dylemat • Czy masa ciała we wszystkich porach jest zróżnicowana? • Czy są takie pory roku, w których masa ciała jest podobna? 51
Wykres pudełkowy 52
Testy Post Hoc: • Testy wielokrotnych porównań wykonujemy wtedy, gdy na podstawie analizy wariancji stwierdzimy, iż czynnik wpływa istotnie na badaną cechę!!!! • Za ich pomocą dokonujemy porównań parami średnich we wszystkich kombinacjach – Jeśli mamy cztery grupy: 1 -2; 1 -3; 1 -4; 2 -3; 24; 3 -4 • Porównania parami kontrolują poziomu błędu I rodzaju
Testy a posteriori (post hoc) • W sytuacji, gdy wyniki analizy wariancji dają podstawę do odrzucenia hipotezy zerowej, wykonujemy tzw. testy niezaplanowane, zwane inaczej testami a posteriori. Niedopuszczalne jest stosowanie testu t-Studenta w przypadku większej liczby porównywanych średnich (więcej niż 2), gdyż drastycznie rośnie błąd I rodzaju dla całego doświadczenia. Przy jednej parze błąd ten wynosić może 0, 05, ale przy 4 średnich (6 możliwych porównań) prawdopodobieństwo, że się pomylimy wynosi: 1 - 0, 956 = 1 - 0, 735, czyli aż 0. 265. 54
Test Duncana i Scheffé Wykazano różnice istotne między średnią masą ciała samic kontrolowanych jesienią, a wszystkimi pozostałymi porami roku. Nie stwierdzono jednak różnic istotnych między zwierzętami odłowionymi wiosną, latem i zimą! 55
Dwuczynnikowa analiza wariancji Two-factor ANOVA
Analiza wariancji z klasyfikacją wielokrotną pozwala nam zbadać, jaki wpływ na populację mają kombinacje czynników np. w przypadku dwuczynnikowej ANOVy – czynnika A i B.
W rezultacie otrzymamy trzy efekty – efekty swoiste czynnika A oraz B oraz efekt interakcji AB. Efekt swoisty - efekt działania każdego z czynników z osobna (bez względu na poziom drugiego czynnika). Efekt interakcji - występuje, gdy efekt uzyskany przy danym poziomie jednego czynnika zależy od poziomu drugiego; nie miałby miejsca bez połączenia dwóch czynników na danym poziomie. Jeżeli interakcja nie zachodzi, to czynniki są addytywne.
Model • Badamy daną cechę populacji (jej natężenie średnią) w podgrupach ze względu na działanie dwóch czynników A i B. • Otrzymujemy n*k kombinacji poziomów (gdyż istnieje n poziomów czynnika A i k poziomów czynnika B) • Jako pierwszą sprawdzamy zawsze hipotezę dotyczącą interakcji, gdyż interpretacja wyników testów na efekty swoiste zależy od tego, czynniki są addytywne, czy nie.
Założenia: • Normalność i identyczna wariancja rozkładu ze względu na badaną cechę w każdej podpróbie • Obserwacje pochodzą z losowych prób • Liczba obserwacji o poszczególnych kombinacjach poziomów czynników jest identyczna
Model Xijk=xsr+ai+bj+(ab)ij+eijk Xsr – średnia ogólna, dla całej populacji ai – efekt działania czynnika A na poziomie i (i=1, 2, . . . , n) bi – efekt działania czynnika B na poziomie i (i=1, 2, . . . , k) (ab)ij – efekt interakcji czynników A i B na poziomach odpowiednio i oraz j eijk – błąd losowy o rozkładzie normalnym, średniej równej zero i stałej wariancji
Model SST = SSTR + SSE Zmienność (wariancja) całkowita = zmienność wynikająca ze zróżnicowania grup (wyjaśniona, międzygrupowa) + błędy losowe (zmienność niewyjaśniona, wewnątrzgrupowa) SSTR = SSA + SSB + SS(AB) zmienność wyjaśniona = zmienność wynikająca z czynnika A + zmienność wynikająca z czynnika B + zmienność wynikająca z interakcji czynników
Testowanie hipotez 1. Test na efekt swoisty czynnika A Ho: dla każdego i=1, 2, . . . , n ai=0 H 1: istnieje i, dla którego ai ≠ 0 Test sprawdza, czy istnieją statystycznie istotne różnice między średnimi badanej cechy, wynikające z zastosowania czynnika A na określonym poziomie 2. Test na efekt swoisty czynnika B (analogicznie) 3. Test na interakcję Ho: dla każdego i=1, 2, . . . , n oraz j=1, 2, . . . , k (ab)ij=0 H 1: istnieje i oraz j, dla którego (ab)ij ≠ 0
Statystyki testujące • Efekty swoiste: - czynnika A F=MSA/MSE, df: (n-1) i nk(N-1) - czynnika B F=MSB/MSE, df: (k-1) i nk(N-1) • Efekt interakcji: F=MS(AB)/MSE df: (n-1)(k-1) i nk(N-1) Gdzie: MSA=SSA/(n-1), MSB=SSB/(k-1), MS(AB)=SS(AB)/(n-1)(k-1), MSE=SSE/nk(N-1)
Przykład Zbadajmy wpływ roku studiów i płci na czas spędzany w internecie.
Z testu wynika, że efekt swoisty zarówno pierwszego jak i drugiego czynnika jest istotny statystycznie, zaś efekt interakcji jest nieistotny statystycznie.
Przecięcie się krzywych wskazuje na występowanie interakcji między czynnikami
Eksperyment z uprawą ryżu • Tabela „ryż” składa się z 7 zmiennych (kolumn) i 72 przypadków (wierszy) • Są to dane z eksperymentów w których porównywano wzrost (Sucha. Masa. Korzeni; Sucha. Masa. Pedow) ryżu odmian dziko rosnących (dziki_ryż) i genetycznie zmodyfikowanych (ANU 843), w warunkach trzech typów nawożenia chemicznego (F 10, NH 4 Cl, and NH 4 NO 3). • Dane pochodzą z publikacji: Perrine, F. M. , Prayitno, J. , Weinman, J. J. , Dazzo, F. B. and Rolfe, B. 2001: Rhizobium plasmids are involved in the inhibition or stimulation of rice growth and development. Australian Journal of Plant Physiology 28: 923 -927. • Czy istnieją istotne różnice między parametrami charakteryzującymi wzrost roślin ryżu odmiany dzikiej i genetycznie zmodyfikowanej? • Czy te różnice zależą także od sposobu nawożenia? • Która kombinacja daje największe, a która najmniejsze przyrosty suchej masy korzeni i pędów? 68
Eksperyment z uprawą ryżu 69
Eksperyment z uprawą ryżu 70
Eksperyment z uprawą ryżu 71
Eksperyment z uprawą ryżu 72
Eksperyment z uprawą ryżu 73
Eksperyment z uprawą ryżu 74
Eksperyment z uprawą ryżu 75
Eksperyment z uprawą ryżu 76
Eksperyment z uprawą ryżu 77
- Zasoby informacyjne
- Sas statystyka
- Skale pomiarowe rodzaje
- Metoda bootstrap
- Statystyka opisowa
- Statystyka w biznesie
- Mediana
- Vydej isic upol
- Powierzchnia kuli
- Klasyfikacja przedsiębiorstw
- Protest tadeusza rejtana rok
- Top 10 shocking facts about napoleon
- Plato teacher rok
- Sylwia grzeszczak data i miejsce urodzenia
- Rok mtg event
- Rok 1492
- Hannibal the annihilator
- Kemdykning
- Mongolski nowy rok
- Rok nedelko
- Instrukcijski rok definicija
- 1337 rok co się wydarzyło
- Rok koren
- Układ roku liturgicznego
- Okres rozpoczynający rok liturgiczny
- Hvala za pozornost
- Rok za podnosenje ppi-1
- Napoleon bonaparte 1795
- Beethoven symphony 5 rok
- Rok hrovatin
- De rok
- Lobectomie rok
- Rok muzika prezentacija
- Africke kolonie
- Wielki piątek kolor szat
- Rok terkaj
- Lniana chusta liturgiczna
- Procesne radnje
- Rok nasıl yapılır
- Rok vs oem
- Satrançta at piyonun üstünden atlar mı
- Mijn onderwijs voor directies
- Początek roku liturgicznego
- Rok 313
- Cisa ir playbook
- Wsparcie dla rozwoju lokalnego w ramach inicjatywy leader
- Litwos dla henryka sienkiewicza
- Czas i miejsce akcji pinokia
- Syrenka warszawska mapa
- Cztery żywioły prezentacja
- E-learning logowanie ron
- Czarna dziura budowa
- Rzeźba młodoglacjalna w polsce
- Nordics region
- Sangwinik zawody
- Błyskanie sromem klacz
- 6obcypl
- Dlaczego warto uczyć się matematyki
- Kim jestem dla boga
- Wwrd rozporządzenie
- 13 zasady bezpiecznego korzystania z internetu
- Piramida zdrowego żywienia
- Jezus na pustyni idź precz szatanie
- Oznaczenia ekologiczne na opakowaniach
- V dla chemika
- Wiersz dla kochanej mamy
- Jesienne drzewa wiersz
- Typy jednostek mieszkalnych
- Legenda o andrzejkach
- "warsztaty dla nauczycieli"
- Prezentacja power point rozszerzenie
- Prezentacja o wielkiej brytanii dla dzieci
- Język żyrafy w szkole
- Vademecum geriatrii dla lekarza praktyka gryglewska
- Mazowiecki bank ofert pracy
- Konstytucja 3 maja scenariusz
- Przedszkolankowo
- Pseudonim litwos