ANALZA ROZPTYLU 1 PREDNKA po je ANOVA zkladn

  • Slides: 48
Download presentation
ANALÝZA ROZPTYLU 1

ANALÝZA ROZPTYLU 1

PREDNÁŠKA pČo je ANOVA, základné pojmy p. Hypotézy pri ANOVA p. Model ANOVA p.

PREDNÁŠKA pČo je ANOVA, základné pojmy p. Hypotézy pri ANOVA p. Model ANOVA p. Jednofaktorová ANOVA - vyvážený pokus p. Prijatie rozhodnutia v ANOVA p. Predpoklady ANOVA p. Jednofaktorová ANOVA - nevyvážený pokus p. Dvojfaktorová ANOVA - bez opakovania p. Dvojfaktorová ANOVA - s opakovaním p. Metódy viacnásobného porovnávania p. Overenie zhody variability 2

ČO JE ANOVA analysis of variance - analýza rozptylu metóda na porovnávanie stredných hodnôt

ČO JE ANOVA analysis of variance - analýza rozptylu metóda na porovnávanie stredných hodnôt (priemerov) niekoľkých ZS hľadanie rozdielov medzi priemermi sa zakladá na analýze rôznych foriem rozptylu AR zároveň skúma vplyv kvalitatívneho faktora (faktorov) na výsledný kvantitatívny znak - teda analyzuje vzťahy medzi znakmi ANOVA je zovšeobecnením Studentovho t-testu pre nezávislé výbery 3

ČO JE ANOVA praktické využitie najčastejšie sa AR používa pri vyhodnocovaní biologických experimentov počet

ČO JE ANOVA praktické využitie najčastejšie sa AR používa pri vyhodnocovaní biologických experimentov počet predaných výrobkov v závislosti od umiestnenia výrobku v regáli, atď. 4

ZÁKLADNÉ POJMY skúmaný štatistický znak Označenie: y výsledný kvantitatívny znak napr. počet predaných výrobkov

ZÁKLADNÉ POJMY skúmaný štatistický znak Označenie: y výsledný kvantitatívny znak napr. počet predaných výrobkov faktor Označenie: A. , B, . . . je kvalitatívna premenná úroveň faktora jednotlivé obmeny faktora určité množstvo kvantitatívneho faktora, napr. množstvo dávok čistých živín pri hnojení, rôzne príjmové skupiny domácností, určitý druh kvalitatívneho faktora, napr. rôzne odrody tej istej plodiny, spôsoby umiestnenia výrobkov v predajni, 5

ČO JE ANOVA pojmy jednofaktorová/viacfaktorová ANOVA skúmame vplyv jedného/viacerých faktor na kvantitatívnu premennú vyvážená/nevyvážená

ČO JE ANOVA pojmy jednofaktorová/viacfaktorová ANOVA skúmame vplyv jedného/viacerých faktor na kvantitatívnu premennú vyvážená/nevyvážená ANOVA podľa toho, či majú jednotlivé skupiny rovnaký rozsah n 6

ČO JE ANOVA pri ANOVA porovnávame priemerné hodnoty kvantitatívnej premennej pri rôznych úrovniach faktora

ČO JE ANOVA pri ANOVA porovnávame priemerné hodnoty kvantitatívnej premennej pri rôznych úrovniach faktora napríklad porovnávame priemerné výdavky obyvateľov so základným vzdelaním, priemerné výdavky stredoškolsky vzdelaného obyvateľstva, priemerné výdavky vysokoškolsky vzdelaného obyvateľstva 1 2 3 7

SCHÉMA JEDNOFAKTOROVÉHO EXPERIMENTU “VYVÁŽENÝ POKUS” Úrovne faktora A 1 2 … i … m

SCHÉMA JEDNOFAKTOROVÉHO EXPERIMENTU “VYVÁŽENÝ POKUS” Úrovne faktora A 1 2 … i … m riadkový súčet 1 y 11 y 21 yi 1 ym 1 riadkový priemer opakovania 2… j… n Y i. y 12 y 1 j y 1 n Y 1. y 22 y 2 j y 2 n Y 2. y 2. ………. . yi 2 yij yin Yi. yi. ………. . ym 2 ymj ymn Ym. ym. Celkový súčet Y. . y. . celkový priemer

Model pre výslednú napozorovanú hodnotu kde i = 1, 2, …, m j =

Model pre výslednú napozorovanú hodnotu kde i = 1, 2, …, m j = 1, 2, …, n Kde: - očakávaná hodnota pre všetky úrovne faktora a napozorované hodnoty, i - efekt i-tej úrovne faktora A eij - náhodná chyba, ktorým je každé meranie zaťažené, resp. výsledok vplyv náhodných činiteľov 9

HYPOTÉZY PRI ANOVA alebo Nulovú hypotézu potom môžeme formulovať aj nasledovne: Ho : 1

HYPOTÉZY PRI ANOVA alebo Nulovú hypotézu potom môžeme formulovať aj nasledovne: Ho : 1 = 2 =… i = m = 0 t. j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H 1: i 0 pre aspoň jedno i (i = 1, 2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly 10

Odhadmi jednotlivých parametrov sú nasledovné výberové charakteristiky: čo môžeme prepísať: 11

Odhadmi jednotlivých parametrov sú nasledovné výberové charakteristiky: čo môžeme prepísať: 11

PRINCÍP ANOVY Podstata ANOVY spočíva v rozklade celkovej variability výsledného skúmaného znaku Sc Celková

PRINCÍP ANOVY Podstata ANOVY spočíva v rozklade celkovej variability výsledného skúmaného znaku Sc Celková variabilita S 1 Variabilita medzi úrovňami faktora, spôsobená pôsobením faktora A, “variabilita medzi triedami, riadkami” Sr Variabilita náhodná, reziduálna, “vo vnútri tried 12

PRINCÍP ANOVY Typy variability celková variabilita na koľko sa odchyľujú konkrétne hodnoty v skupinách

PRINCÍP ANOVY Typy variability celková variabilita na koľko sa odchyľujú konkrétne hodnoty v skupinách od celkového priemeru variabilita medzi skupinami na koľko sa odchyľujú skupinové priemery od celkového priemeru variabilita vnútri skupín na koľko sa odchyľujú konkrétne hodnoty v skupinách od ich skupinového priemeru čím väčšia je variabilita medzi skupinami v porovnaní s variabilitou vnútri skupín, tým väčší je účinok faktora 13

PRIJATIE ROZHODNUTIA V ANOVA variabilita medzi skupinami suma štvorcov odchýlok - faktor priemerná suma

PRIJATIE ROZHODNUTIA V ANOVA variabilita medzi skupinami suma štvorcov odchýlok - faktor priemerná suma štvorcov odchýlok variabilita vnútri skupín rezid. suma štvorcov odchýlok priemerná suma štvorcov rezid. odchýlok celková variabilita celková suma štvorcov =F Testovacia štatistika (F) porovnáva variabilitu S 1 a variabilitu Sr čím väčšia je variabilita S 1 tým je vplyv faktora väčší tým sú väčšie rozdiely medzi skupinovými priemermi tým viac dôkazov máme prijatie alternatívnej hypotézy 14

VÝSLEDNÁ TABUĽKA ANOVY ANOVA Variabilita medzi triedami Reziduálna variabilta Celková variabilita 3 2 1

VÝSLEDNÁ TABUĽKA ANOVY ANOVA Variabilita medzi triedami Reziduálna variabilta Celková variabilita 3 2 1 Súčet štvorcov Stupne Priemerný štvorec voľnosti odchýlok (1/2) m-1 s 12 m. n - m sr 2 S 1 4 F-kritérium Sr Sc N-1= m. n-1 15

PRIJATIE ROZHODNUTIA V ANOVA Ak F vyp F. ((m-1, (N-m)) Ho zamietame, zamietame v

PRIJATIE ROZHODNUTIA V ANOVA Ak F vyp F. ((m-1, (N-m)) Ho zamietame, zamietame v takom prípade je aspoň efekt jednej úrovne faktora preukazný, teda priemerná úroveň ukazovateľa sa štatisticky významne líši od ostatných. resp. aspoň jeden efekt i Ak je F vyp F štatisticky Ho nezamietame významne odlišný od nuly. obor nezamietnutia Ho F obor zamietnutia H 0 kritický obor, 16

PREDPOKLADY ANOVY Nezávislosť výberových súborov štatistická nezávislosť náhodných chýb eij Normalita výbery pochádzajú z

PREDPOKLADY ANOVY Nezávislosť výberových súborov štatistická nezávislosť náhodných chýb eij Normalita výbery pochádzajú z normálnych rozdelení, narušenie tohto predpokladu nemá podstatnejší vplyv na výsledky AR Homoskedasticita -zhodné reziduálne rozptyly 12 = 22 = …. = 2 , t. j. D(eij) = 2 tento predpoklad je závažnejší a možno ho overovať Cochranovým, resp. Bartlettovým testom 17

SCHÉMA JEDNOFAKTOROVÉHO EXPERIMENTU riadkový “NEVYVÁŽENÝ POKUS” riadkový súčet priemer Rôzny počet opakovaní A 1

SCHÉMA JEDNOFAKTOROVÉHO EXPERIMENTU riadkový “NEVYVÁŽENÝ POKUS” riadkový súčet priemer Rôzny počet opakovaní A 1 2 Úrovne … faktora i … m 1 y 11 y 21 2… y 12 y 22 yi 1 yi 2 ym 1 ym 2 Kde 18 j … ni y 1 j. . . n 1 y 2 j. . . n 2 ………. . yij. . . ni ………. . ymj. . . nm Yi. Y 1. Y 2. yi. y 1. y 2. Yi. yi. Ym. ym. Y. . celkový priemer y. .

VÝSLEDNÁ TABUĽKA ANOVY ANOVA Variabilita medzi triedami 1 Súčet štvorcov odchýlok 2 Stupne voľnosti

VÝSLEDNÁ TABUĽKA ANOVY ANOVA Variabilita medzi triedami 1 Súčet štvorcov odchýlok 2 Stupne voľnosti m-1 s 12 N-m s r 2 S 1 Reziduálna variabilta 3 Priemerný štvorec (1/2) 4 F-krité rium Sr Celková variabilita N-1 Sc 19

DVOJFAKTOROVÁ ANALÝZA ROZPTYLU BEZ OPAKOVANIA Uvažujme vplyv faktora A, ktorý skúmame na m -

DVOJFAKTOROVÁ ANALÝZA ROZPTYLU BEZ OPAKOVANIA Uvažujme vplyv faktora A, ktorý skúmame na m - úrovniach, i = 1, 2, …. , m ďalej uvažujme faktor B, ktorý sledujeme na n - úrovniach , j = 1, 2, …, n na každej i-tej úrovni faktora A a j-tej úrovni faktora B máme len jedno pozorovanie (opakovanie) yij overujeme tak vplyv dvoch nulových hypotéz 20

SCHÉMA DVOJFAKTOROVÉHO EXPERIMENTU S JEDNÝM POZOROVANÍM V KAŽDEJ PODTRIEDE DAR riadkové B A 1

SCHÉMA DVOJFAKTOROVÉHO EXPERIMENTU S JEDNÝM POZOROVANÍM V KAŽDEJ PODTRIEDE DAR riadkové B A 1 2 m-úrovní faktora A … i … m Stĺpcové súčty stĺpcové priemery 21 n-úrovní faktora B 1 y 11 y 21 yi 1 ym 1 súčty 2 … j … n Y i. y 12 y 1 j y 1 n Y 1. y 22 y 2 j y 2 n Y 2. y 2. Riadkové ………. . priemery yi 2 yij yin Yi. yi. ………. . ym 2 ymj ymn Ym. ym. Y. 1 celkový Y. 2. . . Y. j. . . Y. 1 priemer Y. . y. 1 y. 2. . . y. j. . . y. 1

Model pre skúmaný znak môžme zapísať OVERUJEME PLATNOSŤ DVOCH NULOVÝCH HYPOTÉZ Hypotéza pre faktor

Model pre skúmaný znak môžme zapísať OVERUJEME PLATNOSŤ DVOCH NULOVÝCH HYPOTÉZ Hypotéza pre faktor A: A Ho 1: 1 = 2 =… i = m = 0 t. j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H 1 1 : i 0 pre aspoň jedno i (i = 1, 2…m) efekt i aspoň jednej i úrovne faktora je preukazný, významne odlišný od nuly 22

Hypotéza pre faktor B: Ho 2: 1 = 2 =… j = n =

Hypotéza pre faktor B: Ho 2: 1 = 2 =… j = n = 0 t. j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H 12 : j 0 pre aspoň jedno j (j = 1, 2…m) efekt j aspoň jednej j úrovne faktora B je preukazný, významne odlišný od nuly 23

VÝSLEDNÁ TABUĽKA ANOVY DAR Variabilita medzi riadkami 1 Súčet štvorcov odchýlok S 1 Variabilita

VÝSLEDNÁ TABUĽKA ANOVY DAR Variabilita medzi riadkami 1 Súčet štvorcov odchýlok S 1 Variabilita medzi stĺpcami S 2 Reziduálna variabilta Sr Celková variabilita Sc 2 Stupne voľnosti 3 Priem. štvorec (1/2) m-1 s 12 n-1 s 22 (m-1)(n-1) 4 F-krité rium s r 2 m. n -1 24

ROZKLAD CELKOVEJ VARIABILITY SKÚMANÉHO ZNAKU: SC= S 1 + S 2 + S R

ROZKLAD CELKOVEJ VARIABILITY SKÚMANÉHO ZNAKU: SC= S 1 + S 2 + S R Variabilita medzi riadkami, vplyv faktora A Variabilita medzi stĺpcami, vplyv faktora B Reziduálna variabilita Celková variabilita 25

DVOJFAKTOROVÁ ANALÝZA ROZPTYLU S OPAKOVANÍM Uvažujme vplyv dvoch faktorov: faktora A, ktorý skúmame na

DVOJFAKTOROVÁ ANALÝZA ROZPTYLU S OPAKOVANÍM Uvažujme vplyv dvoch faktorov: faktora A, ktorý skúmame na m - úrovniach, i = 1, 2, …. , m a faktora B, ktorý sledujeme na n - úrovniach , j = 1, 2, …, n Skúmame nielen individuálny vplyv daných faktorov, ale aj ich vzájomné pôsobenie (interakciu) Pre každú kombináciu úrovní máme viac pozorovaní (opakovaní) yij Overujeme tak vplyv troch nulových hypotéz 26

SCHÉMA DVOJFAKTOROVÉHO EXPERIMENTU S INTERKACIOU 27

SCHÉMA DVOJFAKTOROVÉHO EXPERIMENTU S INTERKACIOU 27

Model pre skúmaný znak môžme zapísať OVERUJEME PLATNOSŤ TROCH NULOVÝCH HYPOTÉZ Hypotéza pre faktor

Model pre skúmaný znak môžme zapísať OVERUJEME PLATNOSŤ TROCH NULOVÝCH HYPOTÉZ Hypotéza pre faktor A: A Ho : 1 = 2 =… i = m = 0 t. j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H 1 : i 0 pre aspoň jedno i (i = 1, 2…m) efekt i aspoň jednej i úrovne faktora je preukazný, významne odlišný od nuly 28

Hypotéza pre faktor B: B Ho: 1 = 2 =… j = n =

Hypotéza pre faktor B: B Ho: 1 = 2 =… j = n = 0 t. j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H 1 : j 0 pre aspoň jedno j (j = 1, 2…m) efekt j aspoň jednej j úrovne faktora B je preukazný, významne odlišný od nuly Hypotéza pre interakciu (�� )ij: Ho : � 11 = � 12 =… � ij = � mn = 0 t. j. že pôsobenie interakcie je nulové, teda nepreukazné, oproti alternatívnej hypotéze H 1 : (�� )ij 0 29

VÝSLEDNÁ TABUĽKA ANOVY DAR Variabilita medzi riadkami Variabilita medzi stĺpcami Interakcia Reziduálna variabilta Celková

VÝSLEDNÁ TABUĽKA ANOVY DAR Variabilita medzi riadkami Variabilita medzi stĺpcami Interakcia Reziduálna variabilta Celková variabilita 1 Súčet štvorcov odchýlok 2 Stupne voľnosti S 1 m-1 S 2 n-1 S 12 (m-1)(n-1) Sr m. n. (k-1) Sc 3 Priem. štvorec (1/2) 4 F-krité rium s 12 s 22 s 122 s r 2 m. n -1 30

ROZKLAD CELKOVEJ VARIABILITY SKÚMANÉHO ZNAKU: SC= S 1 + S 2 + S 12

ROZKLAD CELKOVEJ VARIABILITY SKÚMANÉHO ZNAKU: SC= S 1 + S 2 + S 12 +S R Variabilita medzi riadkami, vplyv faktora A Variabilita medzi stĺpcami, vplyv faktora B Variabilita z interakcie Reziduálna variabilita Celková variabilita 31

METÓDY VIACNÁSOBNÉHO POROVNÁVANIA v prípade, že H 0 zamietame, zaujíma nás, medzi ktorými strednými

METÓDY VIACNÁSOBNÉHO POROVNÁVANIA v prípade, že H 0 zamietame, zaujíma nás, medzi ktorými strednými hodnotami existujú štatisticky významné rozdiely existuje široká škála testov zameraná na viacnásobné porovnanie výberových priemerov Ktoré priemery sú významne rozdielne? použijeme test kontrastov testy, ktoré robia dve alebo viac porovnaní medzi tromi alebo viacerými priemermi je možné vytvoriť m*(m-1)/2 kontrastov veľký počet testov 32

TESTY KONTRASTOV 1. 2. 3. 4. 5. Fischerov LSD test Duncanov test Student-Newman-Keulsov test

TESTY KONTRASTOV 1. 2. 3. 4. 5. Fischerov LSD test Duncanov test Student-Newman-Keulsov test Tukeyho test Scheffeho test 33

FISCHEROV LSD TEST LSD = Least Significant Difference je založený na t-teste štatisticky významný

FISCHEROV LSD TEST LSD = Least Significant Difference je založený na t-teste štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: kritická hodnota t rozdelenia pri m(n-1) stupňoch voľnosti 34

DUNCANOV TEST štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: tabuľovaná hodnota Duncanovho

DUNCANOV TEST štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: tabuľovaná hodnota Duncanovho testu pre daný počet rozdielov a pri reziduálnom stupni voľnosti 35

STUDENT-NEWMAN-KEULSOV TEST štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: tabuľovaná hodnota Student.

STUDENT-NEWMAN-KEULSOV TEST štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: tabuľovaná hodnota Student. Neumannovho - Keulsovho testu pre daný počet porovnávaných rozdielov a pri reziduálnom stupni voľnosti 36

TUKEYHO TEST štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: tabuľovaná hodnota Tukeyho

TUKEYHO TEST štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: tabuľovaná hodnota Tukeyho testu. 37

SCHEFFEHO TEST štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: kritická hodnota F

SCHEFFEHO TEST štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: kritická hodnota F rozdelenia pri (m-1) a m(n-1) stupňoch voľnosti 38

KTORÝ TEST POUŽIŤ? Test Sila testu (1 -β) Chyba I. druhu (α) LSD najvyššia

KTORÝ TEST POUŽIŤ? Test Sila testu (1 -β) Chyba I. druhu (α) LSD najvyššia Duncan Student-Newman -Keuls Tukey Scheffe 39 viac konzervatívny, menej pravdepodobné, že bude objavený skutočný rozdiel najnižšia najvyššia viac pravdepodobné, , že bude určený nesprávny rozdiel najnižšia

KTORÝ TEST POUŽIŤ? závisí, ktorý typ chyby je akceptovateľnejší z hľadiska analýzy daného problému,

KTORÝ TEST POUŽIŤ? závisí, ktorý typ chyby je akceptovateľnejší z hľadiska analýzy daného problému, t. j. neurčenie rozdielu, ak skutočne existuje, resp. určenie rozdielu, ktorý neexistuje. 40

TESTY KONTRASTOV - STATGRAPHICS Multiple Range Tests Method: 95, 0 percent LSD Count Mean

TESTY KONTRASTOV - STATGRAPHICS Multiple Range Tests Method: 95, 0 percent LSD Count Mean Homogeneous Groups Col_4 5 303, 8 X Col_3 5 337, 0 XX Col_1 5 344, 2 X Col_2 5 349, 8 X Contrast Sig. Difference +/- Limits Col_1 - Col_2 -5, 6 38, 7085 Col_1 - Col_3 7, 2 38, 7085 Col_1 - Col_4 * 40, 4 38, 7085 Col_2 - Col_3 12, 8 38, 7085 Col_2 - Col_4 * 46, 0 38, 7085 Col_3 - Col_4 33, 2 38, 7085 * denotes a statistically significant difference. 41

TESTY KONTRASTOV - STATGRAPHICS 42

TESTY KONTRASTOV - STATGRAPHICS 42

OVERENIE ZHODY VARIABILITY predpokladáme, že skúmané výberové súbory majú približne normálne rozdelenie a rozdiely

OVERENIE ZHODY VARIABILITY predpokladáme, že skúmané výberové súbory majú približne normálne rozdelenie a rozdiely rozptylov medzi testovanými skupinami sú nepreukazné. H 0: Testy: Cochranov test Hartleyov test Bartlettov test 43

COCHRANOV TEST je ho vhodné použiť, ak u skúmaných výberových súborov sú značné rozdiely

COCHRANOV TEST je ho vhodné použiť, ak u skúmaných výberových súborov sú značné rozdiely medzi rozptylmi testovacia charakteristika: ak G ≥ Gα, m, n-1 → H 0 zamietame Gα, m, n-1 - tabuľková hodnota pri m a n-1 stupňoch voľnosti 44

HARTLEYOV TEST testovacia charakteristika: ak H ≥ Hα, m, n-1 → H 0 zamietame

HARTLEYOV TEST testovacia charakteristika: ak H ≥ Hα, m, n-1 → H 0 zamietame Hα, m, n-1 - tabuľková hodnota pri m a n-1 stupňoch voľnosti 45

BARTLETTOV TEST spočíva v porovnávaní aritmetického a geometrického priemeru rozptylov. Ak sú rozptyly rovnaké,

BARTLETTOV TEST spočíva v porovnávaní aritmetického a geometrického priemeru rozptylov. Ak sú rozptyly rovnaké, potom aj priemery sú rovnaké. testovacia charakteristika: ki = ni-1 m – počet výberových súborov ni – rozsah i-teho výberového súboru Ak χ2 χ2(m-1), potom H 0 zamietame 46

OVERENIE ZHODY VARIABILITY STATGRAPHICS Variance Check Test Bartlett's P-Value 1, 70592 0, 0517136 47

OVERENIE ZHODY VARIABILITY STATGRAPHICS Variance Check Test Bartlett's P-Value 1, 70592 0, 0517136 47

ĎAKUJEM ZA POZORNOSŤ 48

ĎAKUJEM ZA POZORNOSŤ 48