Analza rozptylu 1 V praxi asto je potrebn
Analýza rozptylu 1
• V praxi často je potrebné porovnávať väčší počet nezávislých náhodných výberov z hľadiska úrovne, t. zn. zaujíma nás hypotéza: pre aspoň jeno i (i = 1, 2, …m) pre m > 2, kde i , i =1, 2, …m sú stredné hodnoty z normálne rozdelených základných súborov s rovnakým rozptylom 2 , t. j. N( , 2) • K overeniu tejto hypotézy sa používa dôležitá štatistická metóda, nazývaná Analýza rozptylu, skrátene ANOVA (resp. AR) 2
• V praxi sa AR používa vtedy, ak skúmame vplyv jedného resp. viacerých faktorov (ošetrení) na skúmaný štatistický znak • Faktory budeme označovať A, B, …a v AR ich budeme zohľadňovať len ako kvalitatívne znaky s rôznymi obmenami - úrovňami faktora • výsledný štatistický znak bude kvantitatívny a označíme ho Y • najčastejšie sa AR používa pri vyhodnocovaní biologických, technických. . . experimentov • Všimneme si najjednoduchší prípad AR s jedným faktorom, ktorú nazývame jednofaktorová AR 3
Jednofaktorová AR vyvážené pokusy JARv Zakladné pojmy faktor úroveň faktora pokus – vyvážený, nevyvážený model AR 4
Zakladné pojmy • Úrovňou faktora budeme označovať: – určité množstvo kvantitatívneho faktora, napr. množstvo dávok čistých živín pri hnojení, rôzne príjmové skupiny domácností, – určitý druh kvalitatívneho faktora, napr. rôzne odrody tej istej plodiny, rôzne druhy techniky, spôsoby umiestnenia výrobkov v predajni, . . . • AR je zovšeobecnením Studentovho t-testu pre nezávislé výbery ak ich počet je väčší ako dva • AR zároveň skúma vplyv kvalitatívneho faktora (faktorov) na výsledný kvantitatívny znak - teda analyzuje vzťahy (závislosť) medzi znakmi 5
Schéma jednofaktorového experimentu “vyvážený pokus” riadkový opakovania A 1 2 Úrovne … faktora i … m 1 y 11 y 21 yi 1 ym 1 2… j… y 12 y 1 j y 22 y 2 j ………. . yi 2 yij ………. . ym 2 ymj súčet riadkový priemer n y 1 n y 2 n Yi. Y 1. Y 2. yi. y 1. y 2. yin Yi. ymn Ym. ym. Celkový súčet Y. . celkový y. . priemer 6
riadkový súčet: celkový súčet: riadkový priemer: celkový priemer: 7
Model pre výslednú napozorovanú hodnotu: kde i = 1, 2, …, m j = 1, 2, …, n Kde - očakávaná hodnota pre všetky úrovne faktora a napozorované hodnoty, i - efekt i-tej úrovne faktora A eij - náhodná chyba, ktorým je každé meranie zaťažené, resp. výsledok vplyv náhodných činiteľov 8
alebo Nulovú hypotézu potom môžme formulovať aj nasledovne: Ho : 1 = 2 =… i = m = 0 t. j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H 1: i 0 pre aspoň jedno i (i = 1, 2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly 9
Odhadmi jednotlivých parametrov sú nasledovné výberové charakteristiky: čo môžme prepísať: 10
Porovnanie dvoch experimentov s tromi úrovňami faktora 1 2 3 11
Princíp Analýzy rozptylu Podstata analýzy rozptylu spočíva v rozklade celkovej variability výsledného skúmaného znaku Sc Celková variabilita S 1 Variabilita medzi úrovňamifaktora, spôsobená pôsobením faktora A, “variabilita medzi triedami, riadkami” Sr Variabilita náhodná, reziduálna, “vo vnútri tried 12
ANOVA Variabilita medzi triedami Reziduálna variabilta Celková variabilita 3 2 1 Súčet štvorcov Stupne Priemerný štvorec voľnosti odchýlok (1/2) m-1 s 12 m. n - m sr 2 S 1 4 F-krité rium Sr Sc N-1= m. n-1 13
Testovacie kritérium možno pre jednofoktorovú AR - vyvážený pokus zapísať podrobne vzťahom: Hodnotu F testovacieho kritéria porovonáme s príslušnou tabuľkovou hodnotou F-rozdelenia: F , pre stupne voľnosti (m-1) a (m. n - m) 14
Rozhodnutie o výsledku testu: • Ak F vyp F. ((m-1, (N-m)) Ho zamietame, v takom prípade je aspoň efekt jednej úrovne faktora preukazný, teda priemerna úroveň ukazovateľa sa štatisticky významne líši od ostatných. Resp. aspoň jeden efekt i je štatisticky významne Ak F vyp F odlišný od nuly. Ho nezamietame Obor nezamietnutia Ho F kritický obor, obor zatnutia H 0 15
Ak nulovú hypotézu zamietame: • Zistili sme len, že je preukazný vplyv faktora na skúmaný znak, • ďalej je potrebné skúmať medzi ktorými úrovňami faktora je a medzi ktorými nie je preukazný rozdiel - k tomúto účelu sa používajú testy kontrastov • Medzi testy kontrastov patria: Duncanov test, Scheffeho test, Tuckey test a iné…. . 16
Podmienky použitia AR: • Výbery pochádzajú z normálnych rozdelení, narušenie tohto predpokladu nemá podstatnejší vplyv na výsledky AR • štatistická nezávislosť náhodných chýb eij • zhodné reziduálne rozptyly 12 = 22 = …. = 2 , t. j. D(eij) = 2 pre všetky i = 1, 2…. , m, j=1, 2, …n tento predpoklad je závažnejší a možno ho overovať Cochranovým, resp. Bartlettovým testom 17
Jednofaktorová AR nevyvážené pokusy JARn 18
Schéma jednofaktorového experimentu “nevyvážený pokus”riadkový A 1 2 Úrovne … faktora i … m Rôzny počet opakovaní 1 2… j … ni y 11 y 12 y 1 j. . . n 1 y 22 y 2 j. . . n 2 ………. . yi 1 yi 2 yij . . . ni ………. . ym 1 ym 2 ymj. . . nm Kde súčet riadkový priemer Yi. Y 1. Y 2. yi. y 1. y 2. Yi. yi. Ym. ym. Y. . celkový y. . priemer 19
ANOVA Variabilita medzi triedami Reziduálna variabilta Celková variabilita 3 2 1 Súčet štvorcov Stupne Priemerný štvorec voľnosti odchýlok (1/2) m-1 s 12 N-m sr 2 S 1 4 F-krité rium Sr N-1 S 20
Dvojfaktorová AR s jedným opakovaním v podtriede DARj 21
Dvojfaktorová analýza rozptylu s jedným pozorovaním v každej podtriede. . DAR • Uvažujme vplyv faktora A, ktorý skúmame na m úrovniach, i = 1, 2, …. , m • ďalej uvažujme faktor B, ktorý sledujeme na n - úrovniach , j = 1, 2, …, n • na každej i-tej úrovni faktora A a j-tej úrovni faktora B máme len jedno pozorovanie (opakovanie) yij • overujeme tak vplyv dvoch nulových hypotéz 22
Schéma dvojfaktorového experimentu s jedným pozorovaním v každej podtriede A 1 2 m-úrovní … faktora A i … m B DAR n-úrovní faktora B 1 y 11 y 21 yi 1 ym 1 Stĺpcové súčty Y. 1 stĺpcové priemery y. 1 2 … j … y 12 y 1 j y 22 y 2 j ………. . yi 2 yij ………. . ym 2 ymj riadkové súčty n y 1 n y 2 n Yi. Y 1. Y 2. yin Yi. ymn Ym. ym. Y. 2. . . Y. j. . . Y. 1 y. 2. . . y. j. . . y. 1 Y. . yi. Y 1. y 2. Riadkové priemery celkový priemer y. . 23
Model pre skúmaný znak môžme zapísať Overujeme platnosť dvoch nulových hypotéz Hypotéza pre faktor A: Ho 1: 1 = 2 =… i = m = 0 t. j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H 11 : i 0 pre aspoň jedno i (i = 1, 2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly 24
Hypotéza pre faktor B: Ho 2: 1 = 2 =… j = n = 0 t. j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H 12 : j 0 pre aspoň jedno j (j = 1, 2…m) efekt j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly 25
DAR Variabilita medzi riadkami 1 Súčet štvorcov odchýlok S 1 2 Stupne voľnosti 3 Priem. štvorec (1/2) m-1 s 12 n-1 s 22 Variabilita medzi stĺpcami S 2 Reziduálna variabilta Sr (m-1)(n-1) Celková variabilita Sc m. n -1 4 F-krité rium sr 2 26
Rozklad celkovej variability skúmaného znaku: S c= S 1 + S 2 + S r Variabilita medzi riadkami, vplyv faktora A Variabilita medzi stĺpcami, vplyv faktora B Reziduálna variabilita Celková variabilita 27
Testovanie kontrastov Ak zamietneme Ho nulovú hypotézu v AR tj. : záver že neplatí zhoda medzi porovnávanými strednými hodnotami, je nevyhnutné aby sa výsledky analýzy rozptylu doplnili podrobnejším hodnotením, ktorým vyhodnotíme všetky možné dvojice výberov z hľadiska homogenity stredných hodnôt (ktoré z dvojíc výberových priemerov sa líšia štatisticky významne a ktoré len náhodne). Počet všetkých možných dvojíc je definovaný vzťahom: Duncanov test je založený na usporiadaní priemerov podľa veľkosti a vo vzájomnom porovnaní rozdielov dvoch priemerov jednotlivých úrovní ošetrenia A s vypočítanou kritickou hodnotou vzťah (k = 2, 3, . . . , m)
Tukeyho metóda ( krátko T – metóda), je citlivejšia na rozdiely medzi strednými hodnotami (je silnejšia ako Scheffeho metóda), avšak vyžaduje aby pokus bol vyvážený Sú tabelované kritické hodnoty studentizovaného rozpätia 29
30
32
- Slides: 32