ANALZA ROZPTYLU PREDNKA 6 p o je ANOVA

  • Slides: 40
Download presentation
ANALÝZA ROZPTYLU

ANALÝZA ROZPTYLU

PREDNÁŠKA 6 p Čo je ANOVA, základné pojmy p Hypotézy pri ANOVA p Model

PREDNÁŠKA 6 p Čo je ANOVA, základné pojmy p Hypotézy pri ANOVA p Model ANOVA p Jednofaktorová ANOVA - vyvážený pokus p Prijatie rozhodnutia v ANOVA p Predpoklady ANOVA p Metódy viacnásobného porovnávania p Jednofaktorová ANOVA - nevyvážený pokus p Dvojfaktorová ANOVA - bez opakovania 2

Otázky: ¨ vynakladajú obyvatelia SR v priemere rôzne množstvo peňažných prostriedkov na poistenie v

Otázky: ¨ vynakladajú obyvatelia SR v priemere rôzne množstvo peňažných prostriedkov na poistenie v závislosti od stupňa vzdelania? ¨ ovplyvňuje región priemerné výdavky obyvateľov na poistenie? ¨ závisí priemerná výška poistného plnenia od značky auta? ¨ závisí priemerný počet poistných udalostí od ročného obdobia? ¨ závisí priemerný počet poistných udalostí od toho, či sa budova nachádza v meste alebo na vidieku? ¨ závisí priemerná výška poistného plnenia od likvidátora poistnej udalosti? ¨ Závisí počet predaných výrobkov v závislosti od umiestnenia výrobku v regáli?

Čo je ANOVA n analysis of variance - analýza rozptylu ¨ metóda na porovnávanie

Čo je ANOVA n analysis of variance - analýza rozptylu ¨ metóda na porovnávanie stredných hodnôt (priemerov) niekoľkých ZS ¨ hľadanie rozdielov medzi priemermi sa zakladá na analýze rôznych foriem rozptylu 4

Čo je ANOVA n n V praxi sa AR používa vtedy, ak skúmame vplyv

Čo je ANOVA n n V praxi sa AR používa vtedy, ak skúmame vplyv jedného, resp. viacerých faktorov (ošetrení) na faktorov skúmaný štatistický znak Faktory budeme označovať A, B, …a v AR ich budeme zohľadňovať len ako kvalitatívne znaky s rôznymi obmenami - úrovňami faktora výsledný štatistický znak bude kvantitatívny a označíme ho Y najčastejšie sa AR používa pri vyhodnocovaní biologických experimentov 5

Čo je ANOVA n Úrovňou faktora budeme označovať: určité množstvo kvantitatívneho faktora, napr. množstvo

Čo je ANOVA n Úrovňou faktora budeme označovať: určité množstvo kvantitatívneho faktora, napr. množstvo dávok čistých živín pri hnojení, rôzne príjmové skupiny domácností, ¨ určitý druh kvalitatívneho faktora, napr. rôzne odrody tej istej plodiny, spôsoby umiestnenia výrobkov v predajni, ¨ n n AR je zovšeobecnením Studentovho t-testu pre nezávislé výbery AR zároveň skúma vplyv kvalitatívneho faktora (faktorov) na výsledný kvantitatívny znak - teda analyzuje vzťahy medzi znakmi 6

Čo je ANOVA n n v praxi sa ANOVA používa vtedy, ak skúmame vplyv

Čo je ANOVA n n v praxi sa ANOVA používa vtedy, ak skúmame vplyv jedného, resp. viacerých faktorov (ošetrení) na skúmaný štatistický znak pojmy ¨ skúmaný štatistický znak n výsledný kvantitatívny znak n napr. počet predaných výrobkov ¨ faktor n je kvalitatívna (kvantitatívna) premenná jednotlivé obmeny sa nazývajú úrovne faktora n napr. umiestnenie tovaru hore, v strede, resp. dolu v regáli n 7

Čo je ANOVA n rozdelenie: v 1. podlľa počtu skúmaných faktorov: jednofaktorová ANOVA -

Čo je ANOVA n rozdelenie: v 1. podlľa počtu skúmaných faktorov: jednofaktorová ANOVA - skúmame vplyv jedného faktora na kvantitatívnu premennú 2. viacfaktorová ANOVA - skúmame vplyv viacerých faktorov na kvantitatívnu premennú v podľa toho, či majú jednotlivé skupiny rovnaký rozsah n vyvážená ANOVA – rovnaký počet opakovaní nevyvážená ANOVA – rozdielny počet opakovaní 1. 2. 8

Čo je ANOVA n pri ANOVA porovnávame priemerné hodnoty kvantitatívnej premennej pri rôznych úrovniach

Čo je ANOVA n pri ANOVA porovnávame priemerné hodnoty kvantitatívnej premennej pri rôznych úrovniach faktora ¨ napríklad porovnávame n priemerné výdavky obyvateľov so základným vzdelaním, priemerné výdavky stredoškolsky vzdelaného obyvateľstva, priemerné výdavky vysokoškolsky vzdelaného obyvateľstva 1 2 3 9

Schéma jednofaktorového experimentu “vyvážený pokus” riadkový súčet opakovania A 1 Úrovne 2 faktora …

Schéma jednofaktorového experimentu “vyvážený pokus” riadkový súčet opakovania A 1 Úrovne 2 faktora … i … m 1 y 11 y 21 yi 1 ym 1 2… j… y 12 y 1 j y 22 y 2 j ………. . yi 2 yij ………. . ym 2 ymj priemer n y 1 n y 2 n Yi. Y 1. Y 2. yi. y 1. y 2. yin Yi. ymn Ym. ym. Celkový súčet Y. . y. . celkový priemer 10

Separovaný odpad (t) odpad množstvo (v t) papier 340 343 350 365 323 sklo

Separovaný odpad (t) odpad množstvo (v t) papier 340 343 350 365 323 sklo 333 340 363 368 345 plasty 308 343 353 323 358 iné 293 260 298 280 388 11

Príjem na člena domácnosti v SR Bratislavský kraj BA 443 453 469 487 509

Príjem na člena domácnosti v SR Bratislavský kraj BA 443 453 469 487 509 554 Trnavský kraj TT 373 377 385 388 420 440 Trenčiansky kraj TN 355 365 371 376 403 441 Nitriansky kraj NR 344 362 354 385 412 Žilinský kraj ZA 338 356 367 362 372 395 Banskobystrický kraj BB 335 350 353 356 369 421 Prešovský kraj PO 305 327 328 344 359 Košický kraj KE 322 330 334 337 351 393 12

Model pre výslednú napozorovanú hodnotu: kde i = 1, 2, …, m j =

Model pre výslednú napozorovanú hodnotu: kde i = 1, 2, …, m j = 1, 2, …, n Kde: - očakávaná hodnota pre všetky úrovne faktora a napozorované hodnoty, i - efekt i-tej úrovne faktora A eij - náhodná chyba, ktorou je každé meranie zaťažené, resp. výsledok vplyv náhodných činiteľov 13

Hypotézy pri ANOVA alebo Nulovú hypotézu potom môžeme formulovať aj nasledovne: Ho : 1

Hypotézy pri ANOVA alebo Nulovú hypotézu potom môžeme formulovať aj nasledovne: Ho : 1 = 2 =… i = m = 0 t. j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H 1: i 0 pre aspoň jedno i (i = 1, 2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly 14

Hypotézy pri ANOVA Odhadmi jednotlivých parametrov sú nasledovné výberové charakteristiky: čo môžeme prepísať: 15

Hypotézy pri ANOVA Odhadmi jednotlivých parametrov sú nasledovné výberové charakteristiky: čo môžeme prepísať: 15

Model ANOVA n Typy variability ¨ celková variabilita n ¨ variabilita medzi skupinami (triedami)

Model ANOVA n Typy variability ¨ celková variabilita n ¨ variabilita medzi skupinami (triedami) n ¨ na koľko sa odchyľujú konkrétne hodnoty v skupinách od celkového priemeru na koľko sa odchyľujú skupinové priemery od celkového priemeru variabilita vnútri skupín n na koľko sa odchyľujú konkrétne hodnoty v skupinách od ich skupinového priemeru čím väčšia je variabilita medzi skupinami v porovnaní s variabilitou vnútri skupín, tým väčší je účinok faktora ¨ 16

Príjem na člena domácnosti v SR 600 550 500 450 400 350 300 BA

Príjem na člena domácnosti v SR 600 550 500 450 400 350 300 BA 17 TT TN NR ZA BB PO KE

18

18

19

19

Princíp ANOVY Podstata analýzy rozptylu spočíva v rozklade celkovej variability výsledného skúmaného znaku Sc

Princíp ANOVY Podstata analýzy rozptylu spočíva v rozklade celkovej variability výsledného skúmaného znaku Sc Celková variabilita S 1 Variabilita medzi úrovňami faktora, spôsobená pôsobením faktora A, “variabilita medzi triedami, riadkami” Sr Variabilita náhodná, reziduálna, “vo vnútri tried 20

Výsledná tabuľka ANOVY ANOVA Variabilita medzi triedami Reziduálna variabilita Celková variabilita 1 Súčet štvorcov

Výsledná tabuľka ANOVY ANOVA Variabilita medzi triedami Reziduálna variabilita Celková variabilita 1 Súčet štvorcov odchýlok S 1 3 2 Priemerný Stupne štvorec voľnosti (1/2) m-1 s 12 m*n-m sr 2 4 F-krit. Sr Sc N-1= m *n-1 21

kde: m – počet úrovní faktora n – počet opakovaní N – celkový počet

kde: m – počet úrovní faktora n – počet opakovaní N – celkový počet meraní 22

Prijatie rozhodnutia v ANOVA variabilita medzi skupinami suma štvorcov medzi úrovňami priemerná suma štvorcov

Prijatie rozhodnutia v ANOVA variabilita medzi skupinami suma štvorcov medzi úrovňami priemerná suma štvorcov medzi úrovňami variabilita vo vnútri skupín suma štvorcov náhodnej chyby priemerná suma štvorcov náhodnej chyby celková variabilita celková suma štvorcov n =F Testovacia štatistika (F) porovnáva variabilitu medzi skupinami a variabilitu vo vnútri skupiny ¨ čím väčšia je variabilita medzi skupinami n tým je vplyv faktora väčší n tým sú väčšie rozdiely medzi skupinovými priemermi n tým viac dôkazov máme prijatie alternatívnej hypotézy ¨ 23

Testovacie kritérium možno pre jednofoktorovú AR - vyvážený pokus zapísať podrobne vzťahom: Hodnotu F

Testovacie kritérium možno pre jednofoktorovú AR - vyvážený pokus zapísať podrobne vzťahom: Hodnotu F testovacieho kritéria porovonáme s príslušnou tabuľkovou hodnotou F-rozdelenia: F , pre stupne voľnosti (m-1) a (m. n - m) 24

Prijatie rozhodnutia v ANOVA Ak F vyp F. ((m-1, (N-m)) Ho zamietame, v takom

Prijatie rozhodnutia v ANOVA Ak F vyp F. ((m-1, (N-m)) Ho zamietame, v takom prípade je aspoň efekt jednej úrovne faktora preukazný, teda priemerná úroveň ukazovateľa sa štatisticky významne líši od ostatných. resp. aspoň jeden efekt i Ak je F vyp F štatisticky Ho nezamietame významne n odlišný od nuly. obor prijatia Ho F obor zamietnutia H 0 kritický obor, 25

Výstup: Jednofaktorová analýza rozptylu vyvážený pokus (faktor je odpad) Anova: jeden faktor Výber papier

Výstup: Jednofaktorová analýza rozptylu vyvážený pokus (faktor je odpad) Anova: jeden faktor Výber papier sklo plasty iné ANOVA Variabilita Počet 5 5 5 Súčet 1 721 1 749 1 685 Priemer 344, 2 349, 8 337, 0 5 1 519 303, 8 Rozptyl 233, 7 226, 7 442, 5 2 431, 2 SS df MS F Medzi skupinami Reziduálna 6 371, 80 13 336, 40 3 16 2 123, 93 833, 53 Celková 19 708, 20 19 2, 548 Hodnota P F krit 0, 092 3, 239 26

Metódy viacnásobného porovnávania n Ktoré priemery sú významne rozdielne? ¨ použijeme test kontrastov n

Metódy viacnásobného porovnávania n Ktoré priemery sú významne rozdielne? ¨ použijeme test kontrastov n testy, ktoré robia dve alebo viac porovnaní medzi tromi alebo viacerými priemermi n veľký počet Duncanov test (vyvážený pokus) ¨ Tukeyho test (vyvážený pokus) ¨ Scheffeho test (nevyvážený pokus) ¨ LSD (vyvážený aj nevyvážený pokus) ¨ 27

Predpoklady ANOVA n Nezávislosť výberových súborov ¨ n Normalita ¨ n štatistická nezávislosť náhodných

Predpoklady ANOVA n Nezávislosť výberových súborov ¨ n Normalita ¨ n štatistická nezávislosť náhodných chýb eij výbery pochádzajú z normálnych rozdelení, narušenie tohto predpokladu nemá podstatnejší vplyv na výsledky AR Homoskedasticita -zhodné reziduálne rozptyly 12 = 22 = …. = 2 , t. j. D(eij) = 2 28

Jednofaktorová ANOVA – nevyvážený pokus A 1 2 Úrovne … faktora i … m

Jednofaktorová ANOVA – nevyvážený pokus A 1 2 Úrovne … faktora i … m riadkový Rôzny počet opakovaní súčet priemer 1 y 11 y 21 yi 1 ym 1 Kde 2… j … ni y 12 y 1 j. . . n 1 y 22 y 2 j. . . n 2 ………. . yi 2 yij . . . ni ………. . ym 2 ymj. . . nm Yi. Y 1. Y 2. yi. y 1. y 2. Yi. yi. Ym. ym. Y. . celkový y. . priemer 29

Jednofaktorová ANOVA – nevyvážený pokus ANOVA Variabilita medzi triedami Reziduálna variabilita Celková variabilita 3

Jednofaktorová ANOVA – nevyvážený pokus ANOVA Variabilita medzi triedami Reziduálna variabilita Celková variabilita 3 2 1 Súčet štvorcov Stupne Priemerný voľnosti štvorec odchýlok (1/2) m-1 s 12 N - m sr 2 S 1 4 F-krité rium Sr N-1 S 30

Počet poľnohospodárskych subjektov v okresoch Anova: jeden faktor – nevyvážený pokus Výber Počet Súčet

Počet poľnohospodárskych subjektov v okresoch Anova: jeden faktor – nevyvážený pokus Výber Počet Súčet Priemer Rozptyl Komárno 50 902 377 18 048 7, 83 E+08 Trebišov 28 761 944 27 212 2, 91 E+09 Dolný Kubín 35 723 117 20 661 6, 23 E+08 Stará Ľubovňa 14 483 570 34 541 1, 21 E+09 ANOVA Variabilita SS df MS F Hodnota P F krit 1, 0013 0, 395 2, 678 Medzi skupinami 3, 76 E+09 3 1, 253 E+09 Reziduálna 1, 54 E+11 123 1, 252 E+09 Celková 1, 58 E+11 126 31

Dvojfaktorová ANOVA – bez opakovania n n Uvažujme vplyv faktora A, ktorý skúmame na

Dvojfaktorová ANOVA – bez opakovania n n Uvažujme vplyv faktora A, ktorý skúmame na m - úrovniach, i = 1, 2, …. , m ďalej uvažujme faktor B, ktorý sledujeme na n - úrovniach , j = 1, 2, …, n na každej i-tej úrovni faktora A a j-tej úrovni faktora B máme len jedno pozorovanie (opakovanie) yij overujeme tak vplyv dvoch nulových hypotéz 32

Dvojfaktorová ANOVA – bez opakovania Schéma dvojfaktorového experimentu s jedným pozorovaním v každej podtriede

Dvojfaktorová ANOVA – bez opakovania Schéma dvojfaktorového experimentu s jedným pozorovaním v každej podtriede A 1 2 m-úrovní … faktora A i … m B n-úrovní faktora B 1 y 11 y 21 yi 1 ym 1 Y. 1 Stĺpcové súčty stĺpcové priemery y. 1 2 … j … y 12 y 1 j y 22 y 2 j ………. . yi 2 yij ………. . ym 2 ymj riadkové yi. súčty n y 1 n y 2 n Yi. Y 1. Y 2. yin Yi. ymn Ym. ym. Y. 2. . . Y. j. . . Y. 1 y. 2. . . y. j. . . y. 1 Y 1. y 2. Riadkové priemery Y. . y. . celkový priemer 33

Množstvo odovzdaného separovaného odpadu (v t) Zberné miesto odpad papier plasty iné Nitra 4,

Množstvo odovzdaného separovaného odpadu (v t) Zberné miesto odpad papier plasty iné Nitra 4, 2 4, 3 5, 3 Kolárovo 3, 8 5, 1 7, 4 Trenčín 4, 9 6, 5 8 Trnava 5, 6 6, 1 5, 9 Žilina 4, 4 5, 5 7, 1 34

Dvojfaktorová ANOVA – bez opakovania Model pre skúmaný znak môžeme zapísať Overujeme platnosť dvoch

Dvojfaktorová ANOVA – bez opakovania Model pre skúmaný znak môžeme zapísať Overujeme platnosť dvoch nulových hypotéz Hypotéza pre faktor A: Ho 1: 1 = 2 =… i = m = 0 t. j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H 11 : i 0 pre aspoň jedno i (i = 1, 2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly 35

Dvojfaktorová ANOVA – bez opakovania Hypotéza pre faktor B: Ho 2: 1 = 2

Dvojfaktorová ANOVA – bez opakovania Hypotéza pre faktor B: Ho 2: 1 = 2 =… j = n = 0 t. j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H 12 : j 0 pre aspoň jedno j (j = 1, 2…m) efekt j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly 36

Dvojfaktorová ANOVA – bez opakovania DAR Variabilita medzi riadkami 1 Súčet štvorcov odchýlok S

Dvojfaktorová ANOVA – bez opakovania DAR Variabilita medzi riadkami 1 Súčet štvorcov odchýlok S 1 Variabilita medzi stĺpcami S 2 Reziduálna variabilta Sr Celková variabilita Sc 2 Stupne voľnosti 3 4 Priem. štvorec (1/2) F-kritérium m-1 s 12 n-1 s 22 (m-1)(n-1) sr 2 m. n -1 37

Výstup: Dvojfaktorová analýza rozptylu bez opakovania (zberné miesto, druh odpadu) Faktor Nitra Kolárovo Trenčín

Výstup: Dvojfaktorová analýza rozptylu bez opakovania (zberné miesto, druh odpadu) Faktor Nitra Kolárovo Trenčín Trnava Žilina Počet 3 3 3 Suma 13, 8 16, 3 19, 4 17, 6 17 Priemer 4, 600 5, 433 6, 467 5, 867 5, 667 Rozptyl 0, 370 3, 323 2, 403 0, 063 1, 843 5 5 5 22, 9 27, 5 33, 7 4, 580 5, 500 6, 740 0, 482 0, 740 1, 233 SS df MS F P-hodnota F krit zberné miesto 5, 563 4 1, 391 2, 613 0, 115 3, 838 druh odpadu reziduálna 11, 749 4, 257 2 8 5, 875 0, 532 11, 039 0, 005 4, 459 celková 21, 569 14 papier plasty iné ANOVA Variabilita 38

Dvojfaktorová ANOVA – bez opakovania Rozklad celkovej variability skúmaného znaku: S c= S 1

Dvojfaktorová ANOVA – bez opakovania Rozklad celkovej variability skúmaného znaku: S c= S 1 + S 2 + S r Variabilita medzi riadkami, vplyv faktora A Variabilita medzi stĺpcami, vplyv faktora B Reziduálna variabilita Celková variabilita 39

ĎAKUJEM ZA POZORNOSŤ 40

ĎAKUJEM ZA POZORNOSŤ 40