Krnyezeti statisztika Dr Huzsvai Lszl egyetemi docens Debrecen
Környezeti statisztika Dr. Huzsvai László egyetemi docens Debrecen 2008
Mi az adat? n Minden információ, amit tárolni kell. - szám - szöveg - dátum - hang - kép, stb.
Mi az adatbázis Egy témakör vagy cél köré csoportosuló információ. n Jó tervezés = hatékony adattárolás és kinyerés n Célorientált adatbázisok n
Adatbázis tervezés Milyen információt akarunk kinyerni? n Milyen elkülönülő tématerületeken kell tárolni az adatokat? n Hogyan kapcsolódnak ezek egymáshoz? n Az egyes területeken belül milyen adatokat kell tárolni? n
Adatbázis felépítése n Tábla (table) ü Mező (field) ü Rekord (record) n Űrlap (form) adatbevitel n Adatmegjelenítés: n Jelentések (report) nyomtatás - kigyűjtés (find) - sorba rendezés (sort) - lekérdezés (query)
Tábla
Űrlap
Jelentések
A relációs adatbázis feltételei n n n n nem lehet két egyforma sora minden mezőnek egyedi neve van a sorok és oszlopok sorrendje tetszőleges ne tartalmazzon származtatott, kiszámított adatot (redundancia) egy mező megváltoztatása nem hathat ki más mezőkre a mezők elemi információt tartalmazzanak minden szükséges adatot tartalmaz van elsődleges kulcsa
Normalizálás Az adatok ésszerű csoportosítása n 1 NF. . . 3 NF. . . 5 NF n Első normált forma, ha mezőiben (oszlop) csak egyszerű tulajdonságok szerepelnek. n 3 NF alakban egy táblázat minden tulajdonsága (mező) a kulcs mezőtől függ n
Kapcsolatok egy az egyhez n egy a többhöz n n több a többhöz (kapcsoló tábla)
Relációs adatbáziskezelők Oracle n MS Access n d. Base n SQL n Excel n stb. n
A statisztika feladata Mennyire hihetők a kísérletek, megfigyelések megállapításai? n Mennyiben játszik szerepet a véletlen? n Minta alapján becslés, válasz valószínűségi állítás formájában n Aktív statisztika (megfigyelések, mérések tervezése, kísérlettervezés) n
Statisztikai módszerek Sztochasztika n Valószínűségszámítás n Megfigyelések értékelése n Bizonytalanság okainak felderítése n Döntéshozatal n
Valószínűségek n n n Véletlen esemény: előfordulása bizonytalan (se nem biztos, se nem lehetetlen) P(E) bekövetkezési valószínűség (0, 00 -1, 00) Relatív gyakoriság (%)
Függetlenség n Komplementer (kiegészítő) esemény n Feltételes valószínűség n Sztochasztikus függetlenség
Ismérv, alapsokaság, minta Kvantitatív és kvalitatív ismérvek n Összes lehetséges előfordulás = alapsokaság n Mintavétel: olcsó, gyors, egzakt n
Véletlen mintavétel, szisztematikus hiba Minden elem egymástól függetlenül és azonos valószínűséggel kerül a mintába (véletlen számok) n Előnye: a belőle származtatott statisztikai mutatók csak a véletlen eltérést mutatják az alapsokaság mutatójához képest n Szelekció n Reprezentativitás n
Paraméter n n n Minta adataiból az alapsokaság adataira következtetünk Az alapsokaság jellemző értékeit paraméternek nevezzük (görög betűvel jelöljük) A minta középértékéből az alapsokaság középértékére következtetünk Megbízhatósági intervallum Statisztikai próba
Véletlen minta előállítása n n n Véletlen szám generátor Pszeudó véletlen szám generátor Rnd() függvény Excel Vél() függvénye VÉL()*(b-a)+a
Mintavételi eljárások N=1 500 és 3 000 között n Egynemű (homogén) alapsokaság mintái n Nem egynemű (heterogén) alapsokaság mintái n – Csoportba rendezett (csomók) – Nem rendezett csoportba (rétegképzés) n Blokk képzés (homogén csoportok kialakítása
Statisztikai becslés n Valamely paraméter ismeretlen (feltételezett) tényleges értékének közelítő megadása egy statisztikai függvénnyel. Elvileg bármelyik statisztikai függvény tekinthető becslésnek, valójában csak azokat használjuk, amelyeknek megvannak a jó becslés legfontosabb tulajdonságai
A jó becslés kritériumai n Torzítatlanság (várható érték) n Pontosság (szórás) n Konzisztencia
Torzítatlan és konzisztens becslés Olyan becslés, amelynek várható értéke az igazi paraméter (torzítatlan) n Olyan becslés, amely a minta n elemszámának növekedésével (n ) a paraméter igazi értékéhez konvergál sztochasztikusan (erős konzisztencia esetén 1 valószínűséggel) n
Pontos és torzítatlan becslés
Pontos és torzított becslés
Pontatlan és torzítatlan becslés
Pontatlan és torzított becslés
Centrális mutatók n Átlag (várható érték) n Medián (középső adat, gyakran helyettesíti a számtani közepet) n Módusz (leggyakrabban előforduló elem)
Szóródási mutatók n Helyzeti: – – – n Maximum (standardizált értéke) Minimum (standardizált értéke) Terjedelem (max. -min. ) Kvartilisek (negyedelők) Interkvartilis (Q 3 -Q 1)/2 Számított: – – Szórás Variancia Az átlag standard hibája A medián standard hibája
Nem paraméteres eljárások Eloszlás egyezése egy adott eloszlással (egymintás próba)? Medián egyezése adott értékkel? CHI-NÉGYZET PRÓBA (RELATÍV GYAKORISÁGOK ÖSSZEHASONLÍTÁSA) ELŐJEL-PRÓBA Két eloszlás egyezése, homogenitás vizsgálat? Két várható érték egyezése? CHI-NÉGYZET PRÓBA ELŐJEL-PRÓBA, MANN-WHITNEY, WILCOXONPRÓBA Két esemény függetlenségének tesztje? Két összetartozó minta egyezése? FÜGGETLENSÉG VIZSGÁLAT, CHINÉGYZET PRÓBÁVAL WILCOXON-TESZT, ELŐJEL-PRÓBA Több várható érték egyezése? A mintavétel egy szempont alapján történik? KRUSKAL-WALLIS-PRÓBA (paraméteres: egytényezős variancia-analízis) Több várható érték egyezése? A mintavétel egy szempont alapján történik? Minta elemszámok azonosak? FRIEDMAN-TESZT (paraméteres: kéttényezős variancia-analízis)
Paraméteres eljárások 1. Várható érték? Várható érték egyezése adott értékkel? Szórás ismert? Igen Nem EGYMINTÁS U-PRÓBA EGYMINTÁS T-PRÓBA Két várható érték egyezése? Az elméleti szórások ismertek? Igen Nem KÉTMINTÁS U-PRÓBA KÉTMINTÁS T-PRÓBA Összetartozó adatpárok különbségének tesztelése? Az elméleti szórások ismertek? Igen Nem PÁRONKÉNTI T-TESZT Több várható érték egyezése? A mintavétel egy szempont szerint történik? Szórások egyenlők? EGYTÉNYEZŐS VARIANCIA-ANALÍZIS WELCH, BROWN-FORSYTHE-PRÓBA
Paraméteres eljárások 2. Több várható érték egyezése? A mintavétel két szempont szerint történik? Szórások egyenlők? KÉTTÉNYEZŐS VARIANCIA-ANALÍZIS BROWN-FORSYTHE-PRÓBA Több várható érték egyezése? A mintavétel több szempont szerint történik? Szórások egyenlők? TÖBBTÉNYEZŐS VARIANCIA-ANALÍZIS SZÓRÁS Két szórás egyezése? F-PRÓBA LEVENE-TESZT Több szórás egyezése? Minták elemszáma egyenlő? LEVENE-TESZT, MAX. F-PRÓBA COCHRAN-PRÓBA BARTLETT-PRÓBA, LEVENE-TESZT
A normális eloszlás mint modell n Ez a modell jól leírja a mérési értékeknek a középérték (várható érték) körüli szóródását. n Jelölése N(μ, σ). Standard normális eloszlás: N(0, 1)
Standardizálás
Standard normáleloszlásfüggvénye
Standard normáleloszlás sűrűségfüggvénye
A normál eloszlás értékei α% μ±σ 5 1, 96 1 2, 58 0, 1 3, 29
Standard normáleloszlás 95%-os valószínűségei
A statisztikai próba 1. n n n A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H 0): μ 1= μ 2, vagy μ 1 - μ 2=0 A munka-hipotézist indirekt módon bizonyítjuk A minta a nullhipotézist alátámasztja-e? Az olyan eljárást, amelyik a minták alapján dönt, statisztikai próbának nevezik Próbafüggvény előállítása
A statisztikai próba 2. n A próbafüggvény kiszámított értékéhez megadható egy P, valószínűségi érték. Ez megadja, hogy milyen valószínűséggel várható a próbafüggvénynek a kiszámítottal azonos vagy annál nagyobb értéke, ha a nullhipotézis igaz, azaz μ 1= μ 2
Két középérték különbségének tesztelése Feltételek: n Független minták n Normális eloszlásúak n Azonos szórás
Két normál eloszlású, független minta különbségének szórása
A döntés és az elkövethető hibák
Elsőfajú hiba n n n (H 0): μ 1= μ 2, vagy μ 1 - μ 2=0 igaz A minta alapján elvetjük a nullhipotézist, tévesen valódi különbséget állapítunk meg Mi ennek a valószínűsége? α (alfa), melyet a statisztikai próba elvégzése előtt kell megválasztani Szokásos értékei: 10; 5; 1; ritkán 0, 1%
Másodfajú hiba n n (Ha): μ 1 nem egyenlő μ 2, vagy μ 1 - μ 2 nem egyenlő 0 igaz A minta alapján megtartjuk a nullhipotézist, tévesen egyformaságot állapítunk meg Mi ennek a valószínűsége? β (béta), melynek értékét csak a statisztikai próba elvégzése után lehet meghatározni
A statisztikai próba ereje A valódi különbség kimutatásának valószínűsége n P=1 - β n n n Gyakorlatilag egy igaz munkahipotézis vagy alternatív hipotézis elfogadásának valószínűsége Minél kisebb az α, annál ritkább, hogy H 0 -t tévesen elutasítjuk, de annál gyakoribb, hogy H 0 -t tévesen elfogadjuk (másodfajú hiba)
Az első- és másodfajú hiba csökkentése Minta elemszámának növelése n Pontosabb mintavételezés (szórás csökken) n Lehet-e az első- és másodfajú hibát nullára csökkenteni? n NEM n A véletlen hatásokat nem tudjuk kiiktatni n
29, 5% 6, 2% 1, 96 Alfa és béta hiba 95% -4 -2 0 2 4 6 8 10
Nincs különbség
Meglévő különbség
A várható érték 1 500 kg/ha, a szórás 552 kg/ha
Megfigyelések száma középérték különbségek becslésére ahol n 1 = n 2 = n z = az elsőfajú hiba kritikus értéke az adott szignifikancia-szinten (kétoldali szimmetrikus) z = a másodfajú hiba kritikus értéke az adott szignifikancia-szinten (egyoldali) s 2 = a minták varianciája h 2 = a tényleges különbség négyzete LOTHAR SACHS, 1985
Megfigyelések száma középérték különbségek becslésére Excelben
Egymintás t-teszt n n Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum nagyságát is. H 0 : 1 = 0 n Feltétel: n Próbastatisztika: (DF = n-1 ) – Normális eloszlású populáció, szigma ismeretlen és n>30.
Kétmintás t-teszt (szórás azonos) n n n Származhat-e a két független megfigyelés, minta azonos középértékű populációból? H 0 : 1 = 2 Próbastatisztika: (DF = n 1 + n 2 – 2)
Kétmintás t-teszt (nem azonos szórás) n Ha a két csoport szórása szignifikánsan különbözik, ilyenkor a két összehasonlítandó csoport varianciáját súlyozni kell a variancia becsléséhez (separate variancia). A módosított variancia becslés az alábbi: n A próba valószínűségi változója ebben az esetben nem teloszlású, ezért nem a t-táblázatot, hanem a Bonferronimódosított szignifikancia értékeket kell használni a középértékek különbözőségének elbírálásakor
Párosított t-próba n n Két összefüggő minta középértékének összehasonlítására szolgál H 0: dátlag = 0 n Próbastatisztika: (DF = n 1 – 1) n sd a párosított minták különbségének szórása, becslése a minta alapján
Párosított t-próba eredmény táblázatai
- Slides: 59