Termszetvdelmi adatfeldolgozs s elemzs Termszetvdelmi mrnki BSc szak
Természetvédelmi adatfeldolgozás és -elemzés Természetvédelmi mérnöki BSc szak 6. előadás
Statisztikai adatfeldolgozás
Miért szükségesek a statisztikák a természetvédelmi tevékenységet támogató kutatásokban? • A biológiai jelenségek sztochasztikusak (véletlenszerűek), ezért statisztikai természetűek. • Statisztika nélkül a biológiai jelenségek kapcsolatát kiderítő biológiai, orvosi- és mezőgazdasági tudományok nem képzelhetőek el (Précsényi).
• Az adatanalízis statisztikai módszerekkel történik. • exploratív fázis: adatok felderítése, ábrázolása, leíró statisztikák, számítások (átlag, medián, szórás, stb. ) • konfirmatív fázis(megerősítő): predikciók, tendenciák összefüggések elemzése
• Kézzel is kilehet számolni a különböző statisztikákat, erre különféle "receptes könyvek" léteznek. • Ma különféle statisztikai programokat használunk, hátrányuk, hogy háttér ismeretek nélkül, gyakorlatilag bármely adatsort bármely próbával végre lehet hajtatni. • OLYAN PRÓBÁT IS VÉGREHAJTHATOK EGY ADATSORON, AMELYRE NEM ALKALMAS AZ ADATSORUNK, EZÉRT ROSSZ EREDMÉNYEKET KAPHATOK! • Ezért elvi szinten tisztában kell lennünk azzal, hogy milyen típusú adatsort, milyen típusú próbával, teszttel elemezhetek ki!
Statisztikai alapfogalmak • Statisztika (def. ): "A statisztika numerikus adatok gyűjtésének, rendezésének és értékelésének tudománya. " (Précsényi) • Leíró statisztika: az adatok kvantitatív jellemzésével és összefoglalásával foglalkozik, pl. eloszlások jellemzésével • Döntéshozó statisztika: az adatok jellemzéséből származó információk alapján döntéseket hoz, pl. a minták azonos populációból származnak-e
Statisztikai alapfogalmak • Populáció: Az összes egyed, amire a statisztika vonatkozik. Pl. 5 férfi magasságát mérjük, akkor a populációm a világ összes férfiját jelenti • Minta: A populáció valamely része. Fontos, hogy a populáció összes egyede ugyanolyan eséllyel kerüljön bele a mintámba. Pl. a világ összes fehéregerére, nem megfelelő minta, ha csak a magyarországiakat nézem, mert az afrikai fehéregerek már nem kerülnek bele. • Változó: A minta elemein mért mennyiség (pl. magasság, testtömeg, szárnyhossz, vércukorszint. . . )
Változók típusai mérési skála szerint Statisztikai alapfogalmak • nominális skála: nevekből álló kategóriarendszer, nem lehet rangsort felállítani. (ivar, társulás név, betegség) • ordinális skála: Minőségi (kvalitatív) változó, van sorrendiség, de az értékek közötti távolság tetszőleges (pl. agresszivitás lehet gyenge, közepes, erős; de Borhidi-féle indikátorszámok is ilyenek) Fontos, hogy nem értelmes az átlagolásuk! • intervallum skála: Értékek rangsorba állíthatóak, és az értékek közötti távolság értelmezhető, viszont a skála nullpontja önkényes. A mérések aránya viszont nem értelmezhető. Pl. hőmérséklet, IQ. . . • arányskála: Az értékek közötti távolságot az értékek közötti intervallum mutatja. Az arányok értelmezhetőek, mivel valódi null ponttal rendelkezik. Pl. testsúly, magasság, életkor
Statisztikai alapfogalmak Eloszlások • Sűrűségfüggvényük megadja, hogy milyen valószínűséggel kapunk az adott intervallumba eső értéket. • Normáleloszlás: A normál eloszlás folytonos, azaz az értelmezési tartományon belül bm. értéket felvehet. Szórással és átlaggal jellemezzük. Sűrűségfüggvénye a Gauss-féle haranggörbe. • Binomiális eloszlás: Egyfajta diszkrét eloszlás, a változó csak bizonyos értékeket vehet fel. Binomiális eloszlás esetén a jelenségnek csak kétféle kimenete lehet. Pl. fej vagy írás, jelenlét - hiány, igen - nem, stb.
Normál eloszlás Statisztikai alapfogalmak Reiczigel et al. 2007
Statisztikai alapfogalmak Átlag • Az átlagot egy tizedes jeggyel adjuk meg pontosabban, mint az adatokat. (minták érékeinek összege osztva az elemszámmal). • Hátrány, hogy asszimetrikus eloszlásoknál nem reprezentálja jól az eloszlás középpontját, illetve érzékeny a szélsőséges értékekre (amik mérési hibából, vagy jegyzőkönyv elírásból adódhatnak).
Statisztikai alapfogalmak Medián • Az adatok középpontjának helye, egyenlő számú adat esik tőle "lefelé" és "felfelé" is. • Asszimmetrikus eloszlások jellemzésére is alkalmas, szimmetrikus eloszlások átlaga és mediánja ugyanaz. • Páratlan számú adat esetén 1 medián van, páros számú esetén pedig 2. • Az összes mért adatomat rangsorba állítom és a középen elhelyezkedő adatom, vagy adataim adják a medián értékét. pl. 10 mért értékemből az 5. és 6. helyen állók adják a mediánt, 11 mért adatból a 6. adatom értéke adja meg a medián értékét.
Statisztikai alapfogalmak Átlag és medián Pl. lemértem 7 egér súlyát grammban, a mért értékeim növekvő sorrendbe állítva a következők Esetünkben a 4. adat adja a mediánt A példánkban asszimetrikus az eloszlás, az átlag értéke 1, 92.
Statisztikai alapfogalmak Variancia (s²): megmutatja mennyire terjednek szét az adatok a mintaátlag körül. Szórás (s): a variancia pozitív négyzetgyöke. a minta diszperziójának egyik jellemzője. interkvartilis: A minta diszperziójának egy jellemzője, az adatok 50%-át tartalmazza, a felső kvartilisből (K 3) és az alsó kvartilisből (K 1) számolható ki. (IKT=K 3 -K 1) A nem szimmetrikus eloszlások jellemzésére használják. Megjelenítési formája a kvartilis ábra.
Statisztikai alapfogalmak • Átlag • Medián • Interkvartilis (IKT=K 3 -K 1)
Adatok ábrázolás box-plot segítségével • egyszerű • tömör • informatív Statisztikai alapfogalmak
Adatok ábrázolás box-plot segítségével Statisztikai alapfogalmak Keller, S. , Bartolino, V. , Hidalgo, M. , Bitetto, I. , Casciaro, L. , Cuccu, D. , et al. , Large-scale spatio-temporal patterns of mediterranean cephalopod diversity, 2016. PLo. S ONE 11(1): e 0146469.
Statisztikai alapfogalmak • Variancia • Szórás • Átlag szórása
Statisztikai alapfogalmak Átlag szórása (=szórás hibája) • Arra szolgál, hogy megállapíthassuk, hogy mintánk mennyire reprezentálja a populációt. • A populációból több, azonos elemszámú mintát veszünk és kiszámítjuk a minták átlagait. • Az átlag szórását csökkenthetjük (pontosság növelése), ha csökkentem a minták szórását
Statisztikai alapfogalmak Statisztikai Hipotézis • NEM SZABAD ÖSSZEKEVERNI A KUTATÁSI HIPOTÉZISSEL!!! • Statisztikai hipotézis egyszerű állítás a vizsgált populáció valamely tulajdonságáról. Két típusa van: • Nullhipotézis (H 0): valamely paraméter hiányát állítja • Alternatív hipotézis (H 1): a nullhipotézis ellentett párja, a paraméter meglétét állítja
Statisztikai alapfogalmak Hipotézis vizsgálat • nullhipotézis (H 0) • alternatívhipotézis (H 1)
Statisztikai alapfogalmak • A nullhipotézis ismeretében ki lehet számolni egy próbastatisztikát pl. t-próbát. Ha a próbastatisztika valószínűsége kicsi, azaz elég valószínűtlen, hogy H 0 igaz legyen, akkor H 0 -t elvetjük és az alternatív hipotézist tartjuk meg, azt valószínűsítjük. • Elsőfajú hibát követünk el, ha H 0 igaz és mégis elvetettük. • Másodfajú hibát pedig akkor követünk el, ha nullhipotézis hamis és mi mégis megtartottuk.
Statisztikai alapfogalmak • Szignifikancia szinttel szokás jellemezni annak valószínűségét, hogy elsőfajú hibát követünk-e el. • Ha p<0, 05, akkor 5% a valószínűsége annak, hogy nullhipotézist elvetjük, annak ellenére, hogy igaz. • Ha csökkentem az elsőfajú hiba esélyét, azzal egyben növelem a másodfajú hiba valószínűségét.
Statisztikák típusai A. Hagyományos 1 vagy 2 változós statisztikák • Parametrikus próbák: feltételezik a vizsgált változók normáleloszlását • Nem-parametrikus próbák: a tesztek alkalmazása nem függ a változók eloszlásától B. Többváltozós statisztikák • Klaszteranalízis • Ordináció • Kladisztika
Parametrikus próbák A. 1. Parametrikus próbák A vizsgált változók normáleloszlását feltételezik. Második feltétel, hogy a mérések legalább intervallum skálán valósuljanak meg. Előnyük: • ha a feltételek teljesülnek érzékenyebbek a nem-parametrikus társaiknál • a próbastatisztikák eloszlása pontosan ismert, jól kidolgozottak • megbízhatóbbak a nem-parametrikus társaiknál Hátrányuk: • sok feltételen alapulnak, ezért nagyobb az esély a hibás felhasználásra • skálaérzékenyek
Parametrikus próbák típusai: A. 1. 1. Egymintás próbák: • Egymintás t-próba: Ha csak arra vagyok kíváncsi, hogy az új adat bele illik-e az adathalmazomba. • Mintából származó variancia tesztelése: pl. χ ² (chi-négyzet) próba
Parametrikus próbák A. 1. 2. Kétmintás próbák: • F-próba: feltételezi, hogy a vizsgált populációk varianciája egyenlő-e. A szórások egyezését teszteli. • Páros t-próba: Két mintasorom van, de ezek összefüggenek. Egyszerű kísérleteknél alkalmazhatom (pl. egy emberen két mérést végzek, kezelés előtti és kezelés utáni állapot). A kísérlet hatását tesztelem ezzel. • Kétmintás t-próba: Arra vagyok kíváncsi, hogy két egymástól független adatsor különbözik-e egymástól. Alkalmazási feltétel: minták függetlenek legyenek, szórásuk megegyezzen, és normális eloszlású legyen • Welch-próba: ha a t-próbát el kell vetnünk a szórások különbözősége miatt. ez is két független adatsor különbözőségét vizsgálja.
Parametrikus próbák A. 1. 3. Variancia analízis (ANOVA) • Több egymástól független mintasorozat összehasonlítását teszik lehetővé. • Alkalmazási feltétel: random mintavétel, mintaelemek egymástól függetlenek legyenek, normál eloszlás, varianciák homogének legyenek. • (Egyfaktoros) variancia analízis: Összes adat varianciáját figyelembe véve van-e szignifikáns különbség. Korlátlanszámú adat összehasonlítását teszi lehetővé. Alkalmazási korlát: azt nem mondja meg, hogy melyik mintánk melyiktől tér el szignifikánsan. • Kétfaktoros variancia analízis: két v. több kezelés hatásának vizsgálata, ill. a kezelések közötti interakciók tesztelésére alkalmas. Pl. ugyanazon az egyeden 5 kezelést hajtok végre.
Nem parametrikus próbák • A teszt alkalmazása nem függ az eloszlásoktól. Nominális és ordinális skálán mért változók esetén is ezt kell használni. • A minta elhelyezkedésének tesztelésére a mediánt használják, szemben a parametrikus tesztekkel, amik a minta átlagát alkalmazzák. • Eloszlás függetlenséget többek között úgy érik el, hogy az adatokat transzformálják, vagy az értékek helyett rangokra térnek át. • Figyelem! Ezeknek is vannak alkalmazási feltételeik!
Nem parametrikus próbák Előnyök • Kevés feltételen alapulnak, így kisebb az esély a hibás felhasználásukra. • Egyszerűbb a logikájuk, mint a paraméteres próbáknak. • Skála érzéketlenek, azaz az adatok áttranszformálásával sem változik az eredményük. • Rangsoron alapulnak, így a szélsőséges értékekre kevésbé érzékeny (mérési hibából adódó kiugró értékek), mint a parametrikus. • Gyorsabbak, egyszerűbbek.
Nem parametrikus próbák • A próbák elnevezése gyakran nem egyértelmű, ez kellemetlen félreértésekhez vezethet. • Egy próbának több szinonímja is lehet, és több próba azonos néven is szerepelhet, mivel részben a feltalálójukról, vagy a null eloszlás nevéből származik (pl. Kolmogovorov - Szmirnov próba, chi-négyzet-próba). • Kellemetlenséget az okozhat, hogy gyakran ugyan annak a feltalálónak a nevéhez több próba feltalálása kötődik, és nehéz eldönteni, hogy pontosan melyikről is van szó.
Nem parametrikus próbák Előjel tesztek • A legegyszerűbb nem-paraméteres tesztek. Nem rangokon alapulnak. • Alkalmazási feltétel, hogy a változó folytonos legyen. • Egy ismeretlen mediánt hasonlítunk össze egy hipotetikus értékkel. • Gyakran a t-próbákhoz hasonló alkalmazási körük van.
Nem parametrikus próbák Egymintás előjel teszt: • A legrégibb nem-parametrikus próba. • A minta független random mérések eredménye legyen, legalább ordinális skálán mérjek. • Az egymintás t-próbákkal hozzák analógiába. Páros előjel teszt: • Akkor alkalmazzuk, ha a két minta között kapcsolat áll fent. • Sokan a páros t-próba nem parametrikus párjának is szokták tekinteni.
Rang próbák: Nem parametrikus próbák • A próbastatisztikák nem a megfigyelt értékekből, hanem azok rang számaiból számoljuk. • Egy megfigyelt érték rang száma a sorszáma az értékek nagyság szerinti rendezésében: a legkisebb értéké 1, a második legkisebbé 2, stb. • Mann - Withney-féle U-teszt • Kruskal - Wallis-féle H-próba
Kruskal-Wallis-féle H-próba Példa (Reiczigel et al. 2007) Négy területen (A, B, C, D), 5 -5 random kihelyezett mintanégyzetben számoltuk a pipacsokat. Kérdés: Van-e különbség a négy területen a pipacsok gyakoriságát tekintve? Nem parametrikus próbák H= 11, 47 A chi-négyzet táblázat 3 -as szabadsági fokához rendelt 99%-os kritikus értéknél (11, 345) magasabb az eredményünk, tehát a 4 terület között szignifikáns a különbség.
Nem parametrikus próbák Kruskal-Wallis-féle H-teszt A egyed Rangössz eg B rang egyed C rang egyed D rang egyed rang 37 13, 0 36 12, 0 17 7, 0 44 16, 0 14 6, 0 18 8, 5 0 1, 0 62 19, 0 8 4, 5 28 11, 0 3 2, 0 81 20, 0 18 8, 5 51 18, 0 41 15, 0 48 48, 0 7 3, 0 22 10, 0 8 4, 5 39 14, 0 35, 0 59, 5 29, 5 86, 0
Egyéb hagyományos statisztikai műveletek, fogalmak Szignifikanciaszint (p): • A p érték egy mérőszám arra, hogy a megfigyelt minta mennyire erős bizonyíték a nullhipotézis ellen az alternatív hipotézis javára. • Akkor mondhatjuk, hogy egy mintában megfigyelt tulajdonság szignifikáns, ha túlmegy azon a mértéken, amit még nyugodt lélekkel a véletlen számlájára írhatnánk.
Regresszióanalízis • Akkor alkalmazhatjuk, ha egy mintavételi egységen két v. több változót mérünk egyszerre, és kíváncsiak vagyunk, hogy az egyik változó változásával a másik milyen irányba és mennyit változik. • Magyarán a két változó közt ok-okozati összefüggést feltételez. A kapcsolatot függvénnyel írjuk le. • A két változó közti ok-okozati kapcsolatot csak valószínűsíti, de nem bizonyítja.
• Populációk pontosabb elkülönítését teszik lehetővé. • Regresszió analízissel korrigálhatóak a véletlen változók hatásai (pl. időjárás). Feltételei: • A függő változó (Y) legyen normál eloszlású és a szórások legyenek homogének. • A független változó (X) a kísérletező kontrollja alatt áll, azaz nem véletlen változó. • Regressziós egyenes mindig csak a vizsgálati tartományon belül érvényes, azon túl már nem alkalmazható predikciókra). • A két változónk értékeinek azonos skálán kell szerepelni (pl. mind két változót intervallum skálán kell felvennem), különben más módszert kell alkalmazni az összehasonlításra.
• Függő változó (Y): amit a kísérletben, kutatásban, mint a kezelésre adott válsz reakciót mérek. • Független változó (X, magyarázó változó): ez okozza, vonja maga után a függő változó értékét. Ezt tudom manipulálni, beállítani a kísérlet, kutatás során. • A termelés mennyiség és a műtrágya mennyisége között ok-okozati (kauzális) összefüggés van, mert egyértelműen a termés mennyiségét a műtrágya befolyásolja és nem fordítva. • Ebben az esetben a műtrágya mennyisége a független változó és a termés mennyiség a függő változó.
Lineáris regresszió: • Ebben az esetben egyenest illesztünk a ponthalmazunkra, keressük azt az egyenest, ami lehető-legjobban illeszkedik rá. • Ezt az illesztést meg tehetjük vizuálisan is, de ekkor történhet szubjektív hiba. Többszörös regresszió analízis: • A függő változót egyszerre több magyarázó változóval hozzuk összefüggésbe. • Pl. vizsgáljuk egy osztály hallgatóinak testtömegének és magasságának a kapcsolatát a születéskori testtömeg adataival.
Korreláció analízis • Azt vizsgálja, hogy két változó függ-e egymástól, de nem tételez fel ok-okozati összefüggést köztük. • Nem különböztetünk meg függő és független változót. • A korreláció pozitív, ha X változó nagy értékeinél Y változó is nagy értékeket vesz fel, X kicsi értékeinél pedig Y is kis értéket vesz fel. • Korreláció negatív, ha X nagy értékénél Y kis értéket vesz fel. Pl. A gyerekek tévénézési gyakoriságával romlik a tanulmányi átlag, ez negatív korreláció.
• Feltétel: a két változó normál eloszlású legyen. • Ha a két változó független egymástól, a kétdimenziós normáleloszlás képe szabályos harang alakú. • Ha a két változó között összefüggés van, akkor a 2 D-s kép elnyúl taraj alakú, minél szorosabb a kapcsolat, annál élesebb a taraj képe. • A kapcsolat erősségét méri a Pearson-féle korrelációs együttható (-1 és 1 között változhat, az előjel a kapcsolat irányát jelöli, 0 értéknél nincs kapcsolat). • Lineáris kapcsolatok esetén alkalmazható. • Nem lineáris monoton kapcsolatok jellemzésére a Sperman-féle rang korrelációs együtthatót alkalmazzák.
Többváltozós módszerek
Típusai • Klasszifikáció • Ordináció • Kladisztika
Klaszteranalízis • Az osztályozás „művészete”. • Egyfajta hierarchiát, alá-fölérendeltséget feltételez. • Ábrázolása klasztererekkel, azaz fadiagrammokkal (dendrogramokkal) történik. • Látványos módszer, de ha sok mintám van és sok változónk, akkor érdemesebb ordinációval dolgozni.
Klaszteranalízis
Osztályozás módja Exklusiv: • Minden egyes osztályozni kívánt elem csak egy osztályba, kategóriába tartozik. • Felépítése lineáris. Ilyen pl. a katonai rangjelzések hierarchikus sorrendje, mindenki csak egy kategóriába tartozik (a közlegényt nem lehet a századosok, vagy őrvezetők kategóriájába is besorolni). Inkluziv: - "bennfoglaló osztályozás„ • Egy adott elem nem csak egy osztályba, kategóriába tartozhat bele, hanem többe is. • Ilyen pl. a rendszertani kategóriák egymásra épülése (3 faj -> genus -> osztály) Klaszteranalízis
Klaszteranalízis Agglomerikus: • Minden objektum egységet képvisel. • Alulról haladok fölfelé. • Bizonyos tulajdonságok alapján, bizonyos távolságokra összevonok csoportokat, amég egy egésszé nem olvadnak össze. Divíziv: • Felülről indulok el, és a különbségek alapján szedem szét a csoportokat.
Klaszteranalízis Monotetikus osztályozás: • Egy tulajdonság alapján bontom csoportokra. • A divízív osztályozásoknál van jelentősége, az agglomerikusnál nincsen. Pl. Linné-féle rendszerben az osztályozás alapja az volt, hogy hány lába volt bizonyos élőlényeknek. Politetikus osztályozás: • több tulajdonság együttes kombinációját veszem figyelembe.
Klaszteranalízis A biológiai tudományokban agglomerikus osztályozást végeznek politetikusan. Metodika: • Valamilyen távolság függvényt kell alkalmaznunk. • Adattípustól függően sok féle létezik, pl. csak a bináris adatokra 40 féle távolság függvény létezik. • Legfontosabb az Euklidészi-távolság fv. , de bináris, főleg faunisztikai adatokra gyakran a Rogers-Tanimoto függvényt alkalmazzák. • Ha két osztályt össze akarok vonni, azok távolságát ki kell számolni. • Az alapján, hogy milyen módon számoljuk ki két osztály adatainak távolságát többféle módszert különíthetünk el.
Klaszteranalízis fontosabb típusai: 1. Egyszerű lánc módszer: A legközelebb állók távolságát számolja ki. Egymástól diszkréten elváló csoportok elkülönítésére jó. 2. Teljes lánc módszer: A térben legtávolabbi pontok távolságát számolja ki. Kompakt, de nem élesen elváló csoportokra jó. 3. Csoport átlag módszer: minden pont távolságát megméri mindegyiktől és azt átlagolja. 4. Egyszerű átlag: Két csoportot már egyesítettem és egy 3 -kal akarom összevonni, ekkor leméri távolságokatettől is-attól is és átlagol. 5. Centroid módszer = Súlypont módszer: A csoporton belüli távolságok átlagolásával jelöl ki új pontot és ennek a két új pontnak a távolságát veszi alapul. 6. Medián módszer: Kiszámolja az első és második csoport átlagát, az új pontok távolságából von egy újabb átlagot és ehhez a ponthoz viszonyítja a 3. csoport átlagától vett távolságot.
Ordináció típusai • főkomponens analízis (PCA) • kanonikus korreláció analízis (CCA) • koreszpondencia analízis (COA) • diszkriminancia analízis • többdimenziós skálázás 1. metrikus többdimenziós skálázás 2. nem metrikus többdimenziós skálázás Ordináció
Ordináció • A változóinkkal egy n-dimenziós atributum teret adunk meg. Ezt a sokdimenziós teret 2 dimenziósra csökkentik le az ordinációs módszerek. • Ezért az ordinációt dimenzionalitást csökkentő módszernek nevezik. • Az emberi agy nem képes az ilyen 3 -nál több dimenziós térrel megbirkózni, ezért egy könnyebben feldolgozható teret képez le a számítógépe program. • Pl. a víztest esetén mérem az alábbi változókat: mélység, kiterjedés, ion koncentráció, partvonal, fény, stb. • Minden változót egy-egy tengelyként kezelek. • 50 változónál már nehéz ábrázolni, és értékelni az adatokat. • Az ordinációval az 50 dimenziós teret 2 dimenziósra csökkentem le.
Ordináció Sok dimenzió 2 dimenzió Vizsgált minták csoportjai
Kladisztika • a biológiai rendszertanban a leszármazási mintázatokat feltáró módszertan, a filogenetikus rendszertan modern módszertana. Kladisztika
Irodalom: Précsényi István (szerk 1995): Alapvető kutatástervezési, statisztikai és projektértékelési módszerek szupraindividuális biológiában. KLTE, Debrecen, pp: 21 -89. Podani János (1997): Bevezetés a többváltozós biológiai adatfeltárás rejtelmeibe. Avagy "Mit is kezdjünk azzal a rengeteg sok adattal? ". Scientia Kiadó, Bp. , pp. : 11 -36. Reiczigel J. , Harnos A. , Solymosi N. (2007): Biostatisztika nem statisztikusoknak. Pars Kft. , Nagykovácsi, 455 p. Baráth Cs. -né - Ittzés A. - Ugrósdy Gy. (1996): Biometria: módszertani alapok és a MINITAB programcsomag alkalmazása. Mezőgazda Kiadó, Bp. , 288 p.
- Slides: 58