Adatmodellek A modellezs statisztikai alapjai Statisztikai modell cl

  • Slides: 25
Download presentation
Adatmodellek A modellezés statisztikai alapjai

Adatmodellek A modellezés statisztikai alapjai

Statisztikai modell? ? ? • cél: feltárni, hogy bizonyos jelenségek között létezik-e az általunk

Statisztikai modell? ? ? • cél: feltárni, hogy bizonyos jelenségek között létezik-e az általunk feltételezett valóban létezik-e • ehhez adatok kellenek, melyek elemzésével az összefüggések feltárhatók • itt mindegy, hogy statisztikáról beszélünk, vagy geoinformatikáról – a lényeg ugyanaz

Az adatgyűjtés problémája Valós világ Elméleti modell Logikai modell Fizikai modell entitások leegyszerűsítése azon

Az adatgyűjtés problémája Valós világ Elméleti modell Logikai modell Fizikai modell entitások leegyszerűsítése azon jellemzőkre, amik a későbbiekben szerepet játszanak a modellben az entitások megfelelői, az objektumok tényleges adatgyűjtés

Az adatgyűjtés problémája

Az adatgyűjtés problémája

Populáció és minta alapsokaság v. populáció megszámlálhatatlan mintavétel minden egyed mérési hiba mintavételi hiba

Populáció és minta alapsokaság v. populáció megszámlálhatatlan mintavétel minden egyed mérési hiba mintavételi hiba választott egyedek mintavételi egység minta

A minta mennyire jó reprezentációja a populációnak? - mérőszámok átlag: hipotetikus érték minél nagyobb

A minta mennyire jó reprezentációja a populációnak? - mérőszámok átlag: hipotetikus érték minél nagyobb a minta, annál jobb a közelítés DE rendszerint a minta nem nagy – sőt! igen kicsi, kisebb mint kellene

A minta mennyire jó reprezentációja a populációnak? - mérőszámok total error, négyzetes összeg, variancia,

A minta mennyire jó reprezentációja a populációnak? - mérőszámok total error, négyzetes összeg, variancia, szórás

TE=0 SS=5. 2 S 2=1. 3 SD=1. 14

TE=0 SS=5. 2 S 2=1. 3 SD=1. 14

A minta mennyire jó reprezentációja a populációnak? - mérőszámok Standard error – az átlag

A minta mennyire jó reprezentációja a populációnak? - mérőszámok Standard error – az átlag hibája (a mintaátlagok szórása): megmutatja, hogy a minta mennyire reprezentálja a populációt - ha nagy a szám, akkor a hiba is nagy - ha kicsi, akkor a mintaátlag hasonló a populációátlagéhoz, vagyis a gyűjtött adatok jól tükrözik a valós világot (populáció)

A minta mennyire jó reprezentációja a populációnak? - mérőszámok konfidencia intervallum: egy tartomány, amibe

A minta mennyire jó reprezentációja a populációnak? - mérőszámok konfidencia intervallum: egy tartomány, amibe a populáció átlaga esik a mintaátlagok 95%-ában (esetenként 99%ában)

 M: átlag adatpontok SD: szórás SE: átlag hibája CI: konfidencia tartomány

M: átlag adatpontok SD: szórás SE: átlag hibája CI: konfidencia tartomány

Student félet-paraméter értékei t(2)=12, 706 t(3)=4, 303 t(4)=3, 182 t(10)=2, 262 t(20)=2, 093 t(∞)=1.

Student félet-paraméter értékei t(2)=12, 706 t(3)=4, 303 t(4)=3, 182 t(10)=2, 262 t(20)=2, 093 t(∞)=1. 96

Regresszió – mint modell • • mi az amit látunk? mennyire megbízható az eredmény?

Regresszió – mint modell • • mi az amit látunk? mennyire megbízható az eredmény? mekkora a hibája? minden körülményt figyelembe vettünk?

Előfeltételek • • normalitás outlier, influent data homoszkedaszticitás autokorreláció

Előfeltételek • • normalitás outlier, influent data homoszkedaszticitás autokorreláció

Az R 2 bűvöletében • a modell annál jobb, minél jobban illeszkedik a trendvonal

Az R 2 bűvöletében • a modell annál jobb, minél jobban illeszkedik a trendvonal • DE nem minden áron

Többváltozós lineáris regresszió • 1 függő és több független változó • modellek – enter

Többváltozós lineáris regresszió • 1 függő és több független változó • modellek – enter (mindent megtart) – forward (változók egyesével lépnek be, az lesz a második, amelyik a megmagyarázott hányadot legjobban növeli) – backward (minden független változó benn van, az kerül ki amelyik elhagyása érdemben nem csökkenti a megmagyarázott hányadot) – stepwise (minden modellbe került változó helye bizonytalan, ha egy új belépésével egy már benn lévő magyarázóereje lecsökken, akkor kikerül)

Többváltozós lineáris regresszió • multikollinearitás a független változók nem korrelálhatnak egymással – ilyen esetben

Többváltozós lineáris regresszió • multikollinearitás a független változók nem korrelálhatnak egymással – ilyen esetben az R 2 a közös hányad miatt torzít VIF, tolerance

R a standard hiba növekedése a multikollinearitás miatt (hánysorosra nő) 0, 0 1, 0000

R a standard hiba növekedése a multikollinearitás miatt (hánysorosra nő) 0, 0 1, 0000 0, 2 1, 0206 0, 4 1, 0911 0, 6 1, 2500 0, 8 1, 6667 0, 85 1, 8983 0, 90 2, 2942 0, 95 3, 2026 0, 96 3, 5714 0, 97 4, 1135 0, 98 5, 0252 0, 99 7, 0888 0, 995 10, 0125 0, 999 22, 3663