Gazdasgstatisztika Becslselmlet 2014 oktber 30 s november 5
Gazdaságstatisztika Becsléselmélet 2014. október 30. és november 5.
Véletlen mintavételi eljárások q q q Statisztikai minta definíciója: valamely valószínűségi változóra vonatkozó véges számú független kísérlet vagy megfigyelés (mérés) eredménye A véletlen mintavétel olyan kiválasztási eljárás, melynek során ismert vagy meghatározható a sokaság elemeinek mintába kerülési esélye. A mintavételi hiba számítása csak véletlen minta esetében lehetséges. A véletlen minta biztosítja a reprezentativitást. A reprezentativitás azt jelenti, hogy a minta összetétele csak a véletlen hatások miatt tér el a sokaságétól. visszatevéses egyszerű véletlen minta, visszatevés nélküli egyszerű véletlen minta, rétegzett minta, csoportos és többlépcsős minta § § § 7
A becslés elmélete q q (Majdnem) minden elméleti eloszlásnak van(nak) paramétere(i) Becslési eljárások: § § q A becsülni kívánt sokasági paraméter jelölése: Θ § q q Ezek a sokaság számunka ismeretlen konstans értékei, azaz értékük nem függ a véletlentől A becslés a sokaságból kivett véletlen minta alapján valósul meg: § q Pontbecslés: a becsülni kívánt elméleti paramétert egy értékkel becsüli Intervallumbecslés: előre meghatározott megbízhatósággal egy intervallumot ad a keresett sokasági paraméterre a mintaelemek függvénye, becslőfüggvény Véletlen minta esetén az aktuális minta függ a véletlentől, ezért minden mintaelem, és a függvényükben számított becslés is valószínűségi változó. A mintából számított pontbecslés:
Becslési kritériumok - torzítatlanság q q q Torzítatlan a becslőfüggvény, ha annak várható értéke megegyezik a becsülni kívánt sokasági paraméterrel: Két torzított becslőfüggvény közül azt tekintjük jobbnak, amelyiknél kisebb a torzítás abszolút értéke. Nincs szisztematikus, egyirányú eltérés a becslés és a becsült paraméter között. torzított torzítatlan f(x)
Becslési kritériumok - Hatásosság q Két becslés közül a kevésbé ingadozót tekintjük hatásosabbnak. f(x)
Becslési kritériumok - konzisztencia q q Konzisztens a becslőfüggvény, ha ingadozása a becsült paraméter körül a minta elemszámának növelésével egyre csökken. A becslőfüggvény értékei nagy minta esetén jól közelítsék a megfelelő sokasági jellemzőt. f(x)
Becslési kritériumok - elégségesség q A becslés elégséges, ha minden információt tartalmaz a paraméterre vonatkozóan. Nincs más olyan becslés, amely a paraméterről több információt szolgáltatna, mint az elégséges becslés.
Pontbecslés q q Analógia elve: a mintából a becsülni kívánt jellemzővel megegyező tartalmú mutatót számítunk Mi történik, ha az analógia nem működik? Becslőfüggvények alkalmazása: a becslőfüggvénybe helyettesítjük a minta konkrét értékeit pontbecslés Pontbecslés módszerei: § Maximum-likelihood módszer § Legkisebb négyzetek módszere § Momentumok módszere § Kvantilisek módszere § Grafikus paraméterbecslés
Intervallumbecslés q Pontbecslés: az ismeretlen sokasági jellemző értékére egy mintából egyetlen pontot határoztunk meg, amely eleget tett valamilyen követelménynek. q Intervallumbecslés: a minta alapján olyan intervallumot határozunk meg, amely előre megadott (nagy) valószínűséggel tartalmazza a becsülni kívánt jellemzőt.
Intervallumbecslés Emlékeztető Minta-1 mintáról mintára változik Minta-2 maga is valósz. változó Minta-3 adott elméleti eloszlással, szórással stb. jellemezhető
Intervallumbecslés q q q A pontbecslés csak véletlenül egyezik meg a sokasági paraméterrel, általában annak környezetében helyezkedik el. Hogy milyen sugarú környezetében? § A mintavételi hibától függ. A pontbecslés intervallumbecsléssel egészíthető ki. § A mintavételi hibát is figyelembe véve adott (nagy) megbízhatóságú intervallumbecslést adunk a becsülni kívánt sokasági paraméterre. Milyen széles legyen, hogy lefedje a becsülni kívánt sokasági paramétert? § A mintastatisztika szóródásának mértéke függ a minta elemszámától. § A mintavételi eloszlás ismeretében meg tudunk adni egy olyan intervallumot, amely az ismeretlen paramétert nagy valószínűséggel tartalmazza. A konfidencia-intervallum számításához ismernünk kell, hogyan viselkedik a sokasági paramétert becslő függvényünk: mi a becslőfüggvény átlaga és szórása, és a becslőfüggvény, mint valószínűségi változó milyen eloszlást követ.
q q Intervallumbecslés Az intervallumbecslés lényege, hogy ismerjük pontbecslésünk valószínűségi tulajdonságait, és ezek segítségével egy adott megbízhatósági intervallumot adunk meg a sokasági paraméterre. A konfidencia-intervallum is valószínűségi változó, vagyis a konfidencia-intervallumok is mintáról mintára változnak. A mintavétel végrehajtása után a konfidencia-intervallum vagy tartalmazza a becsülni kívánt sokasági paramétert vagy nem. Amennyiben a mintavételt újra és újra megismételnénk, és elkészítenénk a konfidencia-intervallumokat, az esetek (1 -α) %ában a sokasági jellemző a konfidencia-intervallumon belül lenne.
Intervallumbecslés – várható érték Normális el. M( )= , D( )= 0 ismert n elemű FAE mintából számított számtani átlaggal becsüljük Normális eloszlás (Mintavételi eloszlás)
Várható érték ( ) becslése 2 -ás szabály f(x) 95, 44% -2 0/ n Kvantitatív módszerek +2 0/ n
Várható érték ( ) becslése Kvantitatív módszerek
Várható érték ( ) becslése q Ha a sokaság elméleti szórása (σ0) ismert, akkor az átlag mintavételi eloszlása alapján tetszőlegesen kicsiny α>0 számhoz meghatározható olyan zα/2 mennyiség, hogy q Minél nagyobb az 1 -α=ε megbízhatósági szint, annál szélesebb intervallumot kapunk. Az intervallum hossza függ a mintanagyságtól és a sokasági szórástól. A konfidencia- intervallum sugarát adott megbízhatósági szinthez tartozó maximális hibának nevezzük. q q
Várható érték egyoldali becslése Csak a konfidencia-intervallum felső határának becslése: Csak a konfidencia-intervallum alsó határának becslése: Gazdaságstatisztika
Intervallum szélessége Sokasági szórás Mintaszám Megbízhatósági szint
Példa Egy gép 1000 grammos kávékivonatot tölt. A töltősúly ellenőrzésére 9 elemű véletlen mintát vettek a termelésből, és az alábbi nettó töltési tömegeket mérték grammban: 990, 1004, 996, 1000, 999, 1005, 997, 1001, 1000 A gép által töltött tömeg normális eloszlású valószínűségi változó 4, 5 g szórással. Határozzuk meg 95%-os megbízhatósággal a termékek várható értékének konfidencia intervallumát! Megoldás: n=9
Példa =0, 95 =0, 05 kétoldali becslés: /2=0, 025 z /2=1, 96 Ez azt jelenti, hogy 95%-os megbízhatósági szinten a gép által töltött tömeg várható értéke 996, 1711 gramm és 1002, 051 gramm között van. Gazdaságstatisztika
Példa Tegyük fel, hogy a töltési technológiát úgy kell beállítani, hogy a töltősúly hosszabb távon ne haladja meg az 1002 grammot. A minta alapján – 95%-os megbízhatósággal – teljesíti-e ezt a feltételt a töltőgép? Megoldás: egyoldali konfidencia intervallum n=9 =0, 95 =0, 05 egyoldali becslés z =1, 645 95%-os megbízhatósággal a gép teljesíti a technológiai elvárást. Gazdaságstatisztika
Várható érték becslése – ismeretlen alapsokasági szórás q q Feltétel: a sokaság normális eloszlású, de nem ismerjük sem a várható értéket (μ-t), sem a sokasági szórást (σ0 -t). Az átlag továbbra is normális eloszlású Az ismeretlen alapsokasági szórás (σ) becslésére a korrigált tapasztalati szórást használjuk fel (torzítatlan becslés. ) helyett Student eloszlású valószínűségi változó ν=n-1 szabadsági fokkal. Kvantitatív módszerek
Példa Tegyük fel, hogy az előző töltőgépes példánál nem ismerjük az elméleti szórást, de továbbra is tudjuk, hogy a töltési tömeg normális eloszlással írható le. A grammokban mért töltési tömegek: 990, 1004, 996, 1000, 999, 1005, 997, 1001, 1000 Adjunk becslést 95%-os megbízhatósági szinten a töltőtömeg várható értékére! Megoldás: n=9 A σ0 nem ismert, becsülnünk kell a minta korrigált tapasztalati szórásával: Gazdaságstatisztika
Példa ε= 0, 95 =0, 05 kétoldali becslés: /2=0, 025 ® t /2=2, 306 (DF=9 -1=8) σ0 nem ismert, becsültük Szélesebb intervallum! σ0 ismert Gazdaságstatisztika
Sokasági arány becslése q q q A sokaságon belül egyetlen (mennyiségi vagy minőségi) ismérv szerint 2 csoportba soroljuk a sokasági elemeket. A sokasági arány: P Torzítatlan becslőfüggvénye: p = k/n M(p) = P Binomiális eloszlás D 2(p) = P(1 -P)/n Közelítjük normális eloszlással
Példa A Felvillanyozzuk Kft. napi termeléséből vett n = 200 elemű mintában a hibás égők száma 24 db. 95%-os és 99%-os megbízhatósági szint mellett adjunk intervallumbecslést a sokasági arányra! Megoldás: n = 200 p = 24/200 = 0, 12 = 0, 95 = 0, 05 kétoldali becslés: /2 = 0, 025 z /2 = 1, 96 95%-os megbízhatósági szinten a sokasági arány, vagyis a hibás égők aránya 7, 5% és 16, 5% között van. Gazdaságstatisztika
Példa = 0, 99 = 0, 01 kétoldali becslés: /2 = 0, 005 z /2 = 2, 58 99%-os megbízhatósági szinten a sokasági arány, vagyis a hibás égők aránya 6, 066% és 17, 934% között van. α =1% Szélesebb intervallum! α =5% Gazdaságstatisztika
Sokasági variancia becslése q σ2 torzítatlan becslése: korrigált tapasztalati szórás q Ekkor: változó n-1 szabadsági fokú χ2 eloszlású követ. A χ2 eloszlás: független standard normális eloszlású változók négyzetei összegének eloszlása. Egy paramétere van: ν=n-1, ahol n az összegezendő egymástól független valószínűségi változók számát jelenti. Csak pozitív értékeken értelmezzük, balra aszimmetrikus, a szabadságfok növelésével közelít a normális eloszláshoz. Következmény: a konfidencia intervallum nem lesz szimmetrikus a pontbecslésre! q q
Sokasági variancia becslése Normális el. !! M( )= , D 2( )= 2 - csak pozitív értékekre értelmezett - nem szimmetrikus !! mintából becsüljük, 2 -eloszlású s 2 vagy s*2 (Mintavételi eloszlás) Kvantitatív módszerek
Példa A Felvillanyozzuk Kft. karácsonyfaégőinek élettartamát n = 16 elemű mintából vizsgálva azt találták, hogy az élettartamok korrigált tapasztalati szórása 10 óra. Határozzuk meg az égők varianciájára, ill. szórására vonatkozó 95%-os konfidencia-határokat! Megoldás: n = 16 s* = 10 óra 95%-os megbízhatósági szinten a DF = n – 1 = 16 – 1 = 15 sokasági szórás 7, 38 és 15, 5 óra között van. = 0, 95 = 0, 05 kétoldali becslés: /2 = 0, 025 1 – /2 = 0, 975 54, 5 < 239, 6 7, 38 < < 15, 5 Gazdaságstatisztika
Mintaszám meghatározása q q Eddig feltételeztük, hogy rendelkezésünkre áll egy adott elemszámú minta: a minta alapján kiszámoltuk az elméleti paramétert adott valószínűséggel tartalmazó intervallum határait. Fordítva is eljárhatunk: mekkora mintára van szükség, hogy egy adott pontosságot (Δ-t) elérjünk. Δ q Adott Δ mellett megadható az n érték: Kvantitatív módszerek
Példa Egy gép 1000 grammos kávékivonatot tölt. A töltősúly ellenőrzésére 9 elemű véletlen mintát vettek a termelésből, és az alábbi nettó töltési tömegeket mérték grammban: 990, 1004, 996, 1000, 999, 1005, 997, 1001, 1000 A gép által töltött tömeg normális eloszlású valószínűségi változó 4, 5 g szórással. Meghatároztuk 95%-os megbízhatósággal a termékek várható értékének konfidencia intervallumát. Mekkora mintára van szükségünk, ha a konfidencia intervallum sugarát felére kívánjuk csökkenteni?
Példa Megoldás: Gazdaságstatisztika
Példa Egy élelmiszergyárban 1 kg-os gyümölcskonzerveket csomagolnak automata töltőgéppel. A töltőtömeg eloszlása normálisnak tekinthető. A napi termelés ellenőrzésére 60 elemű véletlen mintát vettek. Az eredményeket az alábbi táblázat tartalmazza: Doboz töltőtömege (g) 980 -990 990 -1000 -1010 -1020 -1030 Összesen db 4 14 28 12 2 60 Készítsünk 95%-os (majd 99%-os) megbízhatósággal becslést a töltőtömeg várható értékre, szórására, valamint az 1000 gramm alatti töltőtömegek arányára! A várható érték becslésekor, ha a mintát a maximális hibát a felére szeretnénk csökkenteni, mekkora mintaelemszámra lenne szükség? Gazdaságstatisztika
Megoldás Várható érték becslése ε=0, 95 – ismeretlen sokasági szórás, de n>30 Mi hiányzik hozzá? Doboz töltőtömege (g) 980 -990 990 -1000 -1010 -1020 -1030 Összesen A standard normális eloszlás táblázatból: Gazdaságstatisztika db 4 14 28 12 2 60
Megoldás 95%-os megbízhatósággal a töltőtömeg várható értéke 1000, 994 gramm és 1007, 006 gramm között van. Legyen most a megbízhatósági szint 99%-os megbízhatósággal a töltőtömeg várható értéke 1000, 043 gramm és 1007, 957 gramm között van. SZÉLESEBB AZ INTERVALLUM!!!! Gazdaságstatisztika
Megoldás q Most válaszoljuk meg a mintaelemszámmal kapcsolatos kérdést! 95%-os megbízhatóság mellett a maximális hiba (Δ): q 99%-os megbízhatóság mellett a maximális hiba (Δ): q Gazdaságstatisztika
Megoldás Szórás becslése ε=0, 95 A chínégyzet eloszlás táblázat alapján (DF=59): 95%-os megbízhatósággal a töltőtömeg szórása 9, 998 gramm és 14, 342 gramm között van. Szórás becslése ε=0, 99 99%-os megbízhatósággal a töltőtömeg szórása 9, 516 gramm és 15, 308 gramm között van. SZÉLESEBB INTERVALLUM Gazdaságstatisztika
Megoldás q q q Sokasági arány becslése ε=0, 95 1000 gramm alatti töltések aránya a mintában: Sokasági arány becslése ε=0, 99 95%-os megbízhatósággal az 1000 gramm alatti töltőtömeg aránya 18, 4% és 41, 6% között van. 99%-os megbízhatósággal az 1000 gramm alatti töltőtömeg aránya 14, 7% és 45, 3% között van. SZÉLESEBB INTERVALLUM Gazdaságstatisztika
Megjegyzés q Mekkora mintaelemszámra lenne szükségünk, ha a sokasági arány becslésénél az intervallumot a harmadára kívánjuk csökkenteni? q 95%-os megbízhatóság mellett: q 99%-os megbízhatóság mellett: Gazdaságstatisztika
- Slides: 40