SIV 1102 4 Kategoriske variabler og normaltilnrmelsen Kapittel
SIV 1102 -4: Kategoriske variabler og normaltilnærmelsen Kapittel 11 9/13/2021 Fred Wenstøp 1
Oppgaver • Oppgave 10 -2 • Oppgaven oppgir ikke rådata, men kun gjennomsnitt og varians for to stikkprøver. Hypoteseprøvingen foregår med Welsh formler på side 224 i læreboken. Siden variansene er relativt like, kan vi regne med noe rundt 80 frihetsgrader, men dette må dessverre regnes ut. Man kan bruke Statark til beregningene ved å åpne vindu II-8, og så skrive inn gjennomsnittene og variansene og antallene direkte i rutene og derved overskrive de formlne som allerede er der. • Oppgave 10 -3 • Her gjelder det samme som ovenfor, men det er også spørsmål som gjelder kun én stikkprøve. Da brukes formlene på s. 235 og Statarks vindu II-6. 9/13/2021 Fred Wenstøp 2
Én Andel • Vi gjør n eksperimenter og observerer ettall og nuller • Vi ønsker å estimere p = P(1)=andelen av ettall i populasjonen – a er summen av ettallene, a/n er gjennomsnittet – pga sentralgrenseteoremet er a/n tilnærmet normalfordelt – derfor er z standard normalfordelt og et konfidensintervall for p: 9/13/2021 Fred Wenstøp 3
Data fra siviløkonomstudiet Høsten 2000 • Fil: Puls 2000 (nedlastbar) – Av 91 jenter var det 21 som røykte – Av 118 gutter var det 21 som røykte – Lag et 95% konfidensintervall for hver av populasjonene – Test om p = 0. 32 • Dette er gjennomsnittet i den norske befolkningen 9/13/2021 Fred Wenstøp 4
Konfidensintervallets vidde • Politiske meningsmålinger • 1200 mennesker har blitt spurt • De estimerte andeler for partiene er vist, sammen med de resulterende 95% konfidensintervall 9/13/2021 Fred Wenstøp 5
Stikkprøvens størrelse • Du ønsker en vidde på maksimalt 2 L = 0, 02 og en sikkerhet på 1 -2 a = 95% • Hvor mange må du intervjue • Det verste er hvis p = 0, 5, da er det størst usikkerhet 9/13/2021 Fred Wenstøp 6
To andeler • Data – a 1 og n 1 fra populasjon 1 • 21 jenter røyker ut av 91 – a 2 og n 2 fra populasjon 2 • 21 av 118 gutter røyker • Test om røykeandelene i populasjonene er like! • Resonnementet er helt parallelt med det for to gjennomsnitt, og vi får de enkle formlene på side 253 -254 i læreboka – Med dem kan vi lage konfidensintervall for differansen mellom populasjonsandlene og teste på likhet mellom dem 9/13/2021 Fred Wenstøp 7
Kontingenstabeller • Metoden med to andeler sammenligner to variabler der hver av dem kan ha kun to verdier slik som Røyker/Røyker ikke og gutt/jente, etc. • Kontigenstabeller brukes når en eller begge variablene har mer enn to verdier – f. eks. politisk parti og kjønn • Kontigenstabeller er koblet til kji-kvadrattesten • Nullhypotesen er at det ikke er sammenheng mellom verdiene til de to variablene – det er ingen forskjell på hva jenter og gutter stemmer på 9/13/2021 Fred Wenstøp 8
Kji-kvadrattesten • 100 jenter og 200 gutter har blitt spurt om hvilket part de stemmer på • Hvis det ikke er forskjell på gutter og jenter, forventet vi at 2/3 av de 60 stemmene som arbeiderpartiet fikk ble gitt av gutte, etc. • Kan avvikene skyldes tilfeldigheter? • Det svarer kjikvadratobservatoren på 9/13/2021 Fred Wenstøp 9
- Slides: 9