www nr no Forelesning 8 HSTAT 1101 Ola

  • Slides: 24
Download presentation
www. nr. no Forelesning 8 HSTAT 1101 Ola Haug Norsk Regnesentral 06. 10. 04

www. nr. no Forelesning 8 HSTAT 1101 Ola Haug Norsk Regnesentral 06. 10. 04

Husker du? www. nr. no

Husker du? www. nr. no

Dagens temaer ► Gjennomsnitt av stokastiske variabler ▪ ► Forventningsverdi ▪ ▪ ▪ ►

Dagens temaer ► Gjennomsnitt av stokastiske variabler ▪ ► Forventningsverdi ▪ ▪ ▪ ► Egenskaper Teststørrelse Konfidensintervall Hypotesetesting Sammenlikning av forventningsverdier ▪ ▪ Ett utvalg – to tilstander (pardata) To forskjellige utvalg www. nr. no

Eksempel ► Blodprosenten til r mannlige idrettsutøvere skal måles ▪ ▪ Anta at de

Eksempel ► Blodprosenten til r mannlige idrettsutøvere skal måles ▪ ▪ Anta at de r utøverne danner et tilfeldig utvalg fra populasjonen av (en gruppe) idrettsutøvere Hver av de r prøveverdiene Xi, i = 1, …, r, kan oppfattes som en trekning fra populasjonen med en forventet blodprosent µ og et visst standardavvik σ Ut fra de r målingene dannes gjennomsnittet Rimelig: er et mer presist anslag forventet blodprosent, µ, i populasjonen enn én enkeltmåling Xi www. nr. no

Eksempel forts. ► Gjentar eksperimentet i alt n ganger med r nye idrettsutøvere fra

Eksempel forts. ► Gjentar eksperimentet i alt n ganger med r nye idrettsutøvere fra samme populasjon ▪ ▪ ► For hver gang danner vi gjennomsnittlig måleverdi slik at vi totalt ender opp med n verdier Siden vi måler på nye idrettsutøvere for hver gang, vil vi forvente at alle er litt forskjellige. Dette er uttrykk for at også gjennomsnittsverdien har en viss tilfeldighet knyttet til seg. Hvilke egenskaper har fordelingen til ? www. nr. no

Gjennomsnitt av stokastiske variabler ► Anta at vi har n stokastiske variabler alle med

Gjennomsnitt av stokastiske variabler ► Anta at vi har n stokastiske variabler alle med forventningsverdi µ og standardavvik σ , ► For gjennomsnittet ► Dersom ► Merk! Standardavviket til gjennomsnittet av n variabler er altså lavere enn standardavviket til én enkeltmåling. Dette betyr at presisjonen øker ved å bruke som anslag på µ i forhold til å bruke en enkeltmåling. gjelder da at i tillegg er uavhengige, så er www. nr. no

Gjennomsnitt av stokastiske variabler www. nr. no

Gjennomsnitt av stokastiske variabler www. nr. no

Gjennomsnitt av stokastiske variabler ► Fordelingen til gjennomsnittet ▪ Dersom er uavhengige og normalfordelte

Gjennomsnitt av stokastiske variabler ► Fordelingen til gjennomsnittet ▪ Dersom er uavhengige og normalfordelte variabler, så vil også være normalfordelt. ▪ Dersom ”bare” er uavhengige stokastiske variabler (ikke nødvendigvis normalfordelte), så vil likevel tendere mot en normalfordeling såfremt gjennomsnittet baseres på mange nok enkeltmålinger (ofte er n = 10 tilstrekkelig) (pga. sentralgrenseteoremet). www. nr. no

Forventningsverdi ► Teststørrelse ▪ Basert på n enkeltvariabler Xi , i=1, …, n, som

Forventningsverdi ► Teststørrelse ▪ Basert på n enkeltvariabler Xi , i=1, …, n, som alle har forventningsverdi µ, så er den beste punktestimatoren for µ. ▪ Under forutsetning om uavhengighet mellom normalfordelte (µ, σ) enkeltvariabler Xi, så er normalfordelt med forventningsverdi µ og standardavvik slik at også er standardnormalfordelt. www. nr. no

Forventningsverdi ► Teststørrelse forts. ▪ ▪ ▪ Hvis σ er kjent, kan Z brukes

Forventningsverdi ► Teststørrelse forts. ▪ ▪ ▪ Hvis σ er kjent, kan Z brukes til å lage konfidensintervall og teste hypoteser om µ. I mange tilfeller er σ ikke kjent. Som estimat for brukes hvor s er empirisk standardavvik (boka s. 31). Størrelsen er (Student) t-fordelt med n-1 frihetsgrader. www. nr. no

Forventningsverdi ► Teststørrelse, forts. ▪ Kjært barn har mange navn: Studentfordelingen, Student t -fordelingen

Forventningsverdi ► Teststørrelse, forts. ▪ Kjært barn har mange navn: Studentfordelingen, Student t -fordelingen og t –fordelingen brukes alle om denne fordelingen ▪ t -fordelingen er symmetrisk og har én parameter: antall frihetsgrader ▪ Få frihetsgrader ▪ Når antall frihetsgrader er stort, er t -fordelingen tilnærmet lik normalfordelingen har stor spredning www. nr. no

Forventningsverdi Student t - fordelingen sammen med normalfordelingen www. nr. no

Forventningsverdi Student t - fordelingen sammen med normalfordelingen www. nr. no

Forventningsverdi ► Konfidensintervall ▪ Basert på teststørrelsen tn-1 kan vi skrive der er 1

Forventningsverdi ► Konfidensintervall ▪ Basert på teststørrelsen tn-1 kan vi skrive der er 1 -α/2 kvantilen i t - fordelingen med n -1 frihetsgrader. ▪ Når σ er ukjent, er dermed et 95% konfidensintervall forventningen µ gitt ved www. nr. no

Forventningsverdi Hvordan finner man 97. 5% persentilen i t fordelingen med 26 frihetsgrader? 0.

Forventningsverdi Hvordan finner man 97. 5% persentilen i t fordelingen med 26 frihetsgrader? 0. 975 0. 025 Tabell: P(T>t) Svar: 2. 056 df: antall frihetsgrader (”degrees of freedom”) www. nr. no

Forventningsverdi ► Hypotesetesting ▪ Tester om µ av typen (her: ensidig; tilsvarende for tosidig)

Forventningsverdi ► Hypotesetesting ▪ Tester om µ av typen (her: ensidig; tilsvarende for tosidig) kan baseres på teststørrelsen som er t – fordelt med n -1 frihetsgrader når µ = a. ▪ p-verdien, gitt som (· 2 for tosidig test), kan bestemmes fra tabelloppslag. Muligens finner vi bare en skranke for p-verdien siden tabellen kun er gjengitt for visse persentiler. www. nr. no

Sammenlikning av forventningsverdier ▪ Generell situasjon: ◦ Vi har to serier med observasjoner, ◦

Sammenlikning av forventningsverdier ▪ Generell situasjon: ◦ Vi har to serier med observasjoner, ◦ Lar , uavhengige, og antar at både forventningene og standardavvikene er ukjente. ◦ Målsetning: Avgjøre (via hypotesetest) om opp konfidensintervall for differansen ◦ Dataseriene kan komme fra objekter (f. eks. personer) i det samme utvalget målt ved to ulike tilstander eller fra to forskjellige utvalg. og . , og stille www. nr. no

Sammenlikning av forventningsverdier ► Data fra ett utvalg ▪ ▪ Pardata: Sett av målinger

Sammenlikning av forventningsverdier ► Data fra ett utvalg ▪ ▪ Pardata: Sett av målinger som beskriver alle ”måleobjektene” (f. eks. personene) ved to ulike tilstander I denne situasjonen er n 1 = n 2 (= n) Danner tallserien Skriver videre for gjennomsnittet av differansene, og har at estimert standardavvik for blir hvor s bestemmes fra www. nr. no

Sammenlikning av forventningsverdier ► Data fra ett utvalg – hypotesetest ▪ Vi ønsker å

Sammenlikning av forventningsverdier ► Data fra ett utvalg – hypotesetest ▪ Vi ønsker å teste om forventningene er forskjellige: ▪ Til dette bruker vi teststørrelsen ▪ som er t -fordelt med n-1 frihetsgrader når H 0 er sann. p-verdien blir dermed (for en tosidig test): generell t -fordelt variabel med n-1 frihetsgrader www. nr. no

Sammenlikning av forventningsverdier ► Data fra ett utvalg - konfidensintervall ▪ representerer endringen i

Sammenlikning av forventningsverdier ► Data fra ett utvalg - konfidensintervall ▪ representerer endringen i forventningsverdi fra den ene tilstanden til den andre ▪ Et 95% konfidensintervall for er gitt ved www. nr. no

Sammenlikning av forventningsverdier www. nr. no

Sammenlikning av forventningsverdier www. nr. no

Sammenlikning av forventningsverdier ► Data fra to forskjellige utvalg ▪ Ser i dette tilfellet

Sammenlikning av forventningsverdier ► Data fra to forskjellige utvalg ▪ Ser i dette tilfellet på differansen til gjennomsnittene for hvert utvalg ▪ Krever ikke at utvalgene skal ha like mange observasjoner (n 1 ≠ n 2) ▪ Danner nå størrelsene og med tilhørende estimerte standardavvik s 1 og s 2. ▪ Forventningsverdiene i de to gruppene er www. nr. no

Sammenlikning av forventningsverdier ► Data fra to forskjellige utvalg - hypotesetest ▪ Vi ønsker

Sammenlikning av forventningsverdier ► Data fra to forskjellige utvalg - hypotesetest ▪ Vi ønsker å teste om forventningene er forskjellige: ▪ Til dette bruker vi teststørrelsen ▪ Hvis H 0 er sann, er frihetsgrader t –fordelt med n 1 + n 2 – 2 www. nr. no

Sammenlikning av forventningsverdier ► Data fra to forskjellige utvalg – konfidensintervall ▪ Et 95%

Sammenlikning av forventningsverdier ► Data fra to forskjellige utvalg – konfidensintervall ▪ Et 95% konfidensintervall for i situasjonen med to forskjellige utvalg er gitt ved www. nr. no

Sammenlikning av forventningsverdier www. nr. no

Sammenlikning av forventningsverdier www. nr. no