Hypotesetesting og kontinuerlige stokastiske variable Petter Mostad 2005

Hypotesetesting, og kontinuerlige stokastiske variable Petter Mostad 2005. 09. 28

Anvendelse av beregnede sannsynligheter • De kan brukes til å optimere beslutninger: – 70% sjangse for regn i morgen: da tar jeg med paraply – 10% sjangse for jordras i dette området i løpet av neste 10 år: området må evakueres • Ofte benyttes imidlertid sannsynligheter slik: – Under hypotesen om at tilfeldigheter genererte de observerte data, så er de altfor usannsynlige. Det må ligge noe annet enn tilfeldigheter bak – Eksempel: 8 eller flere tilfeller av denne sykdommen på ett år i vår kommune har sannsynlighet 0. 1%: Det må være en annen forklaring enn tilfeldigheter

Benytte sannsynligheter for valg av forklaringsmodell • Det vi egentlig gjør er å benytte data til å velge mellom ulike modeller som kan forklare dem. • For å gjøre dette korrekt må vi også ta hensyn til hvor sannsynlige de ulike modellene er før vi ser på de gitte dataene!

Eksempel • Anta at i kommune A er det så mange tilfeller av sykdom X et år at sannsynligheten for dette (når vi antar Poissonmodellen) er 0. 1%. – Kommunelegen vil kanskje da si: Det må være en spesiell sykdomsårsak i kommunen – SSB kan si at sannsynligheten for å observere så mange tilfeller i minst en av landets kommuner er 10%: Det er ikke nødvendigvis noen spesiell sykdomsårsak Hvem har rett?

Løsning • Problemet oppstår fordi man kun ser på sannsynligheten for å observere de gitte data (eller noe mer ekstremt). • Man må også ta hensyn til sannsynligheten for en eller annen alternativ sykdomsårsak: – For kommunelegen i kommune A er den ganske liten – For SSB er sannsynligheten for at en alternativ sykdomsårsak oppstår i EN av landets kommuner en god del større

Eksempel: Hvilken modell passer til mine data? • Vi ser på samme eksempel som i boka: 8 forsøkspersoner har prøvd medisiner A og B, og 7 av 8 foretrekker medisin A. Er medisin A bedre? • Presisering: La p være andelen i populasjonen som foretrekker A. Vi antar at X=”antallet av 8 som foretrekker A” er binomisk fordelt. Hva kan vi si om p?

Valg av modell ut fra data • Hvis p=1/2, så får vi • Hvis p=7/8, så får vi • MEN: Dette beviser ikke at p=7/8. • Ofte er man mest interessert i å undersøke om det kan stemme at p=1/2, eller om dette alternativet kan ”forkastes”. Da brukes ofte hypotesetesting

Hypotesetesting, prinsipp 1. Finn en funksjon av observasjonene (en ”statistikk”) slik at den oftere blir ”mer ekstrem” under de alternative hypotesene enn under ”null-hypotesen” H 0 2. Beregn denne funksjonen av dine data: Om den er ”ekstrem” kan det tyde på at null-hypotesen kanskje bør forkastes til fordel for en alternativ hypotese.

Eksempel, fortsettelse • Anta H 0: p =1/2, og at de alternative hypotesene vi anser mulige er at p>1/2. • Her vil selve X ha egenskapen: – For alle x: Sannsynligheten for at p>1/2 i forhold til når p=1/2. øker når • Hvis vi antar H 0 så er sannsynligheten for å observere 7 eller noe mer ekstremt (dvs. 8) • Siden sannsynligheten er mindre enn 5% vil man tradisjonelt forkaste H 0.

Eksempel, fortsettelse • Anta at de alternative hypotesene vi anser mulige er at • Nå vil |X-4| ha egenskapen: – For alle x: Sannsynligheten for at når i forhold til når p=1/2. øker • Hvis vi antar H 0 så er sannsynligheten for å observere |X-4|=3 eller noe mer ekstremt (dvs. |X-4|=4) • Siden sannsynligheten er større enn 5% vil man tradisjonelt ikke forkaste H 0.

p-verdier • Sannsynligheten, om vi antar H 0, for at ”statistikken” har den observerte verdien eller en mer ”ekstrem” verdi, kalles pverdien • Tradisjonellt forkastes H 0 om p-verdien er mindre enn 5%, og ikke ellers, men andre nivåer brukes også. • Ofte oppgis p-verdien direkte, så kan leseren avgjøre om hun vil forkaste H 0 eller ikke.

MERK: • En lav p-verdi beviser ikke at det finnes alternative hypoteser der sannsynligheten for å observere de gitte data er større enn når man antar H 0. Men i de fleste konkrete tilfeller vil det likevel være sånn. • En p-verdi er, i tillegg til H 0, knyttet til – valg av alternative hypoteser – valg av ”statistikk” som sammenlikner hypotesene og kan dermed endres om disse valgene endres

MERK (forts. ) • P-verdier sier i allmenhet ingenting om sannsynligheten for hypotesen H 0. I mange konkrete tilfeller kan imidlertid en lav p-verdi indikere at forholdet mellom sannsynlighetene til H 0 og de alternative hypotesene endres i de alternative hypotesenes favør.

Eksempel: Lymfekreft • Anta antall lymfekrefttilfeller i en by er Poissonfordelt med parameter. Anta at byer på samme størrelse generellt har en parameter for antall tilfeller. Anta byen observerer X=4 tilfeller. Hvordan kan vi undersøke om eller om ?

Eksempel (forts. ) • Under de alternative hypotesene øker sannsynligheten for at X er stor; vi kan anvende X som ”statistikk” • Vi får • P-verdien blir 0. 00014 og vi forkaster H 0. • Merk at mens så det finnes alternative hypoteser som forklarer data mye bedre enn H 0.

Målevariable og tellevariable • Hittil har vi sett på stokastiske variable (”tellevariable”) der utfallene kan telles, og er adskilte (”diskrete”), for eksempel antall ”suksesser” i et forsøk, eller antall hendelser per tidsrom. • Det er også nyttig å ha modeller der utfallene er alle mulige tall, eller alle mulige tall i et intervall, eller liknende. Målevariable. • Observasjoner kan av og til modelleres på begge måter: Bruk den måten som er nyttig formålet.

Kontinuerlige sannsynlighetsfordelinger • Når det er uendelig mange utfall, må vi snakke om sannsynligheten for at utfallet ligger i et intervall; sannsynligheten for et enkeltutfall er generellt 0. • Begrepene forventning og varians

Eksponentialfordeling Betafordeling Eksempler Normalfordeling Chikvadratfordeling

Normalfordelingen • Mye brukt som modell; data fordeler seg ofte på denne måten. • Mye teori baserer seg på en antagelse om normalfordeling • Har to parametre: Forventningen og variansen • Formelen for sannsynlighetsfordelingen er

μ-2σ μ+2σ Forventningen μ

Simulering • Enhver stokastisk variabel kan representeres som en simuleringsalgoritme, og omvendt. • Eksempler: – For å simulere tallene 1, 2, …, 6, hver med sannsynlighet 1/6: La datamaskinen trekke et tilfeldig tall mellom 0 og 1, og la resultatet bli i dersom tallet er mellom (i-1)/6 og i/6 – For å simulere en variabel med eksponensialfordeling med parameter 1(som eksempel 1 over): La datamaskinen trekke et tilfeldig tall u mellom 0 og 1, og beregn –log(u)

Stokastiske variable og simulering av utfall Histogrammet for n simulerte verdier vil nærme seg sannsynlighets fordelingen når n vokser. n=100000

Egenskaper til gjennomsnittet • Anta X 1, X 2, …, Xn er trukket fra en fordeling. Vi vil studeter egenekapene til gjennomsnittet av disse, for økende n. • I det følgende eksempelet har jeg simulert fra en Eksponensialfordeling: – Først (10000 ganger) beregnet gjennomsnittet av X 1, X 2, X 3. – Så (10000 ganger) beregnet gjennomsnittet av X 1, X 2, …, X 300

Exp. ford. ; λ=1 Gjennomsnitt av 300