Bootstrap 10 loeng Kuidas hinnata standardviga On meil
Bootstrap 10. loeng
Kuidas hinnata standardviga? On meil statistik, näiteks asümmeetriakordaja
Kuidas hinnata standardviga? Milline on a standardviga, σ(a)? Idee: Kui me teaksime uuritava populatsiooni jaotust, siis võiksime võtta palju valimeid (genereerida palju valimeid) meid huvitavast populatsioonist ning leida saadud hinnangute standardhälve
Visioon: kui me vaid teaksime populatsiooni jaotust. . . Valim (n=100) a Valim 1 1. 778449 Valim 2 2. 842720 Valim 3 1. 736951 Valim 4 1. 613445 Valim 5 2. 599493 Valim 6 1. 854594 Valim 7 1. 698651 Valim 8 1. 787671 Valim 9 2. 330740 Valim 10 3. 393992. . . . s(a)=0, 545. . .
Populatsiooni jaotusest. . .
Populatsiooni jaotusest. . .
Populatsiooni jaotusest. . .
Populatsiooni jaotusest. . .
Populatsiooni jaotusest. . .
Bootstrap meetodi idee Idee: Empiiriline (valimi) jaotusfunktsioon ≈ tegelik uuritava tunnuse jaotus populatsioonis 1. Genereerime palju (bootstrap-) valimeid jaotusfunktsioonist Fn(x) 2. Arvutame meid huvitava statistiku (näiteks a) väärtuse igas bootstrap-valimis 3. Saadud tuhandete statistiku väärtuste pealt rekonstrueerime teststatistiku jaotuse või hindame seda jaotust iseloomustava arvkarakteristiku väärtuse (hindame hinnangute standardhälbe)
Näide Mis juhtuks, kui me ei oskaks hinnata valimikeskmise standardviga (valimikeskmise standardhälvet)? Võrdleme klassikalist standardvea hinnangut Bootstrap-meetodil saadud hinnanguga.
Standardvea hinnangud erinevates valimites (n=10)
Standardvea hinnangud erinevates valimites (n=10)
Standardvea hinnangud erinevates valimites (n=10)
Statistiku nihe: Nihe = E(Hinnang) - tegelik väärtus Nihke ligikaudne leidmine: 1. Arvuta populatsiooni tegelik parameetri väärtus 2. Võta 100000 (soovituslikult: ∞) valimit uuritavast populatsioonist 3. Hinda kõigis valimites parameetri väärtus 4. Leia keskmise hinnangu ja parameetri tegeliku väärtuse erinevus
Bootstrap-meetod nihke hindamiseks 1. Arvuta, milline oleks populatsiooni tegelik parameetri väärtus, kui populatsiooni jaotusfunktsiooniks oleks valimi jaotusfunktsioon Fn(x). 2. Võta 100000 (soovituslikult: ∞) bootstrapvalimit jaotusest Fn(x) 3. Hinda kõigis valimites parameetri väärtus 4. Leia keskmise hinnangu ja parameetri tegeliku väärtuse (populatsioonis Fn(x)) erinevus
Näide Tahan hinnata dispersiooni σ2. Statistik:
Näide: nihe bootstrap-metodil n=length(valim) boot_tegelik=sum((valim-mean(valim))**2)/n Hiidvalim=sample(valim, 1000000, replace=TRUE) bootstrap_valimeid=10000 boot_tegelik = sum((Hiidvalim-mean(Hiidvalim))**2)/(n+5) stat=rep(NA, bootstrap_valimeid) for (i in 1: bootstrap_valimeid){ bvalim=valim[as. integer(runif(n)*n+1)] stat[i]=sum((bvalimmean(bvalim))**2)/(n+5) Bootstrap-hinnang } nihkele (n=100): nihe=mean(stat)-boot_tegelik nihe Nihe=((n-1)/(n+5)-1)*σ2 -0. 0575914 Tegelik nihe: -0. 05714286
Bootstrap-usaldusintervall
B-tegelikkus – q 0. 025 = 0, 98 - 0, 44 = 0. 54 Ligikaudne interpretatsioon: tegelik väärtus võib hinnangust olla 0, 54 ühiku võrra suurem.
B-tegelikkus – q 0. 975 = 0, 98 - 1, 20 = -0, 21 Ligikaudne interpretatsioon: tegelik väärtus võib hinnangust olla 0, 21 ühiku võrra väiksem.
Bootstrap usaldusintervalli valem Alumine piir: statistik + (B-tegelikkus – qa/2) Ülemine piir: statistik + (B-tegelikkus – q 1 -a/2) Kus • statistik – statistiku väärtus valimis • B-tegelikkus – hinnatava parameetri väärtus siis, kui populatsiooni jaotus oleks samasugune kui sinu valimi jaotus • qa - bootstrap valimite pealt leitud statistikute a-kvantiil.
Kui hästi töötab?
Kui hästi töötab? Ilmutatud kujul täpne arvutusvalem vs Bootstrap Tõde: Uuritava tunnuse jaotus on Y ~ Exp(2), Uuritava tunnuse tegelik dispersioon on seega DY = 0, 25
10000 valimit. . . Arvutusvalem: 6201 õiget usaldusintervalli ehk arvutab tegelikult 90%-UI asemel 62%-UI. . Bootstrap: 7350 õiget usaldusintervalli. . . ehk arvutab tegelikult 90%-UI asemel 73, 5%-UI. .
Bootstrap ja parameetriline UI
- Slides: 41