Wegen en complex samples bekeken Daan Uitenbroek GGD
Wegen en complex samples bekeken Daan Uitenbroek, GGD Amsterdam, www. quantitativeskills. com 23 February 2021
23 February 2021 Wegen bekeken Gewichten samenstellen, waarom 1) Vanwege de design (design correctie) Uit je GGD regio neem je alle gemeenten In iedere gemeente sample je 3 scholen Dan neem je in iedere school alle klassen En vervolgens sample je drie leerlingen per klas Wij hebben alleen te maken met strata (fixed), niet met clusters (random) 2) Vanwege de response (post-stratificatie correctie) Jongeren responderen minder dan ouderen Mannen minder dan vrouwen Allochtonen minder dan autochtonen 2
23 February 2021 Wegen bekeken 3 Gewichten samenstellen, hoe: 1) Inverse insluitkansen Je hebt 10 mensen gesampled in een populatie van 100, dan is de insluitkans 0, 1 (10/100) en de inverse inluitkans is dan 1/insluitkans, Is de enige methoden bij heel complexe designs. Is ingewikkeld bij niet complexe designs zo 2) De empirische methode Je vergelijkt de verdeling van groepen in de steekproef met de verdeling van die groepen in de bevolking, en berekend correctiefactoren door het nemen van ratio's.
23 February 2021 Wegen bekeken 4 Ontwerp Amsterdamsegezondheidsenquête 2012 Leeftijd 19 -34 jaar Stadsdeel Centrum Noord (GGD) Noord (TNO) Oost Zuidoost Zuid West Nieuw-West 35 -64 jaar 65 jaar of ouder 700 600 455 1400 1200 900 700 600 455 700 600 455 Wijkaanpakbuurten (per stadsdeel) Noord (GGD) Noord (TNO) Nieuw-West Oost West Zuidoost Totaal 1755 3500 1755 1755 500 1000 500 500 19. 285
23 February 2021 Wegen bekeken 5 Diemen 2005 Bevolking mannen 18 -34 35 -65 65+ Steekproef 2551 5175 1349 28, 1% 57, 0% 14, 9% 198 621 249 18, 5% 58, 1% 23, 3% 9075 100, 0% 1068 100, 0% 48, 3% vrouwen 18 -34 35 -65 65+ 41, 8% 2614 5286 1820 26, 9% 54, 4% 18, 7% 319 836 329 21, 5% 56, 3% 22, 2% 9720 100, 0% 1484 100, 0% 18795 2552
23 February 2021 mannen 18 -34 35 -65 65+ vrouwen 18 -34 35 -65 65+ Wegen bekeken 6 bevolking 2551 5175 1349 Diemen 2005 steekproef 198 621 249 9075 1068 9075 48, 3% 41, 8% 48, 3% 2614 5286 1820 319 836 329 9720 1484 9720 18795 2552 18795 gewicht 12, 88384 8, 333333 5, 417671 8, 194357 6, 322967 5, 531915 resultaat 2551 5175 1349 2614 5286 1820
Wegen bekeken 23 February 2021 mannen 18 -34 35 -65 65+ vrouwen 18 -34 35 -65 65+ 7 Diemen 2005 (fout) bevolking steekproef gewicht 28, 1% 18, 5% 1, 52 57, 0% 58, 1% 0, 98 14, 9% 23, 3% 0, 64 100, 0% bevolking 26, 9% 54, 4% 18, 7% steekproef 21, 5% 56, 3% 22, 2% 100, 0% gewicht 1, 25 0, 97 0, 84 resultaat 28, 1% 57, 0% 14, 9% resultaat 26, 9% 54, 4% 18, 7%
Wegen bekeken 23 February 2021 8 Diemen 2005 mannen 18 -34 35 -65 65+ vrouwen 18 -34 35 -65 65+ bevolking steekproef gewicht gew. st. pr. 13, 6% 7, 8% 1, 75 13, 6% 27, 5% 24, 3% 1, 13 27, 5% 7, 2% 9, 8% 0, 74 7, 2% 48, 3% 41, 8% 13, 9% 28, 1% 9, 7% 12, 5% 32, 8% 12, 9% 51, 7% 58, 2% 28, 1% 57, 0% 14, 9% 48, 3% 1, 11 0, 86 0, 75 13, 9% 28, 1% 9, 7% 51, 7% 26, 9% 54, 4% 18, 7%
Wegen bekeken 23 February 2021 Cel wegen: Voordelen • Leidt gegarandeerd tot een representatieve steekproef voor de factoren waarop je weegt • Geeft een representatieve steekproef voor alle subgroepen van die factoren • En voor alle kruisingen van die factoren • Leidt tot unbiased schatters • Is de “goldstandard” op wegen gebied 9
Wegen bekeken 23 February 2021 Cel wegen: Nadelen • Vereist dat je de cel waarden hebt op bevolkings- en steekproefniveau voor alle mogelijke combinaties van weegfactoren • Vereist een grote steekproef en een grote bevolking omdat je veel cellen hebt die alle gevuld moeten worden • Geeft vaak een groot design effect, onbetrouwbare schatters 10
23 February 2021 Wegen bekeken Cel wegen: Alternatieven Eerste keus cel wegen (en het fixen van wegen, bijvoorbeeld door het combineren van cellen of factoren) Als cel wegen écht niet mogelijk is, en pas daarna, een alternatief. Twee alternatieven: raking/ regressie technieken (de meeste zijn marge weeg technieken: Deze technieken gaan er meestal vanuit dat weegfactoren onafhankelijk zijn Er zijn uitzonderingen die de steekproef samenhang tussen factoren gebruiken) Graham Kalton & Ismael Flores-Cervantes. Weighting Methods. Journal of Official Statistics 2003; 19: 81 -97. 11
23 February 2021 Wegen bekeken 12 Diemen 2005 Leeftijd 18 -34 35 -65 65+ Bevolking 5165 10461 3169 27, 5% 55, 7% 16, 9% 18795 Geslacht M V 9075 9720 18795 517 1457 578 Steekproef 20, 3% 57, 1% 22, 6% 1, 36 0, 97 0, 74 41, 8% 58, 2% 1, 15 0, 89 2552 48, 3% 51, 7% 1068 1484 2552
Wegen bekeken 23 February 2021 13 Diemen 2005 Leeftijd Man Vrouw 18 -34 198 319 1, 36 35 -65 621 836 0, 97 65+ 249 329 0, 74 1, 15 0, 89 2552 Leeftijd 18 -34 35 -65 65+ Man Vrouw 309, 9 698, 5 213, 9 384, 8 724, 8 217, 8 1222, 2 1327, 5 gewogen 47, 9% 52, 1% bevolking 48, 3% 51, 7% gewogen bevoking 694, 7 27, 2% 27, 5% 1423, 3 55, 8% 55, 7% 431, 7 16, 9% 2549, 7
23 February 2021 Wegen bekeken 14 Amsterdam 2004 Leeftijd 18 -34 35 -65 65+ Etni NL niet NL Bevolking 208205 310761 70226 Steekproef 35, 3% 282 52, 7% 1151 11, 9% 287 589192 1720 317842 271350 589192 53, 9% 46, 1% 517 1203 1720 16, 4% 66, 9% 16, 7% 2, 16 0, 79 0, 71 30, 1% 69, 9% 1, 79 0, 66
Wegen bekeken 23 February 2021 15 Amsterdam 2004 Leeftijd NL Niet NL 18 -34 71 211 2, 16 35 -65 337 814 0, 79 65+ 109 178 0, 71 1, 79 0, 66 Leeftijd 18 -34 35 -65 65+ NL Niet NL 274, 6 476, 7 139, 7 299, 5 422, 5 83, 7 891, 1 805, 6 gewogen 52, 5% 47, 5% bevolking 53, 9% 46, 1% gewogen bevolking 574, 1 33, 4% 35, 3% 899, 2 52, 3% 52, 7% 223, 5 13, 0% 11, 9% 1696, 7
23 February 2021 Wegen bekeken 16
Wegen bekeken 23 February 2021 17 Amsterdam 2004 Leeftijd NL Niet NL 18 -34 71 211 35 -65 337 814 65+ 109 178 18 -34 4, 24 1, 46 35 -65 1, 47 0, 51 1, 2 0, 41 65+ gewogen bevolking 301, 04 308, 06 609, 1 35, 4% 35, 3% 495, 39 415, 14 910, 5 52, 9% 52, 7% 130, 8 72, 98 203, 8 11, 8% 11, 9% 927, 2 796, 2 1723, 4 gewogen 53, 8% 46, 2% bevolking 53, 9% 46, 1%
Wegen bekeken 23 February 2021 18 Marge wegen en cell wegen gecombineerd Mannen Hoge SES Lage SES 18 -34 R 1 35 -65 R 2 65+ Vrouwen R 3 18 -34 R 4 35 -65 R 5 65+ R 6 C 1 C 2
23 February 2021 Wegen bekeken Het weegmodel dat is toegepast (door CBS) is: Primaire eenheid (2128) + GGD(28) x Geslacht (2) x Leeftijd (12) + GGD(28) x Burgerlijke staat (4) + Gemeente ingedikt (391) x Burgerlijke staat (2) + Gemeente ingedikt (391) x Geslacht (2) + GGD(28) x Stedelijkheidsgraad (5) + GGD(28) x Huishoudgrootte (5) + GGD(28) x Geslacht (2) x Leeftijd (3) x Burgerlijke staat (2) + GGD(28) x Etniciteit (3)+ GGD(28) x Inkomen(5). 19
23 February 2021 Wegen bekeken 20 Het weegmodel dat is toegepast (door CBS) is verder: §Geslacht (2): man, vrouw §Leeftijd (13): 17 -18, 19 -24, 25 -29, 30 -34, 35 -39, 40 -44, 45 -49, 50 - 54, 55 -59, 6064, 65 -69, 70 -74, 75+ §Leeftijd (6): 17 -34, 35 -49, 50 -64, 65 -74, 75 -84, 85+ §Burgerlijke staat (4): gehuwd, gescheiden, verweduwd, nooit gehuwd geweest, §Burgerlijke staat (2): gehuwd, niet gehuwd §Stedelijkheidsgraad (5): zeer sterk stedelijk, matig stedelijk, weinig stedelijk, niet stedelijk §Huishoudgrootte (5): 1, 2, 3, 4, 5 of meer personen §Etniciteit (3): autochtoon, westerse allochtoon, niet-westerse allochtoon §Inkomen (5): gestandaardiseerd huishoudinkomen opgedeeld in 5 kwintielen.
23 February 2021 Wegen bekeken 21 Waaraan te denken als je gewichten toepast • Je gebruikt maar één set gewichten per analyse • Iedere “rij” of “record” dus één persoon heeft dan maar één gewicht • Als er meerdere gewichten zijn heeft dit te maken met het feit dat sommige mensen in de ene analyse wel meedoen, maar niet in de andere analyse • Grote gewichten zijn altijd groter dan één en kunnen heel groot zijn (voor NL op donderdag 18 april 2013 13: 51: 27 maximaal 16. 788. 361) • Kleine –proportie- gewichten die we dus liever niet gebruiken zitten rond de één • Grote gewichten kunnen min of meer probleemloos worden gebruikt voor subgroep analysen, kleine gewichten niet • Een gewicht van nul betekend dat die persoon niet meedoet in de analyse • Bij het vergelijken van twee enquêtes (in tijd of plaats) gebruik je de bij die enquête behorende gewichten • Bij het combineren van enquêtes uit dezelfde tijd en plaats moet je nieuwe gewichten ontwikkelen
23 February 2021 Wegen bekeken Wegen in de formules Mean(x)=som(xi)/n Gewogen Mean(x)=som(xi*wi)/som(wi) Gewogen SS=som(sqr(xi-mean(x))*wi) Gewogen Variantie=1/(som(wi)-1)*gewogen SS Etc. etc. 22
23 February 2021 Wegen bekeken Design effecten Worden veroorzaakt door: Stratificatie 0<1 Clustering >1 Wegen >1 En de combinatie DEFF v^=v*deff; effectieve n^=waargenomen n/deff DEFFT sqrt(DEFF) s. e. ^=s. e*defft DEFF >1 meer variantie DEFF<1 minder variantie DEFF altijd >0 Voor veel statistieken geld: ^C 2, ^F, ^t = C 2, F, t/Defft 23
23 February 2021 Wegen bekeken 24 Monitor Design (bij benadering) wi, range DEFF Zuid Holland Zuid, 2006 Leeftijd 19+, 4% uit 14 gemeenten 1, 00 -1, 00 Groningen, 2006. Leeftijd 20+, 2% uit 25 gemeenten 1, 00 -1, 00 Groningen, 2002. In de leeftijd 20 -64 1% in 21 gemeenten en 2% in 4 gemeenten; in de leeftijd 65+ 2% in 22 gemeenten, 4% in 2 gemeenten en 5% in 1 gemeente. 0, 33 -1, 64 1, 14 Amstelland 2002 Leeftijd Gestratificeerd design 0, 34 -1, 63 1, 21 Noord Kennemerland, 2006. Omstreeks 480 per gemeente uit 8 gemeenten, 19 -65 jaar 0, 14 -2, 97 1, 71 Gooi en Vechtstreek, 2004. Omstreeks 1500 per gemeente uit 9 gemeenten, leeftijd 19+ 0, 24 -3, 17 1, 72 Hollands Midden, 2005. Omstreeks 500 per gemeente, 13 gemeenten. Leeftijd 19 t/m 64 jaar. 0, 42 -3, 92 1, 80 Amsterdam, 2004. Circa 200 per groep uit 20 groepen naar 5 leeftijden en 4 etnische groepen, 18 jaar en ouder 0, 04 -3, 21 1, 85 Amsterdam, 2008. Circa 200 uit 56 groepen naar 4 leeftijden en 14 stadsdelen, extra 600 per groep uit 4 leeftijdsgroepen 0, 06 -7, 7/ 0, 2 -5, 0 2, 02/ 1, 93
23 February 2021 Wegen bekeken SPSS Complex Samples is waarlijk complex Wat kan je doen: Een complexe design stop je in SPSS en die trekt de steekproef, en berekend de insluitkansen Maakt automatisch de gewichten met de inverse insluitkansen Vervolgens hou je rekening met post-stratificatie (de non response) 25
23 February 2021 Wegen bekeken SPSS Complex Samples gaan we niet complex doen CBS heeft een planfile gestuurd waar we rekening houden met: De gewichten (samengesteld met inverse insluitkansen en poststratificatie) maar behandeld als geheel posstratificatie Let op: gewichten vergroten de variantie! Strata: primaire eenheden (buurten gecombineerd met leeftijd) en leeftijd. Let op: strata verkleinen de variantie! 1 * Officieel CBS. CSPLAN ANALYSIS /PLAN FILE='m: dataagmdaansplan 1. csaplan' /PLANVARS ANALYSISWEIGHT=weegfactor 1 /SRSESTIMATOR TYPE=WOR /PRINT PLAN /DESIGN STRATA=Primaire. Eenheid leeftijdsgroep /ESTIMATOR TYPE=WR. 26
Wegen bekeken 23 February 2021 27 Complex samples methoden vergeleken, met en zonder leeftijd KLGGA 208 Algemene gezondheid in 2 categorieen Population Size 0 Gaat wel, Slecht tot zeer slecht 1 Zeer goed tot goed Total Estimate Standard Error Design Effect 188850, 393 4619, 191 1, 671 578374, 345 767224, 738 5208, 621 3900, 630. 2, 125 CSPLAN ANALYSIS /PLAN FILE='m: dataagmdaansplan 2. csaplan' /PLANVARS ANALYSISWEIGHT=weegfactor 1 /SRSESTIMATOR TYPE=WOR /PRINT PLAN /DESIGN STRATA=Primaire. Eenheid /ESTIMATOR TYPE=WR. KLGGA 208 Algemene gezondheid in 2 categorieen Population Size 0 Gaat wel, Slecht tot zeer slecht 1 Zeer goed tot goed Total Estimate Standard Error Design Effect 188850, 393 4619, 335 1, 672 578374, 345 767224, 738 5208, 799 3900, 698. 2, 125
Wegen bekeken 23 February 2021 28 Complex samples methoden vergeleken, WOR of WR KLGGA 208 Algemene gezondheid in 2 categorieen Population Size 0 Gaat wel, Slecht tot zeer slecht 1 Zeer goed tot goed Total Estimate Standard Error Design Effect 188850, 393 4619, 191 1, 671 578374, 345 767224, 738 5208, 621 3900, 630. 2, 125 CSPLAN ANALYSIS /PLAN FILE='m: dataagmdaansplan 2. csaplan' /PLANVARS ANALYSISWEIGHT=weegfactor 1 /SRSESTIMATOR TYPE=WR /PRINT PLAN /DESIGN STRATA=Primaire. Eenheid /ESTIMATOR TYPE=WR. KLGGA 208 Algemene gezondheid in 2 categorieen Population Size 0 Gaat wel, Slecht tot zeer slecht 1 Zeer goed tot goed Total Estimate Standard Error Design Effect 188850, 393 4619, 335 1, 653 578374, 345 767224, 738 5208, 799 3900, 698. 2, 102
Wegen bekeken 23 February 2021 29 Complex samples methoden vergeleken, zonder strata KLGGA 208 Algemene gezondheid in 2 categorieen Population Size 0 Gaat wel, Slecht tot zeer slecht 1 Zeer goed tot goed Total Estimate Standard Error Design Effect 188850, 393 4619, 191 1, 671 578374, 345 767224, 738 5208, 621 3900, 630. 2, 125 CSPLAN ANALYSIS /PLAN FILE='M: dataagmdaansplan 4. csaplan' /PLANVARS ANALYSISWEIGHT=weegfactor 1 /SRSESTIMATOR TYPE=WOR /PRINT PLAN /DESIGN /ESTIMATOR TYPE=WR. KLGGA 208 Algemene gezondheid in 2 categorieen Population Size 0 Gaat wel, Slecht tot zeer slecht 1 Zeer goed tot goed Total Estimate Standard Error Design Effect 188850, 393 4800, 630 1, 805 578374, 345 767224, 738 7766, 751 7608, 743. 4, 725
Wegen bekeken 23 February 2021 30 Complex samples methoden vergeleken, geslacht als extra strata KLGGA 208 Algemene gezondheid in 2 categorieen Population Size 0 Gaat wel, Slecht tot zeer slecht 1 Zeer goed tot goed Total Estimate Standard Error Design Effect 188850, 393 4619, 191 1, 671 578374, 345 767224, 738 5208, 621 3900, 630. 2, 125 CSPLAN ANALYSIS /PLAN FILE='m: dataagmdaansplan 5. csaplan' /PLANVARS ANALYSISWEIGHT=weegfactor 1 /SRSESTIMATOR TYPE=WR /PRINT PLAN /DESIGN STRATA=Primaire. Eenheid geslacht /ESTIMATOR TYPE=WR. KLGGA 208 Algemene gezondheid in 2 categorieen Population Size 0 Gaat wel, Slecht tot zeer slecht 1 Zeer goed tot goed Total Estimate Standard Error Design Effect 188850, 393 4619, 137 1, 653 578374, 345 767224, 738 5005, 325 3542, 806. 1, 941
Wegen bekeken 23 February 2021 31 Methoden vergeleken, geslacht en Primaire. Eenheid als één variabele KLGGA 208 Algemene gezondheid in 2 categorieen Population Size 0 Gaat wel, Slecht tot zeer slecht 1 Zeer goed tot goed Total Estimate Standard Error Design Effect 188850, 393 4619, 137 1, 653 578374, 345 767224, 738 5005, 325 3542, 806. 1, 941 autorecode Primaire. Eenheid/into PEgeslacht. if geslacht eq 2 PEgeslacht=PEgeslacht+200. CSPLAN ANALYSIS /PLAN FILE='m: dataagmdaansplan 6. csaplan' /PLANVARS ANALYSISWEIGHT=weegfactor 1 /SRSESTIMATOR TYPE=WR /PRINT PLAN /DESIGN STRATA=PEgeslacht /ESTIMATOR TYPE=WR. KLGGA 208 Algemene gezondheid in 2 categorieen Population Size 0 Gaat wel, Slecht tot zeer slecht 1 Zeer goed tot goed Total Estimate Standard Error Design Effect 188850, 393 4619, 137 1, 653 578374, 345 767224, 738 5005, 325 3542, 806. 1, 941
23 February 2021 Wegen bekeken Analyse: Kruistabel in Complex Samples 32
23 February 2021 Wegen bekeken 33 Statistisch testen Kruistabel Tests of Independence gezondheid algemeen Pearson * bmicat Likelihood Ratio Chi. Square Adjuste d. F df 1 df 2 32, 423 19, 660 1 1680 31, 634 19, 181 1 1680 Sig. , 000 The adjusted F is a variant of the second-order Rao-Scott adjusted chi-square statistic. Significance is based on the adjusted F and its degrees of freedom. Estimate gezondheid algemeen * bmicat. Odds Ratio Relative Risk For cohort bmicat = , 00 For cohort bmicat = 1, 00 Risk Difference. For cohort bmicat = , 00 1, 976 95% Confidence Interval Lower Upper Lower 2, 679 1, 458 1, 329 1, 155 , 672 , 569 , 164 , 090 For cohort bmicat = 1, 00 -, 164 -, 238 1, 529 , 795 , 238 -, 090
23 February 2021 Wegen bekeken 34 Wegen of niet wegen, dat is het probleem De a-priori beslissingsregel voor de hele bevolking: We doen preventie bij de aandoening waar we de sterkste samenhang (!!!!!) vinden tussen gedrag en gezondheid en die ook nog vaak voorkomt (!!)
23 February 2021 Wegen bekeken Het onderzoek 15% response bij vrouwen 90% response bij mannen 35
23 February 2021 Wegen bekeken De data (ongewogen) 36
23 February 2021 Wegen bekeken Niet wegen (ie gewicht=1) & constant houden 37
23 February 2021 Wegen bekeken Wegen (mannen*1; vrouwen*6) tov constant houden 38
Wegen bekeken 23 February 2021 39 Bij constant houden blijft er een weegeffect binnen de categorien Afhankelijke variabele: Eén of meer lichamelijke beperkingen Gecorrigeerd voor geslacht en leeftijd gewogen OR Ongewogen OR Stadsdeel Centrum West Nieuw-West Zuid Oost Noord Zuidoost 1 (ref) 2, 813 3, 393 1, 186 1, 905 2, 865 3, 681 2, 335 2, 548 1, 158 2, 058 2, 35 2, 647
Wegen bekeken 23 February 2021 40 De weegtest Amsterdam 2012 19+jr 19 -34 35 -64 64+ alle bevolking schatting verschil In % 226581 221338, 4 -5242, 6 321984 323121, 4 1137, 4 89582 91400, 4 1818, 4 638147 635860, 2 -2286, 8 -2, 3 0, 4 2, 0 -0, 4
23 February 2021 Wegen bekeken Einde Vragen? 41
- Slides: 41