REPETITION Referensintervall Konfidensintervall Val av test Beroende oberoende

REPETITION Referensintervall Konfidensintervall Val av test Beroende – oberoende variabler Regressionsanalyser- tolkning av resultat 1

Stickprovet – systemaskt fel /bias - KAN minskas genom att Slumpmässigt fel (låg precision) Systematiskt Litet fel (Bias) - KAN INTE minskas genom ökat antal observationer Påverkar Stort slutsatsens validitet/giltighet Litet Stort X X öka antalet observationer - Finns ALLTID Sanna värdet X X Bristande intern validitet

Statistisk metod? Beskrivande statistik Medel, SD (parametrisk) (symmetrisk data, stort stickprov) Median, kvartiler, percentiler (icke-parametrisk) (skev data, litet stickprov) Analytisk statistik • Konfidensintervall (parametrisk) – medelvärden, skillnad mellan medelvärden, skattning från regression Referensintervall (gränsvärden för individer) • Hypotesprövning (parametrisk, icke-parametrisk) • Statistisk inferens analys av riskfaktorer (parametrisk) 3

Grundprinciper vid normalfördelning Observera att μ och σ används för populationen 4

Spridning – variationskoefficient (CV) • n = 20 CV (%) Blodglukos ± SD, mol/L Metod 1 7. 3 ± 1. 2 16. 2 Blodglukos ± SD, mol/L Metod 1 10. 4 ± 1. 1 10. 6 -> CV för metod 1 = 1. 2/20*100% = 16. 2% -> CV för metod 2 = 1. 1/20*100% = 10. 6% Högre CV för metod 1: metod 1 varierar mer än vad metod 2 gör.

Referensintervall Detta är en tillväxtkurva för pojkar 2 – 7 år som används i Sverige; huvudomfång, längd, vikt. Vi fokuserar på längd

Normalområde längd pojkar 2 – 7 år ~ 95% + 2 SD Ϭ Medelvärde µ - 2 SD Ϭ 2 3 4 5 6 7

95% Referensintervall längd pojkar 2 år ~ 95% 94 cm + 2 SD Ϭ Medelvärde µ 88 cm - 2 SD Ϭ 2 82 cm 3 4 5 6 7

Refernsintervall för individer – beräknat utifrån ett stickprov Stickprovet: Friska pojkar 2 år Stort Slumpmässigt urval Representera populationen (t. ex. etniskt ursprung)

Referensintervall för individer – beräknat utifrån ett stickprov • Referensnivå k 90% 95% 99% 1. 65 1. 96 2. 58

Referensintervall längd friska pojkar 2 år Antag att längd är normalfördelad; medelvärde pojkar 2 år = 88 cm, standardavvi Normalfördelning – 95% av uppmätta värden ligger mellan [µ-1. 96*σ och µ+1. 96*σ]: d. v. s. ~2 SD från medelvärdet Referensintervall: 88 -1. 96*3=82. 12 cm och 88+1. 96*3=93. 88 95. 45% av alla pojkar 2 år är mellan 882*3=82 cm och 88+2*3=94 cm långa. 2 år

Sanna medelvärdet för populationen X=88 X= X= X=

Konfidensintervall för ett medelvärde • Confidence level k 90% 95% 99% 1. 65 1. 96 2. 58

• Konfidensintervall (friska pojkar 2 år) i tidigare exempel

Konfidensintervall friska pojkar 2 år •

Konfidensintervall för längd friska pojkar 2 år Tolkning: Med 95% tillförlitlighet kan vi säga att det sanna medelvärdet för populationen (friska pojkar 2 år) ligger mellan 87. 63 och 88. 37

Hypotesprövning – olika tester Typ av variabel Val av test Studiedesign Studiestorlek Stora stickprov Normalfördelning Kvantitativa utfall Små stickprov Snedfördelning Medelvärdesjämförelser En grupp Två eller flera oberoende grupper Ordinala utfall Medianjämförelser Parade mätningar t-test av ett Vanligt t-test, parat t-test, medelvärde variansanalys 8. 1 8. 2 -8. 3 7. 2 En grupp Binära utfall Två eller flera oberoende grupper Två eller Parade flera mätningar oberoende grupper Parade mätningar Chitvåtest, Mc. Nemars Fishers exakta test 12. 3 12. 2 Teckentest Mann-Whitneys Teckentest, Kruskall- Wilcoxons 10. 2 Wallis test teckenrangtest 10. 4 -10. 5 10. 3 Baserad på figur 7. 1, Björk

Parametriska tester: t-test T-test – en av de mest använda parametriska testerna. När kan denna användas? • Kontinuerlig data (intervall- eller kvotskala) & • Vi vill jämföra medelvärdet – En grupp med ett givet värde (t. ex. längd i den svenska populationen) – En grupp med en annan & • Ett stort stickprov (per grupp), eller • Den aktuella variabeln är normalfördelad, eller 18

Hypotestestning – t-test ett medelvärde •

Example: t-test for one mean Exempel t-test – ett medelvärde En annan metod: CI • Medellängden och 95% CI runt medel är: 183 (182. 9 – 183. 1) cm • 95% konfidensintrevall motsvarar 5% signifikansnivå (signifikansnivå = 100% - konfidensnivå) • H 0 (d. v. s. 180 cm) är utanför 95% CI => baserat på 95% CI kan vi förkasta H 0 med avseens på signifikansnivån 5% Observera att båda metoderna (t-test and CI) resulterade I samma slutsats, men CI är mer informativ eftersom det också ger ett område inom vilket det sanna medelvärdet troligen återfinns!

Exempel: output t-test i SPSS Mean in the sample Difference btw mean 874 181. 1 6. 75 0. 23 in the sample and 182 p value -3. 94 873 <0. 001 -0. 9 -1. 5 -0. 3 21

Medelvärdesjämförelse Ofta intressant att jämföra grupper – Fysisikt aktiva versus mindre aktiva – Laktosintoleranta versus toleranta –… efter event/intervention – Data från matchede studier (se senare exampel) – Två olika variabler från samma individ Beroende grupper/PARAD data – Samma individ – olika tidpunkter, t. ex. Före Oberoende grupper – Intervention (behandling) versus placebo

Exempel (problem 8. 1, Björk) Fråga: Skilljer sig vikten mellan individer som behandlats för leukemi som barn och de som inte behandlats för denna sjukdom? • Studiedesign – 44 patienter och 44 matchade kontroller – Matchade avseende ålder, kön, boende och rökning • Utfallsvariabler: medelvärde för fett-fri massa och total kroppsvikt

Exempel (problem 8. 1, Björk) Varför matchade? • Matchade med avseende på variabler som är kända sedan tidigare för att dessa påverkar utfallet • Vi matchar för att bättre se de effekter vi studerar (d. v. s. långtidseffekt av behandling): välj kontroller som liknar fallen så mycket osm möjligt Vad är nollhypotesen?

Exempel (problem 8. 1, Björk) •

Två oberoende grupper • Vid oberoende grupper är sättet att beräkna ttest och konfidensintervall något annorlunda. • Men vi gör liknande antaganden: – Normalfördelade grupper eller – Tillräckligt stora grupper

Testa din kunskap En studie genomfördes bland collegestudenter för att undersöka om nivåerna av vitamin D skiljer sig - mellan könen - beroende på akademiskt ämne (Hälsa vs Konst) (Tennessee State Univ, 2014) Ett t-test gjordes för att utvärdera skillnader i vitamin D mellan män (n=42) och kvinnor (n=53) - män: medelvärde = 21. 76 ng/ml, SD=8. 21 - kvinnor medelvärde =28. 77 ng/ml, SD=10. 76 T-test gav resultatet: t=3. 49, p=0. 001; 95% CI för skillnad medelvärde = 3 – 11 ng/ml. Q 1. Ange nollhypotesen för t-testet Q 2. Beräkna 95%CI runt medevärdet för män och för kvinnor. Överlappar dessa? Vilken slutsats drar du? Q 3. Vilken slutsats dras angående H 0 baserat på resultatet av testet? Q 4. Tolka i ord 95%CI runt medelskillnaden.

Testa din kunskap En studie genomfördes bland kollegestudenter för att undersöka om nivåerna av vitamin D skiljer sig - mellan könen - beroende på akademiskt ämne (Hälsa vs Konst) (Tennessee State Univ, 2014) Ett annat t-test gjordes för att utvärdera skillnaden i vitamin D beroende på Akademiskt ämne. Resultat från testet: t=1. 72, p=0. 09; 95% CI för medelskillnaden= -0. 6 – 7. 9 ng/ml. Q 5. Ange nollhypotesen för detta t-test Q 6. Vilken slutsats dras angående H 0 baserat på resultatet av testet? Q 7. Tolka i ord 95%CI runt medelvärdesskillnaden. .

Icke-paramtriska tester – När? • Ej kontinuerlig variabel (ordinal, nominal) • Kontinuerlig variabel men litet antal observationer • Kontinuerlig variabel men snedfördelning av data I alla dessa fall använd ICKE-PARAMETRISKA TESTER! Icke-parametriska tester baseras på rangordning av dat 29

Tester för median – vilka? • En grupp: teckentest • 2 oberoende grupper: Mann-Whitney U test – Jämför fysiskt aktiva vs mindre aktiva tonåringar (välbefinnande, glukos) – Intervention vs ej intervention (sömnkvalitet) Notera: Antal observationer kan skilja mellan grupperna! • Parade observationer: Wilcoxon teckenrangtest – Matchad fall-kontroll data – Samma grupp före och efter en händelse

Exempel: t-test eller teckentest? Med t-test: H 0: Medelvärde LDL = 2. 5 HA: Medelvärde LDL ≠ 2. 5 Kan inte förkasta H 0!

Exempel: t-test eller teckentest? Men hur ser fördelningen för LDL-värdena ut? Ej normalfördelat! => Resultatet från ttesten gäller ej.

Exempel: t-test eller teckentest? Stickprov median = 2. 13 (betyder? ) Med ranktest: H 0: Median LDL = 2. 5 HA: Median LDL ≠ 2. 5 Slutsats: I detta fall är teckentest den lämpligaste metoden! Sköterskan hade rätt. Patienterna tenderar till att har bra nivåer (låga) av LDL.

Parametrisk vs icke-parametriska tester • Vilken information används? § Parametrisk: Information om fördelning & de observerade värdena § Icke-parametric: Rangordning för de observerade värdena • Vilka är riskerna med parametriska tester? Om villkoren inte är uppfyllda => slutsatser gäller inte • Varför inte alltid icke-parametriska tester? Det är möjligt, men om villkoren för parametriska tester är uppfyllda => parametriskt är kraftfullare att hitta skillnader

Skillnad mellan linjär korrelation och linjär regression • För att använda linjär regression måste vi FÖRST undersöka att variablerna korrelerar • Alla villkor för linjär korrelation måste uppfyllas (kontinuerliga variabler, linjär trend i spridningsdiagrammet, inga outliers och inga subgrupper i datasetet) Korrelation visar om det är ett positivt/negativt samband mellan de två variablerna Regression: om det är en korrelation – om en variabel ändras (ex: BMI), hur mycket ändras den

Linjär regression • Enkel linjär ekvation: Y = α + β*X – I exemplet med blodtryck (BP) och BMI: BP = α + β*BMI • Innebörden av paramtrarna α och β – α kallas intercept (värdet på Y när X = 0) – β kallas lutning/slope för linjen § Ökning av X med 1 enhet → β enheters ökning av Y när β är positiv § Ökning av X med 1 enhet → β enheters minskning av Y när β är negativ

α Tolkning av den linjära regressionsmodellen p- värde • βBlood Pressure= -104. 3 + 1. 064 ∙ BMI • 1 enhets ökning i BMI → 2. 5 enheters ökning i förväntat blodtryck • Förväntat blodtryck är 65 vid BMI = 0 – Ingen data i detta område (ingen med BMI = 0), extrapolering kan ge orealistiska resultat.

Att förstå en linjär regressionsmodell Är det ett samband vi ser? p-värde • • H 0 : β = 0, d. v. s. det är inget linjärt samband inom populationen H 1 : β ≠ 0, d. v. s. det är ett linjärt samband inom populationen p-värde (här benämnt Sig. ) <0. 05 Alltså förkastar vi H 0. Det betyder att vi tror på ett linjärt samband mellan blodtryck och BMI.

Linjär regression – Extrapolera inte! Prediktion av okända värden kan ENDAST göras inom området för observerad data! I en linjär modell finner vi att medelvikten kan beräknas utifrån längd. Mätområdet för längd i denna data är 130 cm – 190 cm Kan man beräkna vikten för en ny person som är 175 cm lång? JA! Kan man beräkna vikten på en ny person som är 100 cm lång? NEJ!

Determinationskoefficienten – R 2 Hur mycket av variationen hos Y kan förklaras av variation hos X? Svar: 54%. Model Summary Model 1 R R Square 0, 734 Adjusted R Square , 538 , 487 Std. Error of the Estimate 5, 774 Dependent Variable: Blood Pressure Predictors: (Constant), BMI 100 -54 = 46% av variation i blodtryck förklaras inte av BMI Om vi försöker minska blodtryck genom att bara fokusera på BMI är det (stor) risk att vi inte kommer att lyckas.

Linjär regression – övning Vikt = -40. 55 + 0. 67*Height a) Baserat på modellen – beräkna vikten för en 160 cm lång person. b) Beräkna också vikten för en 170 cm lång person. c) Vad är tolkningen av paremetern (β) för längd (0. 67)? d) Kan man, baserat på denna modell, beräkna vikten för en person som är 100 cm lång? Beräkna denna eller förklara varför den inte kan beräknas. e) P-värdet för längd är 0. 001. Vilken H 0 är det som testas? Förkastar du denna nollhypotes? f) Kan parametern α (-40. 55) tolkas utifrån ett biologiskt perspektiv? 2

Val av studiedesign – en överblick Påverkar skeendet Studiedesign Experiment Uppföljning över tid Klinisk prövning (Baserad på figur 1. 3, Björk) Ingen påverkan Observationsundersökning Ingen uppföljning över tid Tvärstnittsund ersökning Kohortundersökning Uppföljning över tid Longitudinell undersökning Fall-kontrollundersökning • Kohortundersökning: börjar med ett stickprov (kohort) bestående av friska individer och följer dessa över tid (5 år) för att identifiera riskfaktorer för sjukdom. 42 (Realativ risk) • Fall-kontrollundersökning: identifierar en grupp med fall och en grupp jämförbara (friska) kontroller och tittar bakåt i tiden för att identifiera riskfaktorer

Sist, men inte minst………… Vilken studiedesign vi än väljer, slutsatsen gäller om vi plockade de rätta kaninerna att titta på! Vad vill vi veta om dessa Vi har bara dessa Slumpmässigt Stickprov urval Populationens medelvärde (medel övelevnad, ex) Inferens (gissa!) Stickprovets medelvärde 43
- Slides: 43