Presentasjon av data deskriptiv statistikk Repetisjon Mleniv p
- Slides: 28
Presentasjon av data: deskriptiv statistikk
Repetisjon: Målenivå på variabler n Nominal (nome betyr navn) n Tallverdi kun en ”merkelapp” uten å si noe om mengde av egenskap. F eks kjønn (Kvinne = 1, mann =2). Eksperimentgruppe = 1, kontrollgruppe = 2 n Ordinal: n n Rangering av egenskap, men ikke samme avstand mellom tallverdier Grunnskole (1), Høyskole (2), Bachelor (3), Master (4), Doktor (5) n Intervall n fast avstand mellom tallverdier, men ikke absolutt nullpunkt n IQ 75 80 85 90 95 100 105 110 115 120 125 n Rationivå/forholdstall – har et absolutt nullpunkt n Reaksjonstid, alder, antall ganger man utfører en atferd Mest egnet for videre statistiske analyser
Formål med deskriptiv statistikk n Bli bedre kjent med ditt utvalg n Få en oversikt over hvem som har svart, hvilke skårer de har osv. n Benytter vanligvis statistikkprogram til dette
Eks: Eksperiment med trening og depresjon Person nr Gruppe Eksperiment= 1 Kontroll = 2 Kjønn Mann = 1 Kvinne = 2 Pretest depresjon Posttest depresjon 1 1 1 40 33 2 1 2 42 35 3 1 2 49 40 4 1 2 42 38 5 1 1 35 25 6 2 2 35 32 7 2 1 41 41 8 2 2 50 48 9 2 1 39 40 10 2 2 37 40
Kakediagram
Histogram – fordeling i depresjonsskårer
Eksempel på søylediagram – skåre depresjon før og etter
Eksempel på linjediagram – skåre depresjon før og etter
Mål på sentraltendens Sentraltendens: hvilken verdi er mest beskrivende for utvalget? n Gjennomsnittsverdi: For pretest ekspr. gruppen: (40 + 42 + 49 + 42 + 35)/ 5 = 41, 6 n Median - ranger alle verdier, finn midtverdien 35, 40, 42, 49 = 42 n Modalverdi – hyppigst forekommende verdi: 42 forekommer flest ganger
Skjev fordeling (negativt skjev/venstreskjev) Modal Median Gj. snitt
Normalfordeling Gjennomsnitt Median Modal
Mål på spredning n Variasjonsbredde (laveste til høyeste verdi) n Vårt eksempel: (35, 40, 42, 49), dvs. fra 35 til 49 n Interkvartilrange n Grense fra de 25% laveste verdier til de 75 % høyeste n Varians og standardavvik – the best!:
Samme gjennomsnitt, forskjellig spredning Skåre på depresjon Utvalg 1 Utvalg 2 Utvalg 3 s = 1, 6 s = 4, 1 s = 7, 9
Normalfordeligskurvens skjønnhet 50 % skårer over 50 % skårer under 13, 6% 0, 1 % 34, 1% 13, 6% 2, 2 % -3 s -2 s -1 s X +1 s +2 s +3 s 0, 1 %
Eksempel: IQ-skårer og normalfordelig 50 % skårer over 100 50 % skårer under 100 = 100 s = 15 13, 6% 0, 1 % 34, 1% 13, 6% 2, 2 % 55 70 85 100 115 130 0, 1 % 145
To oppgaver 1. a) b) En person skårer 115 poeng på en IQ test som har middelverdi= 100 og s = 15. Hvor mange prosent skårer lavere enn personen? Hvor mange standardavviker personen fra gjennomsnittsverdien? 2 En person skårer 60 poeng på test for depresjon. (Høy skåre = mye depresjon) n Skårene på testen er normalfordelt med middelverdi lik 40 og s = 10. a) Vil du si at personen har høy grad av depresjon i forhold til andre?
Korrelasjonskoeffisienten – repetisjon n Måler grad av sammenheng mellom to variabler n Pearson’s produkt-moment korrelasjon mest brukt, men det finnes andre også n Utrykkes vanligvis som r n r kan ha verdier mellom – 1 og +1. n Hvis r = 0, ingen sammenheng n Formel (ikke nødv. å pugge denne):
Positiv sammenheng: en-eggede tvillinger og intelligens r =. 91 Har den ene høy IQ skåre, har den andre tvillingen også det. Har den ene lav skåre, har den andre også det
Ingen sammenheng, r = 0. 00
Negativ sammenheng r = -. 70 Jo mer IQ øker, jo færre voldsepisoder. Men sammenhengen er ikke perfekt
Kurvlineær sammenheng r = 0. 00 Betyr ikke nødvendigvis at det ikke er en sammenheng mellom to variabler
R 2 – delt varians (coefficient of determination) n En r på 0. 80 er mer enn dobbelt så sterk som en r på 0. 40 n Opphøyer vi r til R 2, får vi et uttrykk for sammenhengens styrke n r = 0. 40, R 2= 0. 40*0. 40 =. 16 n r = 0. 80, R 2= 0. 80*0. 80 =. 64 n R 2 er et utrykk for hvor mye varians X og Y har til felles n Hvis R 2=. 16, 16 % felles variasjon n Hvis R 2=. 64, 64 % felles variasjon
Regresjon – finner linje som beskriver sammenhengen mellom to variabler r mellom år utdanning og inntekt er i dette eksemplet lik 0. 81 Men hvor mye mer i inntekt gir ett års utdanning?
Regresjonsligningen n Ŷ er den predikerte skåre på Y (inntekt). n X er den aktuelle skåren det predikeres fra (år utdanning). n b er stigningstallet for regresjonslinjen n a er konstantleddet, dvs verdi på Y når X = 0 (inntekt ved null års utdanning)
Formel for utregning
Mer spesifikk utregning
Utregning for Altså: Inntekt forventes å øke med 23, 25 (23 250 kr) for hvert år med utdanning man tar En som har 0 (null) år med utdanning forventes å ha en inntekt på 187 (187 000 kr)
Regresjon – finner linje som beskriver sammenhengen mellom to variabler Finn forventet inntekt for to ulike verdier på utdanning Trekk en linje mellom de to punktene Da har du regresjonslinjen
- Deskriptiv statistikk spss
- Venstreskjev fordeling
- Belønningsskjema mal
- Kombinatorikk klær
- Overernæring
- Lottotall statistikk
- Deskriptiv statistik begreber
- Kildekritik historie
- Deskriptiv problemstilling
- Következményetika
- Deskriptív etika
- Foglalkoz
- Themenentfaltung
- Deskriptiv utsagn
- Pliktetik
- Kohortstudie
- Useful vs usable
- Subjective data vs objective data
- Spatial data and attribute data
- Ukuran pemusatan data dan penyebaran data
- Sumber data primer dan sekunder
- Spatial data and attribute data
- Valid data is reliable data
- Data-data monitoring lingkungan merupakan gambaran dari
- Snapshot standby
- What are secondary keywords
- Difference between data guard and active data guard
- Continuous data examples
- Data reduction in data mining