Fra trre tal til grafisk formidling af deskriptiv

  • Slides: 17
Download presentation
Fra tørre tal til grafisk formidling af deskriptiv statistik Selskab for Surveyforskning, 1 oktober

Fra tørre tal til grafisk formidling af deskriptiv statistik Selskab for Surveyforskning, 1 oktober 2020 Jakob Erkmen, cand. mag. i religionssociologi mail: pdz 622@alumni. ku. dk

BAGGRUND Visualiseringer er blevet til i arbejdet med religionsdelen af Den Danske Værdiundersøgelse (2017)

BAGGRUND Visualiseringer er blevet til i arbejdet med religionsdelen af Den Danske Værdiundersøgelse (2017) • Udgivelser med Peter B. Andersen og Peter Gundelach. • Visualiseringer særligt til en udgivelse til et religionsfagblad for gymnasielærere, som er trykt i farve 1. • Målgruppe: Gymnasielærere, hvor de færreste har en kvantitativ baggrund og evt. gymnasieelever. Visualiseringer med udgangspunkt i en nominal variabel med 7 kategorier • Kategorierne er et resultatet af en klyngeanalyse af danskernes religiøsitet. • Kategorierne er ikke vigtige at forstå her – de kunne være noget andet. Alle visualiseringer er lavet i R-miljøet • Kode er tilgængelig her: https: //ja. kob. pm/share/sfsf_r/pres_r. zip Andersen, Peter Birkelund, Erkmen, J. & Gundelach, Peter (2020 ). Den laaangsomme forandring af religion generation for generation. Religion. Tidsskrift for Religionslærerforeningen for Gymnasiet og HF , nr. 2, 8 -17. 1

DISPOSITION Visualiseringer: 1. En-vejs tabeller. 2. To-vejs tabeller med data over tid. 3. Paneldata

DISPOSITION Visualiseringer: 1. En-vejs tabeller. 2. To-vejs tabeller med data over tid. 3. Paneldata med forløb for individer over tid. Oplægget følger dele af beslutningsprocessen frem til endeligt valg • Både almindeligt brugte såvel som mere atypiske visualiseringer, som har været overvejet, præsenteres i forhold til hinanden. Hvordan opleves og fordøjes visualiseringer? Præcision versus det æstetisk behagende

Visualisering af en-vejs tabeller ======= == Tros-kl ======= ynger, 2017 ======= = Procent =======

Visualisering af en-vejs tabeller ======= == Tros-kl ======= ynger, 2017 ======= = Procent ======= Traditi ====== on ======= Individ el ua Alterna listisk tradi 6 tionel ti Spiritu v gudstro 12 el Areligi 2 4 øs Irrelig 9 iøs Øvrige 9 ======= 23 ======= 17 =======

EN-VEJS TABELLER: CIRKEL- OG SØJLEDIAGRAMMET R pakker: ”ggplot”: geom_bar() + geom_polar() Cirkel versus søjlediagrammer:

EN-VEJS TABELLER: CIRKEL- OG SØJLEDIAGRAMMET R pakker: ”ggplot”: geom_bar() + geom_polar() Cirkel versus søjlediagrammer: Et godt eksempel på spændingsfeltet mellem det æstetisk behagende og det mere præcise. • Kurver er mere behagende at se på end kanter. • Sværere at aflæse arealer og vinkler end længder. R pakker: ”ggplot”: geom_bar() Potentielle problematikker ved begge: • Visuel udmattelse, når de bruges igen og igen. • De er så udbredte, at de i ikke giver blikfang. Fordele ved begge: Ingen indlæringskurve – de fleste kender dem allerede.

EN-VEJS TABELLER: VAFFEL Waffle – det kantede alternativ til et cirkel-diagram. Mere præcist end

EN-VEJS TABELLER: VAFFEL Waffle – det kantede alternativ til et cirkel-diagram. Mere præcist end et cirkel-diagram • Man kan tælle sig frem til procentandele. Mere præcist end et søjlediagram: • Igen, man kan tælle sig frem. • MEN det er stadig i første omgang arealaflæsning, som ikke giver en så præcis gengivelse af størrelsesforhold som længder. Problematikker: • Virvar, når der er mange kategorier. Det gør det svært at aflæse størrelsesforhold uden at tælle. • Der er en indlæringskurve for mange, da det ikke bruges så ofte. R pakker: ”waffle”: geom_waffle() ; ”ggplot”

EN-VEJS TABELLER: FACETTERET VAFFEL R pakker: ”waffle” ; ”ggplot”: geom_waffle() + geom_polar() Vaflen møder

EN-VEJS TABELLER: FACETTERET VAFFEL R pakker: ”waffle” ; ”ggplot”: geom_waffle() + geom_polar() Vaflen møder søjlediagrammet • Facetteret udgave af vaflen – den er delt op i bider, så den fremstår som et søjlediagram. Forskelle fra søjlediagrammet • Man kan aflæse både via længde og areal. • Man kan tælle sig frem til den nøjagtige procentandel – dvs. mere præcist. Mindre virvar end en almindelig vaffel, men der er stadig en indlæringskurve og er stadig kantet.

EN-VEJS TABELLER: PAKKET BOBLEDIAGRAM Fra cirkel med alle kategorier til kategorier med hver sin

EN-VEJS TABELLER: PAKKET BOBLEDIAGRAM Fra cirkel med alle kategorier til kategorier med hver sin cirkel. Fordøjelsesmæssig pointe ift. cirkeldiagrammet: Mere fokus på kategorierne for sig selv fremfor den mere abstrakte helhed de indgår i. • Kan have betydning, hvad man grafisk fremhæver ift. hvis man analyserer på mikroniveau fremfor på makroniveau. • I princippet gør det sig også gældende med søjlediagrammerne, der er vist versus cirkel- og vaffeldiagrammerne. Arealaflæsning af cirkler er ikke præcis. Intuitiv aflæsning • Umiddelbart ingen indlæringskurve – kan aflæses med det samme. Der er kurver og potentielt blikfang ved, at den ikke er så ofte brugt. R pakker: ”packcircles”: circle. Progressive. Layout() + circle. Layout. Vertices() ; ”ggplot”: geom_polygon() Valgt til udgivelse pga. overfor nævnte positive punkter. • Præcision var ikke så vigtigt, da det er cirka tal – bare læseren får et indtryk af størrelsesforhold.

===== = Tros- ===== klyng ===== er = ==== Tradi ===== tione === Indiv

===== = Tros- ===== klyng ===== er = ==== Tradi ===== tione === Indiv ===== l idual ==== 1990 19 = ==== Alter 99 istis ==== n ==== 2008 20 = Spiri ativ gud k tradit 17 ionel ==== stro 7 t Areli uel = 7 = == 21 g 6 Irrel iøs 23 2 6 2 i 18 Øvrig giøs 25 1 2 8 e 25 ===== 8 24 7 ===== 7 21 9 ===== 7 18 ===== 1 9 4 === 21 12 ==== 2 3 16 ==== 17 ==== Visualisering af to-vejs tabeller (data over tid)

TO-VEJS TABELLER: LINJEDIAGRAM Det kendte linjediagram, der hurtigt kan give et overblik over udviklinger

TO-VEJS TABELLER: LINJEDIAGRAM Det kendte linjediagram, der hurtigt kan give et overblik over udviklinger i forhold til hinanden. Virvar, når der er mange kategorier • Alt efter hvordan data ser ud, så kan et første indtryk være noget af et virvar ligesom her. • At nogle udviklinger overlapper hinanden i størrelsesandele hjælper ikke – det ser mærkeligt ud. Fanget af kryds • Man bliver let fanget af kryds, dvs. hvor udviklinger krydser hinanden. • Tager fokus fra stabile udviklinger. • • R pakker: ”ggplot”: geom_line() + geom_point() Fint hvis man ønsker at fremhæve, at noget bliver større eller mindre ift. noget andet. Problem, at noget får så meget fokus, hvis alle kategoriernes udviklinger er vigtige i en analyse.

TO-VEJS TABELLER: SLOPE GRAPH R pakker: ”ggplot”: geom_line() + geom_point() + geom_text() ; Sorteringsfunktion:

TO-VEJS TABELLER: SLOPE GRAPH R pakker: ”ggplot”: geom_line() + geom_point() + geom_text() ; Sorteringsfunktion: https: //github. com/jkeirstead/r-slopegraph Et alternativ til det almindelige linjediagram: ”slope graph” (der findes forskellige slags af disse). Ingen kryds - kategoriers udvikling gengives separat • Mindre fokus på markante udviklinger pga. kryds. • Stabile udviklinger træder mere frem, når de står separat (og står mere tydeligt når de ikke overlapper hinanden!). Tabel med visuel støtte til at give et hurtigt overblik • Y-aksen kan sorteres som en tabel - her efter størrelse i 1990. • Der er dobbelt læseretning – både horisontalt og vertikalt. At udviklinger står for sig selv fremfor i forhold til hinanden gør det umuligt at sammenligne størrelsesforhold kun ved at se på grafikken. • Problem: Annotering med tal er nødvendig for at kunne sammenligne. Intuitiv aflæsning • På trods af at den ikke er særlig kendt, synes det let for folk at aflæse den. Blev valgt pga. let aflæsning og fokus på udviklingerne separat fra hinanden - men ikke brugt pga. der ikke var plads til den del af analysen.

BONUS: DATA OVER TID MED ANIMATION Bonus: Animation og interaktion giver muligheder! • I

BONUS: DATA OVER TID MED ANIMATION Bonus: Animation og interaktion giver muligheder! • I princippet kan alle visualiseringer for en -vejstabeller animeres og bruges til data over tid. Bemærk: Kategorier er kollapset til 3 kategorier kun som eksempel – giver ikke god mening at gøre kvalitativt set. • Mange bobler i bevægelse bliver uoverskueligt. Direkte link til interaktivt element: https: //trostesten. dk/datavis_pr%c 3%a 6 s/fig_2. 3_ animated_packed_circles_reduced_cat. html R pakker: ”packcircles”: circle. Progressive. Layout() + circle. Layout. Vertices ; ”ggplot”: geom_polygon() ; ”plotly”: ggplotly()

=== = Sek === ven === s === n = = === 1990 =====

=== = Sek === ven === s === n = = === 1990 ===== 1 = === 16 2 === A === l = 1 t = 4 e 3 === Irr rnati ===== 1 === 3 eli v 4 = gud = Ind g = i === str ==== 6 ivi øs 5 = o Tra = d === 199 ===== 5 dit ualis 6 = 9 === Alt ion t = i === = s 5 e === 7 k t === Øvr rnati el = r A = a === lte === 4 d ige v 8 i t === gud r = Alt i n = o I a nel rre === str tiv ==== 4 ern 9 = o Spi a Ind ligiø gud ==== 10 4 === rit tiv g s = i s t = v I = r u === uds idu rre o el T r 11 3 200 ===== a = t a l d = r l i i = o i I 8 g === t s n i I i t d ø ndi 12 on 3 === isk i === Ind vidua s === == tra Alt vidua el 13 3 A ivi = l l = d i ern l t = i s i I e d = t t s r r = Alt i ati t rel uali isk n = 14 o 3 I i a = n rre s ti == e el t Irr igiø sti Irr rnati v gud k tra 15 sk radit 2 Ind ligiø v gud ==== e eli v g stro dit str tra Ind ligiø s i ion s v I i g u i r 16 one o 2 Tra dit dst ivi dua el s rel iøs l I d i r d l i n i o o u i I g div nel a ndi 17 iøs 2 Ind tion sti idu listi s v A i e k i l v Alt dua te a 18 s tra 2 Alt idua l e d Alt rnati listi k tra e Spi rnati listi 19 2 Øvr rnati listi ern v g sk t dit s r v k s i A i i a v u k t r g l g o t t I d u a u t e n r i g r 20 s e 2 Irr dit dst e e a uds trad Spi rnati v gud tro e ion l Al relig l ro ditio tro it 21 2 rit el v g stro ter iøs nel Arel ligiø S u s u n p i e Øvr dst ati iri g l 22 2 A i l øs i ro v g te Are tuel Ind ge uds 23 2 Ind rnati l ivi tro Irr igiøs ivi v g A d l 24 ua 2 Irr e d te Irr ligiø eli ualis udstr Øvr rnati listi 25 2 S eli g s tis o p s i i v g ir k ø Øvr g k t Spi ge uds trad 26 2 Alt ituel s ige iøs rad r t i i Ø e r t t iti vri r o Spi i u n 27 o e 2 I a nel l ndi one ge t r i i Ø vri l Irr tuel 28 2 Alt vidua v gud g e e str lig Ø e l v r i A r n sti rel 29 o iøs 1 Spi ige a t i s Tra r Irr igiøs 30 1 Alt ituel v gud k tra d e str dit Tra ition ern Tra ligiø 31 o 1 S ion dit a e pir tiv dit s Tra el ion l i I i t g n 32 o 1 I dit u e u d n r e l d i e r l s vid l I e i t n l o S r d i n pir 33 o ua 1 Irr i giø Ind vidua el e Øvr ituel listi 34 1 Irr ligiø s ivi lis sk i g I e d s t e ndi tra ua Tra is 35 1 Ind ligiø dit d Ind vidua listi k tra i Alt ition 36 sk 1 Tra vidua s dit ivi l i e e e s r l t l I d i d t n r n o u A i a a d n a l 37 s t 1 Ind ition listi d i e sk Ind vidua listi k tra ition l In terna iv gu iv e 38 s tra t 1 Ø d d ivi e l d k i vri idual l i s l is iv v ti tr t dit Ind d ist 39 1 Alt ge ion ivi ualis tisk radit onel Alter idual gudst o i s t i A e i el r d k nat s lte r one o ual tisk rad A t n l 40 t 1 Ø i a t r i v i s r t l i e a v r t k n i s r tra d A i i a v t n i g l g o t t A i a t u t e n r i g r 41 s t 1 Tra d ion d e e uds Alt rnati v gud k tra ition l Ir eligi iv gu stro aditio d el tro 42 1 dst ern el v g stro dit rel øs nel Alte ition A i r a e u i l r one o l Øvr dst g ter tiv n 43 i 1 A a øs rel ti l i Alt nati gud ro Øvr ge 44 1 Irr igiøs v gud ern v g stro ige str A e a u l l t T d t i i r 45 o 1 Øvr ern giø v g stro adi S i a s u t p g t I d i iri i ndi 46 one 1 Ind e tue v gud stro v l S i i p v Alt dua ir l 47 str 1 Ind idua e o Spi ituel i Alt rnati listi 48 1 Alt vidua listi rit s e v k s r Spi ern u l n g t e S a u r l p 49 1 Øvr dst rit ati istis k tra adi iri tiv S i r u v t t g p g o e Ø i u uds ir l gud k tra ditio vri 50 one el 1 Tra e tro str l dit nel Are ituel dit Alt ge 51 o 1 I ion lig i r e rel onel Are el i Alt rnati i 52 1 A lig øs g r i e v e ø r A lig i s n g r ø S a u e s p 53 ti 1 Irr ds l iøs ir Are igiøs e Are ituel v gud tro 54 1 Alt ligiø lig str lig A e i r r o ø Øvr iøs el s 55 1 Ind nati s i Are igiøs iv v Ind ge 56 1 S lig pir idual guds ivi Irr i i ø S d t s p 57 u 1 Irr eli uel isti tro ir al Visualisering af forløb på individniveau med paneldata (Bemærk: Tabel er rettet ift. hvad der fremgår i live præsentationen, da der var en fejl med kategori-labels. )

INDIVID-FORLØB OVER TID MED PANELDATA: TABEL ======= Sekvens ======= 1 2 3 4 5

INDIVID-FORLØB OVER TID MED PANELDATA: TABEL ======= Sekvens ======= 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 === n === 16 14 13 6 5 5 4 4 4 3 3 2 2 2 2 1 1 1 ============== 1990 ============== Alternativ gudstro Irreligiøs Individualistisk traditionel Traditionel Alternativ gudstro Øvrige Alternativ gudstro Spirituel Irreligiøs Individualistisk traditionel Alternativ gudstro Spirituel Areligiøs Irreligiøs Øvrige Traditionel Individualistisk traditionel ============== 1999 ============== Alternativ gudstro Irreligiøs Individualistisk traditionel Traditionel Individualistisk traditionel Alternativ gudstro Irreligiøs Individualistisk traditionel Alternativ gudstro Spirituel Irreligiøs Alternativ gudstro Øvrige Individualistisk traditionel Alternativ gudstro Øvrige Spirituel Irreligiøs Areligiøs Irreligiøs Traditionel Individualistisk traditionel Spirituel Øvrige Traditionel Alternativ gudstro Individualistisk traditionel Alternativ gudstro ============== 2008 ============== Alternativ gudstro Irreligiøs Individualistisk traditionel Traditionel Individualistisk traditionel Alternativ gudstro Øvrige Irreligiøs Alternativ gudstro Individualistisk traditionel Irreligiøs Spirituel Alternativ gudstro Individualistisk traditionel Alternativ gudstro Spirituel Irreligiøs Individualistisk traditionel Traditionel Individualistisk traditionel Øvrige Alternativ gudstro Øvrige Traditionel Alternativ gudstro Areligiøs Irreligiøs Øvrige ============================ Øvrige ============== . . . 73 ======= 1 === (Note: N = 157) At følge individ-forløb med paneldata er overvældende i tabelform. Bemærk, at der er 73 unikke forløb for blot 157 individer. Giver måske ikke så meget mening at tale om præcision ift. visualisering her – at få et let tilgængeligt overblik må være målet?

INDIVID-FORLØB OVER TID MED PANELDATA: ALLUVIAL-DIAGRAM Alluvial, det ikke helt ualmindelige flow diagram –

INDIVID-FORLØB OVER TID MED PANELDATA: ALLUVIAL-DIAGRAM Alluvial, det ikke helt ualmindelige flow diagram – her med kun to data punkter. Virvar er en vigtig pointe • Her er visualiseringens virvar et udtryk for, at mange ændrer deres tro over tid. Overblik og lettere fordøjelse af ellers store tabeller • Side lange tabeller bliver til et billede. • Eksplorativ værdi, da man måske ser mønstre i forløb, man ellers ikke havde lagt mærke til. I store træk er den intuitivt forståelig • Virvar som her er dog en hurdle – er forvirrende at se på for dem jeg har præsenteret det for i starten… men flot. Kurver er behagende. Analytisk begrænsende på individniveau • Hvis man tilføjer flere år, mister man adgang til at følge individer gennem alle år. R pakker: ”ggforce”: gather_set_data() + geom_parallel_sets() ; ”ggplot” Valgt på baggrund af, at den er intuitivt forståelig og giver mulighed for, at læser selv kan gå på opdagelse i data.

INDIVID-FORLØB OVER TID MED PANELDATA: DEKORERET PARALLEL KOORDINAT DIAGRAM Parallel koordinat diagrammer med mulighed

INDIVID-FORLØB OVER TID MED PANELDATA: DEKORERET PARALLEL KOORDINAT DIAGRAM Parallel koordinat diagrammer med mulighed for at følge individer over lige så lang tid man vil. Hurtigt uoverskueligt, når der er kategorier med stor bevægelighed mellem dem • Derfor vises kun et udgangspunkt her: de der i 1990 var irreligiøse. Farvelægning giver bedre overblik • Her er de mest almindelige forløb farvelagt. En tabel har sneget sig ind (!) • For at få et bedre indtryk af størrelsesforhold er der tilføjet en tabel. (Fortsættes på næste slide) R pakker: ”Tra. Miner”: seqdef(), seqpcplot(), seqtab()

FORTSAT: INDIVID-FORLØB OVER TID MED PANELDATA: DEKORERET PARALLEL KOORDINAT DIAGRAM (FORTSAT fra sidste slide

FORTSAT: INDIVID-FORLØB OVER TID MED PANELDATA: DEKORERET PARALLEL KOORDINAT DIAGRAM (FORTSAT fra sidste slide – nu med de spirituelle) Mange muligheder! Udgangspunkt og farvelægning kan ændres efter behov • Fx kun farvelægning af de forløb, der ikke er irreligiøse i 2008. • Fx skifte udgangspunkt til alle, der på et tidspunkt er irreligiøse. • Oplagt at bruge til eksplorativ dataanalyse – kompleksitet i store datasæt gøres mere overskueligt. Ikke så kønt at se på og der er en indlæringskurve forbundet med grundlaget for visualiseringen. Blev brugt som eksplorativt afsæt, før den endelige præsentation (alluvial) blev lavet. R pakker: ”Tra. Miner”: seqdef(), seqpcplot(), seqtab() Mange muligheder • Fx politisk ståsted over tid, sygdomsforløb, uddannelsesforløb, livsbegivenheder. • Uddannelse etc. vil måske se mere ud som en trappe.