PODATKOVNI ARHIVI in SEKUNDARNA ANALIZA PODATKOV Janez tebe
PODATKOVNI ARHIVI in SEKUNDARNA ANALIZA PODATKOV Janez Štebe, ADP, Univerza v Ljubljani 2008, FF http: //www. adp. fdv. uni-lj. si/
Sekundarna analiza, kaj je kaj ni? Je • Metodološki pristop, ki lahko kombinira več različnih metod, virov podatkov in analitičnih postopkov • Poudarek je na izkoriščanju prednosti uporabe obstoječih podatkovnih virov – vsebuje fazo iskanja in vrednotenja obstoječih podatkovnih virov Ni • Metoda, analitični postopek (anketna metoda, večnivojska analiza, etnološka raziskava, analiza besedil. . . ) – lahko pa uporablja katerokoli od teh • Ne vsebuje faze načrtovanja in zbiranja podatkov na novo – lahko pa se kombinira http: //www. adp. fdv. uni-lj. si/
Razloge za uporabo sekundarne analize lahko razdelimo v tri skupine (Hayman v Štebe, 1999): – Konceptualno-vsebinski razlogi (primerjava med različnimi časovnimi obdobji; že testirani vprašalniki; abstraktna konceptualizacija) – Metodološki razlogi (kombinacija več istovrstnih ali raznovrstnih virov podatkov; slabost – nepoznavanje podrobnosti zbranih podatkov- kakovost) – Ekonomski razlogi (prihranek denarja in časa) Glej ŠTEBE, Janez. Izkoriščanje zapuščine slovenske empirične sociologije za današnje namene v okviru sekundarne analize. V: Družboslovne spremembe na Slovenskem / vabljena urednica Katja Boh. Ljubljana : Univerza : Slovensko sociološko društvo (1999). - (Družboslovne razprave), ISSN 0352 -3608 ; Letn. 15, št. 30/31). - str. 232 -244. Dokument v RTF za ogledovanje. http: //www. adp. fdv. uni-lj. si/
Faze raziskave in posebnosti sekundarne analize • • • Izbor problema v SA Konceptualizacija in SA Enote in vzorci Merjenje (zanesljivost, veljavnosti) Analiza http: //www. adp. fdv. uni-lj. si/
Izbor problema v SA • Potrjevanje teorije, prikaz stanja – Izhajam iz vnaprej definiranega raziskovalnega problema in iščem – Podatkovno-centrično vsebinsko ter metodološko ustrezne spremenljivke, pregledovanje po podatkovne vire za analizo vsebinah spremenljivk izbranega problema v razpoložljivih virih za – Pri odločanju za SA tehtam iskanje raziskovalnih stroške (razpoložljivost podatkov, zamisli (preizkus I) čas, kakovost in ustreznost za dani problem v primerjavi z novim zbiranjem podatkov) – Medčasovno, primerjalno raziskovanje in raziskovanje specialnih populacij, . . . • Iskanje problema: http: //www. adp. fdv. uni-lj. si/
Konceptualizacija in SA – več pristopov • Pristop z uporabo operacionalnih definicij – iščemo dobesedno ekvivalentne ali vsaj ex-post harmonizirane spremenljivke tem v referenčni literaturi • Hyman (1972): Če ne najdemo dobesedno spremenljivk, poizkušamo razmišljati abstraktno – širše konceptualizacije • Neodvisnost konceputalizacije – isti pojav lahko nastopa v različnih konceptualizacijah, npr. udeležba na lokalnih volitvah – indikator povezanosti v skupnosti ali političnega delovanja http: //www. adp. fdv. uni-lj. si/
Merjenje (zanesljivost, veljavnosti) • • Prihrani čas za zbiranje (vendar moramo upoštevati dodatni čas, ki ga porabimo za seznanjanje z datoteko in za dodatno pripravo podatkov in analize) Najpomembnejše znane raziskave so narejene z upoštevanjem visokih standardov kvalitete, tudi pri uporabi uveljavljenih indikatorjev za merjenje konceptov Zaradi velikega števila vsebinskih področij je vsakemu konceptu namenjeno samo omejeno število indikatorjev – manjša zanesljivost; toda, večinoma so izbrani s predhodnim testiranjem merskih karakteristik Z uporabo večih virov bolje ocenimo pristranosti merjenja: Glej npr. Baumgartner in Steenkamp: Response Styles in Marketing Research: A Cross-National Investigation. Journal of marketing research, May 2001 http: //www. adp. fdv. uni-lj. si/
Analiza • Medčasovne longitudinalne analize in primerjalne mednarodne datoteke, ki jih analiziramo s kompleksnimi analitičnimi pristopi (kohortna analiza, večnivojska analiza, upoštevanje kontekstualnih dejavnikov in merske kvalitete spremenljivk) • Širok nabor “neodvisnih spremenljivk” za multivaritno analizo vzročnosti http: //www. adp. fdv. uni-lj. si/
Enote in vzorci • Kombiniranje večih vzorcev med sabo za pripravo datotek za medčasovno, študij specialnih populacij in mednarodno primerjalno raziskovanje • Kombiniranje večih virov podatkov za večnivojsko analizo (npr. prostorski, statistični in anketni) • Sekundarna analiza ima največ prednosti ko gre za datoteke velikih velikosti iz anket – Možnost analize na specialnih podpopulacijah - npr. Iz General Household Survey (GHS) – letni vzorci nad 20. 000 anket posameznikov - problemi ostarelih (strejši od 65 let) ali poročene ženske (nad 40 let) http: //www. adp. fdv. uni-lj. si/
Primer kompleksne priprave in analize podatkov • Ganzeboom, Harry B. G. , Anton Kramberger, Paul Nieuwbeerta (2000): The Parental Effect on Educational and Occupational Attainment in Slovenia During hte 20 th Century. Družboslovone razprave, No. 32 -33. http: //dk. fdv. uni-lj. si/db/ http: //www. adp. fdv. uni-lj. si/
Upoštevani podatkovni viri • SJM 1968 – 1998, štiri različne letne datoteke • Slovenski podvzorci izbranih mednarodnih primerjalnih datotek ISJP, ISSP in TBS • Združen vzorec več kot 10. 000 respondentov ki so odgovarjali na vsa zastavljena vprašanja • Ex post harmonizacija spremenljivk (doseganje izobrazbe rekodirano v leta iz originalov, 4 – grobe kategorije izobrazbe , 7 mednarodno predpisanih kategorij ali direktnega merjenja let šolanja) http: //www. adp. fdv. uni-lj. si/
Analitični prijemi • Različne tradicije raziskovanja mobilnosti (analiza tabel in regresijski modeli) • Multivaratni regresijski modeli z upoštevanjem učinka kohorte za primerjavo različnih obdobij • Upoštevanje učinka razlik v strukturi (izobrazbeni in poklicni) http: //www. adp. fdv. uni-lj. si/
Poučevanje • ESDS guides http: //www. esds. ac. uk/support/onlineguides. asp • UKDA Learning and teaching resources : http: //www. dataarchive. ac. uk/support/teaching. asp; • ESS Edunet http: //www. europeansocialsurvey. org/index. php? option=com_con tent&task=view&id=72&Itemid=117 • ICPSR Courses & Learning Tools http: //www. icpsr. umich. edu/ICPSR/training/index. html • Arhivski vodič http: //www. sscnet. ucla. edu/issr/da/tutor/index. html http: //www. adp. fdv. uni-lj. si/
Ponovitev: pomagaš si z viri literature vezanimi na podatke Ponovitev (replikacija), preverjanje originalnih raziskovalnih rezultatov na istih podatkih, primerno za poučevanje (Preizkus II: literatura in podatki) • • Arhiv materialov v povezavi z objavami http: //www. icpsr. umich. edu/ICPSR/pra/index. html (http: //www. icpsr. umich. edu/citations/; View Titles in Publications-Related Archive; UK SARS: http: //www. ccsr. ac. uk/sars/publications/jointpub. html; UK DA http: //www. data-archive. ac. uk/Lucene/Search. aspx - Išči pod Publications; ess: http: //www. europeansocialsurvey. org/index. php? option=com_content&task=view&id =71&Itemid=115 ; evs http: //www. europeanvalues. nl/; issp http: //www. issp. org/public. shtml; gss - http: //www. norc. org/GSS+Website/ V POŠTEV PRIDEJO TUDI SPLOŠNE BIBLIOGRAFSKE ZBIRKE; PROBLEM, KAKO IDENTIFICIRATI TER DOSTOPATI DO PODATKOVNEGA VIRA? ! http: //www. adp. fdv. uni-lj. si/
http: //qb. soc. surrey. ac. uk/ http: //www. adp. fdv. uni-lj. si/
Glej tudi: • S podatki podprta učna gradiva (predstavitev): http: //www. adp. fdv. unilj. si/podatki/predstavitev/sss 2008. ppt • Primer študije primerov uporabe podatkov v arhivu: http: //www. adp. fdv. uni-lj. si/blog/? p=13 http: //www. adp. fdv. uni-lj. si/
Preizkus I Literatura in podatki: • Za dan članek identificiraj glavni podatkovni vir; V kolikor je članek dostopen v polnem besedilu, identificiraj uporabljeno spremenljivko; Navedi bibliografsko referenco za članek in podatkovni vir. http: //www. adp. fdv. uni-lj. si/
Arhiv družboslovnih podatkov (ADP): je osrednji slovenski družboslovni arhiv podatkov, pokriva vsa pomembnejša družboslovna področja www. adp. fdv. uni-lj. si Naloge Arhiva • Poizvedovanje in pridobivanje podatkov • Ravnanje s podatki • Posredovanje in razširjanje podatkov – Cilj: zagotoviti dostopne visoko kakovostne podatke za raziskovanje in izobraževanje, primerne za raziskovanje pojavov, ki bodo zanimivi za prihodnje generacije http: //www. adp. fdv. uni-lj. si/
Viri podatkov • • Akademski raziskovalni projekti Po naročilu vlade (npr. PB), iz virov Statističnega urada, Tržne in javnomnenjske raziskave (Mediana, CATI, Gral – Iteo), Iz tujih arhivov http: //www. adp. fdv. uni-lj. si/
Pomen zapuščine slovenske empirične sociologije • Pomembno za poznavanje lastnih raziskovalnih tradicij • Pretekli podatki za primerjave in analize družbenih sprememb • Podatki ponekod izgubljeni ali uničeni (MKS, Stratifikacija in mobilnost, vrednote mladih) Glej: ŠTEBE, Janez. Izkoriščanje zapuščine slovenske empirične sociologije za današnje namene v okviru sekundarne analize. V: Družboslovne spremembe na Slovenskem / vabljena urednica Katja Boh. Ljubljana : Univerza : Slovensko sociološko društvo (1999). - (Družboslovne razprave), ISSN 0352 -3608 ; Letn. 15, št. 30/31). - str. 232 -244. Dokument v RTF za ogledovanje. http: //www. adp. fdv. uni-lj. si/
Dostop do statističnih podatkov http: //www. stat. si/ • Uradne statistike pogosto objavljajo le agregirane podatke • Problem dostopa do individualnih podatkov (popis, registri) – Povezovanje registrov med sabo, s prostorskimi podatki, harmonizacija spremenljivk. . . – Problem zaupnosti in spodbujanja stopenj sodelovanja – Anonimizirani podatki nekaterih raziskav na voljo v ADP (Preizkus II) http: //www. adp. fdv. uni-lj. si/
Preizkus II • Poišči na statističnem uradu predstavitev tabel iz zadnjega popisa prebivalstva • Poišči datoteko popisa prebivalstva na ADP • V čem se razlikujeta oba vira (naštej čim več razlik povezanih z možnostmi uporabe za različne namene) http: //www. adp. fdv. uni-lj. si/
Nekatere najbolj znane raziskave v UK DA ( http: //www. esds. ac. uk/ ) • http: //www. dataarchive. ac. uk/finding. Data/ major. Studies. asp • British Crime Survey • British Election Studies • British Household Panel Survey • BSA • GHS, LFS. . . http: //www. adp. fdv. uni-lj. si/
Principi pri raziskavah namenjenih sekundarni analizi • Izpolnjevanje najvišjih metodoloških zahtev, standardizacija merjenja, izbor indikatorjev zanimivih za širše akademsko okolje in doslednost v ponavljanju skozi čas, takoj na voljo uporabnikom za sekundarno analizo kot infrastrukturni vir • Vzorčni primer nacionalne splošne družboslovne raziskave http: //www. norc. uchicago. edu/projects/gensoc 1. asp (GSS) http: //www. adp. fdv. uni-lj. si/
Kako do podatkov? Preko predstavitvene strani ADP na Internetu http: //www. adp. fdv. uni-lj. si/
Splošni pogoji in omejitve uporabe • Podatki se izročijo samo za določen namen • Uporabnik se zavezuje skrbeti za takšno ravnanje s podatki, da je ohranjena tajnost podatkov • Seznanjena uporaba (upošteva metodološka in konceptualna izhodišča ter omejitve raziskave) • Citiranje podatkov po modelu navajanja literature http: //www. adp. fdv. uni-lj. si/
KAJ SO PODATKI ”podatkovna datoteka” - računalniško berljive podatkovne datoteke, ki vsebujejo številke – šifre Spremenljivke - Lastnosti opazovanih enot zbranih po določenem postopku http: //www. adp. fdv. uni-lj. si/
VPRAŠALNIK http: //www. adp. fdv. uni-lj. si/
SEZNAM SPREMENLJIVK http: //www. adp. fdv. uni-lj. si/
PODATKI Spremenljivke Enote http: //www. adp. fdv. uni-lj. si/
Metapodatki Metapodatke lahko definiramo kot “vse informacije potrebne za obveščanje in procesiranje statističnih struktur”. (Grossmann v Vipavc in Klep, 2003). Pri kakovostnem oblikovanju metapodatkovnih standardov imajo velik pomen uporabniki informacij. razvoj standardov (DDI) Mednarodna izmenjava opisov raziskav (zapis v XML) Možnost analize podatkov http: //www. adp. fdv. uni-lj. si/
Kaj hraniti: podatke, spremljajočo dokumentacijo, informacije o vzorčenju, . . . podatke, ki se lahko zgubijo. Spremljajoča dokumentacija naj vsebuje informacije kot izvor podatkov; kaj je bil osnovni namen zbiranja; kdo so bili avtorji in naročniki oz. sponzorji; kako so bili podatki zbrani; kakšni so pravni pogoji uporabe podatkov; opis spremenljivk; kako so bili podatki združeni – kodirna shema; v kakšnem formatu je hranjena računalniško berljiva podatkovna datoteka; na katerem mediju je hranjena. . . . http: //www. adp. fdv. uni-lj. si/
Standard na katerem temelji priprava vsebin za ADP je XML DDI DTD (The Data Documentation Initiative Codebook Document Type Definition). Po tem standardu je kodirna knjiga sestavljena iz: Opis dokumenta (Document Description) Opis raziskave (Study Description) - Naslov, avtor, izdelava in distribucija - Vsebina raziskave - Metodologija - Dostop do podatkov Opis podatkov (Data Files Description) Opis spremenljivk (Variable Description) Ostali dokumenti (Other Documentation) http: //www. adp. fdv. uni-lj. si/
http: //www. adp. fdv. uni-lj. si/
Razvrščanje po vsebini, seriji. . . Meni http: //www. adp. fdv. uni-lj. si/
NESSTAR je virtualna podatkovna knjižnica, ki omogoča iskanje, lociranje, pregledovanje in snemanje mnogo raznovrstnih statističnih in drugih podatkov in metapodatkov. http: //www. adp. fdv. uni-lj. si/
Za analizo podatkov potrebujemo uporabniško ime in geslo za NESSTAR. IZPOLNEM NAROČILNICO
http: //www. adp. fdv. uni-lj. si/
http: //www. adp. fdv. uni-lj. si/
Preizkus III • Poišči kakšno vprašanje iz ankete SJM, ki bi bilo zanimivo za raziskovane trendov in preveri, če je bilo to vprašanje že kdaj dobesedno ponovljeno • Navodila: s pomočjo iskanja znotraj spremenljivk: prenesi del besedila vprašanja v okence za napredno iskanje, označi iskanje spremenljivk; izpiši oznake raziskav, ki vsebujejo identične ponovitve http: //www. adp. fdv. uni-lj. si/
Posebne zvrsti podatkov • Zbirke kvalitativnih podatkov (ESDS Qualidata web pages ) • Kombinirani viri podatkov (npr. ESS in CSES: vsebuje mikro podatke iz ankete kombinirane s podatki o dogodkih in makropodatki o sistemu) http: //www. adp. fdv. uni-lj. si/
Mednarodne anketne raziskave • GLEJ Brina Malnar, Mitja Hafner Fink, Janez Štebe, Zmožnosti mednarodnih anketnih družboslovnih primerjalnih raziskav za oblikovanje subjektivnih indikatorjev razvitosti http: //www. stat. si/Radenci/program_2006/00 -ZB-903 -0601. pdf • http: //www. adp. fdv. uni-lj. si/publikacije/stebe_potentials. mht http: //www. adp. fdv. uni-lj. si/
POMEMBNEJŠE MEDNARODNE RAZISKAVE Prosto dostopne za raziskovalne namene ISSP – International Social Survey Programme Mednarodna splošna družboslovna anketa [1985 – 2004) – Vloga države; razumevanje vloge državljana – Družbeni stiki – Neenakost – Družina – Stališča o delu; odnos do dela – Raziskava o vernosti in cerkvi – Ekologija – Narodna identiteta http: //www. adp. fdv. uni-lj. si/
ISSP metodološke delovne skupine • Pet skupin raziskuje različna področja primerjalnega raziskovanja z vidika ekvivalence: – Prevodi – Učinek načina anketiranja – Primerljivost demografije – Stopnje sodelovanja – Oblikovanje vprašalnika http: //www. adp. fdv. uni-lj. si/
Slovenija je uradno del projekta od neodvisnosti, leta 1990 • Del projekta ankete SJM • Več kot 15 tematskih modulov za mednarodno in medčasovno primerjalno analizo • Predstavlja raziskovalno infrastrukturo – Publiciranje ni omejeno samo na člane raziskovalne skupine • Ad hoc finančna podpora projektu http: //www. adp. fdv. uni-lj. si/
Dodamo še podatke iz mednarodne datoteke. Ne pozabimo na ugodnosti, ki izhajajo iz mednarodnega sodelovanja arhivov!! http: //www. adp. fdv. uni-lj. si/
• • ESS (Evropska družboslovna anketa) Rotirajoči moduli za posebne vsebine (30 -60 kazalcev iz zaključenih tematskih blokov). Cilj je možnost intenzivne in sistematične analize določenega družbenega področja Tematike: Državljanstvo, participacija, demokracija; Stališča o priseljevanju (moduli ESS 2002); Ekonomska morala v Evropi, Stališča o zdravju in medsebojni pomoči; Družina, delo, blagostanje (moduli ESS 2004); Življenjski cikel in Oblikovanje kazalcev napredujoče Evrope (moduli 2006) Metodološke študije: http: //www. europeansocialsurvey. org/index. php? opti on=com_content&view=article&id=77&Itemid=246 http: //www. adp. fdv. uni-lj. si/
V ESS sta ponujeni dve uteži, ki jih lahko uporabimo (velikokrat moramo): - vzorčna utež (design weight - dweight). Kar nekaj držav vključenih v raziskavo ni moglo zagotoviti enake verjetnosti za vključitev posameznikov starejših od 15 let. Tako so v določenih državah bolj zastopani posamezniki iz določenih skupin (npr. posamezniki iz večjih družin) in drugi manj. Te "napake" odpravimo z vzorčno utežjo. - populacijska utež (the Population Size weight - pweight). To utež uporabljamo primerjavi dveh ali več držav. Utež upošteva, da je večina držav vključenih v raziskavo imela enako velikost vzorca ne glede na velikost njihove dejanske populacije. Verjetnostna teorija namreč dokazuje, da je vzorec 1000 respondentov enako uporaben za državo z 10 milijoni prebivalci kot za države s samo 1 milijonom. Brez uteževanja bi združeni podatki nad-reprezentirali manjše države. Populacijska utež torej uvaja takšno prilagoditev, da je država predstavljena proporcionalno glede na svojo velikost. http: //www. adp. fdv. uni-lj. si/
Pri prikazovanju tabel v odstotkih morate vedno uporabiti utežene podatke. Osnovni pravili: - vedno uporabimo vzorčno utež in - kadar primerjamo podatke dveh ali več držav in kadar jih združujemo v skupine (npr. države članice EU) moramo uporabiti tako vzorčno kot populacijsko utež. http: //www. adp. fdv. uni-lj. si/
“How interested in politics": Weighted and unweighted valid frequencies.
Uteževanje http: //www. adp. fdv. uni-lj. si/
Iskanje spremenljivke
Rezultat iskanja besede ZRTEV
http: //www. cessda. org/
POMEMBNEJŠE MEDNARODNE RAZISKAVE Prosto dostopne za raziskovalne namene ISSP – International Social Survey Programme Mednarodna splošna družboslovna anketa [1985 – 2004) – Vloga države; razumevanje vloge državljana – Družbeni stiki – Neenakost – Družina – Stališča o delu; odnos do dela – Raziskava o vernosti in cerkvi – Ekologija – Narodna identiteta http: //www. adp. fdv. uni-lj. si/
EB – Eurobarometer [1975 – 2002) CEEB – Central and Eastern EB [1990 – 1997] Evrobarometer srednje in vzhodne Evrope CCEB – Candidate Countries EB [2001 – 2004] Evrobarometer držav kandidatk Politične in ekonomske spremembe; Evropska unija; mediji; družbene razmere v državah kandidatkah; mladina v novi Evropi; kultura; identiteta in vrednote; Euro, širitev EU in finančne storitve; pokojninski sistem; zdravje; itd. . http: //www. adp. fdv. uni-lj. si/
EVS – European Values Study [1981, 1990, 1999) http: //zacat. gesis. org/webview/index. jsp EES – European Election Study [2004] CSES – Comparative Study of Electoral Systems [1996 – 2001, 2001 – 2005) ESS – European Social Survey [2002, 2004) ICVS – International Crime Victimisation Survey [1998 – 2000) http: //www. adp. fdv. uni-lj. si/
DRUGI MEDNARODNI PODATKI • The Macro. Data. Guide http: //www. nsd. uib. no/macrodataguide/ • ESDS International http: //www. esds. ac. uk/international/access/acce ss. asp • Integrated Public Use Microdata Series International http: //www. ipums. org/ http: //www. adp. fdv. uni-lj. si/
Preizkus IV • Uporabi podatke iz mednarodne anketne raziskave za sprotno analizo • Na katalogu ZA-cat ali ESS se registriraj, izberi neko raziskavo ter naredi kontingenčno tabelo • Citiraj vir. http: //www. adp. fdv. uni-lj. si/
HVALA ZA POZORNOST ________________________ Za dodatna pojasnila http: //www. adp. fdv. uni-lj. si/ E-pošta: arhiv. podatkov@fdv. uni-lj. si http: //www. adp. fdv. uni-lj. si/
- Slides: 82