UK FHS Historical sociology 2015 Quantitative Data Analysis

























- Slides: 25
UK FHS Historical sociology (2015+) Quantitative Data Analysis I. Introduction to Statistical software SPSS (PSPP) Jiří Šafr jiri. safr(AT)seznam. cz Last revision 25/2/2015
STATISTICAL PACKAGE FOR THE SOCIAL SCIENCES (SPSS) • general-purpose interactive statistical software package available in major platforms such as Windows, Unix, and Macintosh. A brief from history: • developed in 1968 as software system that allowed for the transformation of raw data into information using statistical applications. SPSS, Inc. incorporated in 1975. • first mainframe statistical package to appear on a personal computer (in the mid-1980 s) and, in 1992, was the first organization to release a statistical package for use with the Microsoft Windows OS. Today different products: • SPSS Base provides survey researchers with a powerful and user-friendly data management and statistical analysis package. Satistics: descriptive and bivariate as well as predictive analytics such as factor and regression analyses. • + add-on modules: advanced multivariate analysis of survey data: generalized linear models, hierarchical linear models, survival analysis, and categorical regression. • Also stand-alone products: help with all phases of the survey process (sample selection and data collection, data management and cleaning, and data dissemination). 2
GNU PSPP Free Software Foundation • tool for statistical analysis of sampled data. It reads the data, analyzes the data according to commands provided, and writes the results to a listing file, to the standard output or to a window of the graphical display. • It is a free replacement for the proprietary program SPSS, and appears very similar to it with a few exceptions. • The language accepted by PSPP is similar to those accepted by SPSS statistical products. • http: //www. gnu. org/software/pspp/ • Installation from http: //pspp. awardspace. com/ (ofted upgraded so update your instalation regularly) • Current version: Master version = 0. 8. 4 (as of 2015 -02 -10) – MSWindows version: – Package Size: 32 Mb – Size on disk: 72 Mb MSWindows XP and newer • Manual at http: //pspp. benpfaff. org/~blp/psppmaster/latest/source/user-manual/pspp. html 3
3 types of windows in SPSS / PSPP • Data editor (Variable View a Data View) → data management → files with *. sav • Output → outputs of your analyses → files with *. spv (from version 15) • Syntax → command line language to control the programme (datamanagement as well as analyses) → files with *. sps 4
Data: Data Editor V řádcích jsou případy (respondenti), ve sloupcích proměnné (otázky) → v okně Data Editor záložka Data View 5
Data management (labels, missing values, formats, …) → Variable View in Data Editor 6
Output: (analyses) 7
Data management (data agregation, filtering, recoding, …) → příkazy v sekcích hlavního menu Data a Transform (nebo přímé zadání pomocí příkazového řádku v Syntaxu) 8
Analyses → příkazy v sekci hlavního menu Analyze Descriptive statistics → Frequencies / Descriptives / Explore (nebo přímé zadání pomocí příkazového řádku v Syntaxu) 9
Syntax: přímé zadání pomocí příkazového řádku Výhodou je, že sekvenci příkazů můžeme uložit (soubor s koncovkou *. sps) a kdykoliv se k ní vrátit, případně měnit vstupní proměnné. V případě úpravy dat poskytuje kontrolu operací a umožňuje úpravy sdílet. Syntax lze u každé operace (analýzy či úpravy dat) vygenerovat při zadávání z menu 10 pomocí tlačítka Paste
Vkládání dat v Data editoru Variable View Zde si nejprve připravíme datovou matici: jména proměnných (Name), jejich typ/formát (Type) a případně labely Data View Zde pak ukládáme data – po řádcích (1 řádek = 1 respondent/ dotazník) 11
Tři základní informace o proměnných: • jméno proměnné VARIABLE NAME max. 8 znaků bez diakritiky, mezer; musí začínat písmenem (např. pohlavi) → bezpodmínečně v datech musí být pro uživatele může být dále užitečná nadstavba: • popiska proměnné VARIABLE LABEL Delší popis názvu znaku, lze s diakritikou, např. (zkrácené) znění otázky v dotazníku, který se bude objevovat ve výstupech (např. Pohlaví respondenta) • popisky kategorií (hodnot) proměnné VALUE LABELS Popis kategorií znaku, které se budou objevovat ve výstupech (např. 1= muž, 2 = žena) 12
Ve Variable View je toho ale více Nejdůležitější jsou: • Type: druh záznamu dat (v zásadě buď jako číslo = Numeric nebo jako slova = String). Preferujeme Numeric • Decimals: počet desetinných míst, co se bude zobrazovat ve výstupech (samotný záznam dat ale zachovává více desetinných míst) • Measure: typ proměnné (dříve to nevadilo, novější verze vyžadují pro určitý typ analýz) • Missings: uživatelsky definované hodnoty (o tom více jinde) • v novějších verzích (SPSS 22) ještě přibyla role proměnné v analýze (závislá, nezávislá, třídící atd. ) Dobrá zpráva: toto vše lze nastavovat příkazovým řádkem v syntaxu. 13
How to start in SPSS/PSPP? Why not using syntax … • • Lze jednoduše pomocí grafického menu založit datovou matici (seznam a vlastnosti proměnných) a do ní postupně vkládat data (případy) či rovnou nějaký již existující datový soubor otevřít. Viz předchozí snímky. Také ale lze data vložit pomocí příkazového řádku, tj. v syntaxu. Zkuste např. následující příklad: Using your favourite editor, write a file (name it myfile. sps) containing the following: *Data input in SPSS/PSPP example. *Attention: SPSS is sensitive to decimal place delimiter (here we have ', ' comma but it can be decimal point. It's dependent on local OS setting. subtitle "Countries by population, 2015". *Source: http: //en. wikipedia. org/wiki/List_of_countries_and_dependencies_by_population. DATA LIST /Country (a 25) Popul (f 12) Pop_pct (f 8. 2). BEGIN DATA. China 1368400000 18, 9 India 1267400000 17, 5 USA 320469000 4, 43 Indonesia 255461700 3, 53 Brazil 203932000 2, 82 END DATA. LIST. DESCRIPTIVES /Popul Pop_pct /STATISTICS ALL. FREQ Country. DESC /Popul Pop_pct /STATISTICS MIN MAX MEAN STDDEV SUM. 14
Další úpravy dat a výstupů stručný přehled Rekódování, konstrukce nových znaků; třídění výstupů, vážení, seřazování hodnot, agregování dat, spojování více datových souborů …
Transformace dat → Transform • Výpočet/vytváření nových (syntetických) znaků → COMPUTE (nebo pro „načítání“ COUNT) • Rekódování → RECODE (do stejné nebo nové proměnné) • Visual Binding – nástroj pro snadné rekódování (pro spojité-kardinální znaky např. dle percentilů) 16
Úpravy dat a výstupů → Data • • • Uspořádání případů → SORT CASES Rozdělení na podsoubory → SPLIT FILE Výběr případů (filtrování) → SELECT CASES Vážení → WEIGHT CASES Agregace (např. průměry pro skupiny) → AGGREGATE • Spojování souborů dat / přidávání proměnných → MERGE FILES 17
Transformace dat → Transform Úpravy dat → Data 18
Zadání analýz a jejich výstupy Analýzy (tabulky), grafy
Analýzy → Analyze • • Descriptive statistics Tables Compare means Correlate Data Reduction Nonparametric Tests Missing Value Analysis Multiple Response 20
Grafy → Graphs 21
Nastavení outputu SPSS Praktická úprava výstupů se zobrazováním hodnot a názvů proměnných (oproti továrnímu nastavení, kde jsou pouze labely)
Nastavení labelů při zobrazování tabulek v outputu SET TNumbers=Both ONumbers=Both CCC='-, , , ' CCE='-, , , ' CCB='-, , , ' OVars=Both CCD='-, , , ' TVars=Both CCA='-, , , '. NEW FILE. 23
Nastavení labelů při zobrazování tabulek v outputu • Bez názvu proměnné a hodnot kategorií (původní tovární nastavení) → vhodné pro finální prezentaci v textu • S názvem proměnné a hodnotami kategorií (naše nastavení) → vhodnější pro analýzy 24
Zobrazování labelů/hodnot v outputu lze spustit pomocí skriptu v Syntaxu *NASTAVENI Labelů v OUTPUTU SPSS (funguje od verze 16). *vypnutí hodnot kategorii v tabulkách a grafech, tj. jen labels bez jmen proměných. SET TNumbers=Labels ONumbers=Labels CCC='-, , , ' CCE='-, , , ' CCB='-, , , ' OVars=Labels CCD='-, , , ' TVars=Labels CCA=', , , '. *zapnuti hodnot kategorii v tabulkách a grafech, tj. hodnoty+labels a jména proměnných. SET TNumbers=Both ONumbers=Both CCC='-, , , ' CCE='-, , , ' CCB='-, , , ' OVars=Both CCD='-, , , ' TVars=Both CCA='-, , , '. *Zobrazování jména proměnných (místo VAR labelů) v seznamu při vstupu do analýz. SET TNumbers=Both ONumbers=Both CCC='-, , , ' CCE='-, , , ' CCB='-, , , ' OVars=Both CCD='-, , , ' TVars=Both CCA='-, , , '. 25