LOENG 4 Jreldav statistika Hpoteeside kontrollimine II Jelena

  • Slides: 62
Download presentation
LOENG 4. Järeldav statistika. Hüpoteeside kontrollimine II Jelena Hartšenko jelena. hartsenko@taltech. ee 16. 10.

LOENG 4. Järeldav statistika. Hüpoteeside kontrollimine II Jelena Hartšenko jelena. hartsenko@taltech. ee 16. 10. 2019

Descriptive statistics • The measurement level of the variable determines which descriptive statistics are

Descriptive statistics • The measurement level of the variable determines which descriptive statistics are appropriates • Your choice depends on your research questions, which may also require the use of inferential statistics Exploratory analysis Descriptive statistics Measurement level Frequency distribution Percentage frequency Ratio, interval, ordinal, nominal Mean Median Mode Measures of dispersion Range Standard deviation Measures of normality Skewness Kurtosis Measures of central tendency Ratio, interval, ordinal, nominal Ratio, interval 2

Milliseid keskmise tendentsi arvnäitajad kasutada? • Sõidukaugus tööst • Kõige populaarsem auto mudel •

Milliseid keskmise tendentsi arvnäitajad kasutada? • Sõidukaugus tööst • Kõige populaarsem auto mudel • Töötasud

Ülesanne: suhteline varieeruvus • Lastevanematel paluti 7 -palli süsteemis hinnata kuivõrd tähtsaks nad peetavad

Ülesanne: suhteline varieeruvus • Lastevanematel paluti 7 -palli süsteemis hinnata kuivõrd tähtsaks nad peetavad seda, et kool lastes arendaks järgmisi väärtusi: • Milline hinnang on kõrgema hajuvusega? Slide 14 -4

Ülesanne: arvuta keskmine IDK 0044 TES 0020 TSK 0028 IT Foundation II Statistics Business

Ülesanne: arvuta keskmine IDK 0044 TES 0020 TSK 0028 IT Foundation II Statistics Business English II Hinne 5 4 4 PERFORMANCE-BASED SCHOLARSHIP: at least 4. 0 for the entire study period; https: //www. ttu. ee/public/e/en/studying/Scholarships/tulemusstipendiumi_kord_ing_toim. pdf Slide 14 -5 EAP 3 6 6

Problem. Sample selection • A company has 400 employees and wants to survey 25

Problem. Sample selection • A company has 400 employees and wants to survey 25 employees about car parking. Previous survey elicited a response rate of 60%, and personnel records show that of all employees 30% are office, 50% are skilled and 20% are unskilled workers. How should a stratified sample (kihtvalim) be selected? Slide 14 -6

Hüpoteesi sõnastamine KVAN uurimistöös

Hüpoteesi sõnastamine KVAN uurimistöös

Hypotheses to be tested Collis (2003) tested 9 one-tailed hypotheses Q 3 H 1

Hypotheses to be tested Collis (2003) tested 9 one-tailed hypotheses Q 3 H 1 Voluntary audit is positively associated with turnover Last question in the survey H 2 Voluntary audit is positively associated with agreement that the audit provides a check on accounting records and systems H 3 Voluntary audit is positively associated with agreement that it improves the quality of the financial information Q 4 H 4 Voluntary audit is positively associated with agreement that it improves the credibility of the financial information H 5 Voluntary audit is positively associated with agreement that it has a positive effect on the credit rating score Q 1 H 6 Q 2 c) Voluntary audit is negatively associated with the company being family-owned H 7 Voluntary audit is positively associated with the company having shareholders without access to internal financial information Q 5 b) H 8 Voluntary audit is positively associated with demand from the bank/lenders Q 6 a), H 9 Voluntary audit is positively associated with the directors having qualifications b), c) or training in business or management Collis. J. , Hussey. R. (2014). Business research: A practical guide for undergraduate and postgraduate students. Edition: 8 4 th, Palgrave Macmillan.

Põhimõisted hüpoteeside testimisel • Olulisustõenäosus (p-value) — eksimuse tõenäosus sisukat hüpoteesi eelistades • Olulisuse

Põhimõisted hüpoteeside testimisel • Olulisustõenäosus (p-value) — eksimuse tõenäosus sisukat hüpoteesi eelistades • Olulisuse nivoo (α) ehk riskitase ehk riskiprotsent ehk riski kriitiline tase • p-value on väikseim olulisuse nivoo, mis antud valimi põhjal lubab vastu võtta sisuka hüpoteesi 9

Testide läbiviimise kord Käsitsi kui ka erinevates vahendites 1. Hüpoteesid (Ho; H 1 -väide,

Testide läbiviimise kord Käsitsi kui ka erinevates vahendites 1. Hüpoteesid (Ho; H 1 -väide, millele analüüsija soovib kinnitust leida) 2. Parameetri empiiriline väärtus 3. Parameetri kriitiline väärtus 4. Parameetri empiirilise väärtuse võrdlemine kriitilisega 5. Otsus hüpoteesi kohta ja tõlgendus EXCEL, SPSS, STATA või muu: 1. Hüpoteesid (Ho; H 1 -väide, millele analüüsija soovib kinnitust leida) 2. Olulisustõenäosus (p-value) 3. Olulisuse nivoo (α) (määrab uurija) 4. Võrdlemine 5. Otsus hüpoteesi kohta ja tõlgendus

Parameetrilised ja mitteparameetrilised testid üldkogumite võrdlemiseks Parameetriline meetod (PAR, Parametric methods) • nullhüpoteesi peab

Parameetrilised ja mitteparameetrilised testid üldkogumite võrdlemiseks Parameetriline meetod (PAR, Parametric methods) • nullhüpoteesi peab olema võimalik püstitada parameetrilises (arvulises) väljenduses; • mõõtmisega on saavutatud väärtuste erinevuste usaldusväärne tase; • testi statistik järgib mingit tuntud sagedusjaotust (Normaaljaotus, Studentijaotus). • Meetod: T-test, Dispersioonanalüüs jne Mitteparameetriline meetod (MPAR, Mitteparametric methods) • see meetod tegeleb mittenumbriliste andmetega • (tavaliselt on andmed saadud mingi nähtuse esinemissageduste loendamisel), • meetod ei tegele spetsiifilise kogumi parameetritega nagu keskväärtus, standardhälve vm parameeter, • see meetod ei sea eeldusi kogum jaotuse kohta (eriti normaaljaotuse tingimust). • Meetod: Hii-ruut test, Kolmogorov. Smnirnovi test, Mann-Whitney test jne

Testi valik sõltuvalt tunnuse tüübist, üldkogumi tõenäosusjaotusest ning valimi suurusest Allikas: http: //www. local.

Testi valik sõltuvalt tunnuse tüübist, üldkogumi tõenäosusjaotusest ning valimi suurusest Allikas: http: //www. local. ee/siim/ained/2001 sygis/statistika 3/ 12

Bivariate and multivariate analysis Purpose For parametric data For non-parametric data Tests of difference

Bivariate and multivariate analysis Purpose For parametric data For non-parametric data Tests of difference for t-test independent or dependent ANOVA samples Tests of association between Not applicable two nominal variables Mann-Whitney test Tests of association between Pearson’s two quantitative variables correlation Spearman’s correlation Predicting an outcome from one or more variables Logistic regression Linear regression Kruskall-Wallis test Chi-square test 13

How to Select a Test How many samples are involved? If two or more

How to Select a Test How many samples are involved? If two or more samples are involved, are the individual cases independent or related? Is the measurement scale nominal, ordinal, interval, or ratio? 17 -14

Recommended Statistical Techniques Measurement Scale One-Sample Case Two-Sample Tests _______________ k-Sample Tests _______________ Related

Recommended Statistical Techniques Measurement Scale One-Sample Case Two-Sample Tests _______________ k-Sample Tests _______________ Related Samples Independent Samples Nominal • Binomial • x 2 one-sample test • Mc. Nemar • Fisher exact test • x 2 two-samples test • Cochran Q • x 2 for k samples Ordinal • Kolmogorov. Smirnov one-sample test • Runs test • Sign test • Median test • Friedman twoway ANOVA • Wilcoxon matched-pairs test • Mann-Whitney U • Kolmogorov. Smirnov • Wald-Wolfowitz • Median extension • Kruskal-Wallis one-way ANOVA • t-test for paired samples • t-test • Repeatedmeasures ANOVA • One-way ANOVA • n-way ANOVA Interval and Ratio • Z test 17 -15 • Z test

PAR testid: Keskväärtuste võrdlemine 16

PAR testid: Keskväärtuste võrdlemine 16

Kolm ja enam kogumit Dispersioonanalüüs (PAR) 17

Kolm ja enam kogumit Dispersioonanalüüs (PAR) 17

Dispersioonanalüüs Allikas: Ako Sauga. http: //www. sauga. pri. ee/audentes/download/kvantmeetod_lk 19_44. pdf 18

Dispersioonanalüüs Allikas: Ako Sauga. http: //www. sauga. pri. ee/audentes/download/kvantmeetod_lk 19_44. pdf 18

Dispersioonanalüüs (Analysis of variance- ANOVA) • ANOVA võrdleb kolme ja enama grupi keskväärtuseid •

Dispersioonanalüüs (Analysis of variance- ANOVA) • ANOVA võrdleb kolme ja enama grupi keskväärtuseid • Uuritav tunnus: intervalltunnus (metric variable) • Dispersioonanalüüs on meetod, millega otsitakse vastust küsimusele, kas rühmakeskmiste erinevus on põhjustatud uuritava faktori mõjust või valimite juhuslikkusest. • Kuidas tulemusele avaldab mõju faktortunnus • Ühefaktoriline dispresioonanalüüs (One-Way ANOVA) • Kahefaktoriline dispresioonanalüüs (Two-Way ANOVA) • Eeldused: • Tulemuste hajuvused (dispersioonid) võrreldavates gruppides samad (Levene’s Test) • Tulemuste jaotus on vastav normaaljaotusele (kuna mõjutab lõpptulemust vähe, 19 siis loetakse kehtivaks ilma kontrollimata)

Ühefaktoriline dispersioonanalüüs (ANOVA) Allikas: Kairi Osula. http: //www. tlu. ee/~kairio/7044/anovaprax. pdf 20

Ühefaktoriline dispersioonanalüüs (ANOVA) Allikas: Kairi Osula. http: //www. tlu. ee/~kairio/7044/anovaprax. pdf 20

Excelis ANOVA: Single Factor (Data -> Data Analysis ) 1. Dispersioonanalüüsi teostamisel tuleb esitada

Excelis ANOVA: Single Factor (Data -> Data Analysis ) 1. Dispersioonanalüüsi teostamisel tuleb esitada analüüsitavad andmed kujul: • kus igale faktori tasemele vastaks üks veerg (või rida), milles paiknevad kõik sellel faktori tasemel sooritatud mõõtmised. • NB! Erinevates gruppides võib olla sooritatud erinev arv mõõtmisi. • Eeltöö Excelis: sorteerida faktori järgi (Custom Sort) ja COPY-PASTE 2. Tuleb see abitabel anda ette protseduurile ANOVA: Single Factor 21

Dispersioonanalüüsi läbiviimise kord • 22

Dispersioonanalüüsi läbiviimise kord • 22

Test of Homogeneity of variances – Hüpotees: kas üldkogumite hajuvused on võrdsed? • Levene’s

Test of Homogeneity of variances – Hüpotees: kas üldkogumite hajuvused on võrdsed? • Levene’s Test • Installeeri Real Statistics Data Analysis Tool: http: //www. real-statistics. com/free-download/real-statistics-resource-pack/ • Excelis: CTRL+m • Single Factor Anova • Või funktsioon Levene(array; 0) • LEVENE(R 1, type) = p-value of for Levene’s test for the data in range R 1. If type = 0 then group means are used; if type > 0 then group medians are used; if type < 0 then 10% trimmed group means are used. If the second argument is omitted it defaults to 0. • This function ignores any empty or non-numeric cells. 23

Real Statistics Data Analysis Tool : Levene's Tests type means medians trimmed p-value 0,

Real Statistics Data Analysis Tool : Levene's Tests type means medians trimmed p-value 0, 066366 0, 14279 0, 079154 Järeldus: vastavalt olulisustõenäosusele (0, 066 e. 6, 6%) peame jääma Ho juurde => üldkogumite dispersioonid on võrdsed e ANOVA eeldus on täidetud 24

Data -> Data Analysis -> Anova: Single Factor • kas võrreldavad grupid paiknevad kõrvuti

Data -> Data Analysis -> Anova: Single Factor • kas võrreldavad grupid paiknevad kõrvuti veergudes • (vaikimisi variant; Grouped By = Columns) või ridades (Grouped By = Rows), • kas andmetabeli esimeses reas (või veerus) paiknevad gruppide nimed (Labels in first row), • milline on olulisuse nivoo F-statistiku kriitilise väärtuse arvutamiseks (Alpha, vaikimisi 0, 05), • kuhu paigutada tulemustabelid (Output options): • samale töölehele (Output Range), • uuele töölehele (New Worksheet Ply) või • uude faili (New Workbook). 25

Exceli tulemustabelid Kuidas erineb kõrgharidustasemete järgi ametikoha valimisel oluliseks peetav töökoha prestiiž? Otsus Anova

Exceli tulemustabelid Kuidas erineb kõrgharidustasemete järgi ametikoha valimisel oluliseks peetav töökoha prestiiž? Otsus Anova tabelis: P-value = 0, 759 e. 76% >0, 05 H 0 26

Dispersioonanalüüsi põhjal otsuse tegemine: • Kui p-value ≥ α, siis tuleb vastu võtta nullhüpotees,

Dispersioonanalüüsi põhjal otsuse tegemine: • Kui p-value ≥ α, siis tuleb vastu võtta nullhüpotees, • st. valimite keskväärtused ei ole oluliselt erinevad, st erinevus valimite keskväärtustes ei ole tõenäoliselt põhjustatud faktori erinevatest tasemetest vaid juhuslikest põhjustest. • Kui p-value < α, siis tuleb nullhüpotees tagasi lükata, • st valimite keskväärtused on oluliselt erinevad, st erinevus valimite keskväärtustes on tõenäoliselt põhjustatud faktori erinevatest tasemetest. 27

Installeeritud lisamooduli Real Statistics Data Analysis Tool tulemustabel Järeldus: vastavalt olulisustõenäosusele (0, 066 e.

Installeeritud lisamooduli Real Statistics Data Analysis Tool tulemustabel Järeldus: vastavalt olulisustõenäosusele (0, 066 e. 6, 6%) peame jääma Ho juurde => üldkogumite dispersioonid on võrdsed e ANOVA eeldus on täidetud 28

Tabelis on toodud proovipartiide hindamise tulemused. Ülesanne Üht tootmiseks vajaminevat elektroonikadetaili on võimalik tellida

Tabelis on toodud proovipartiide hindamise tulemused. Ülesanne Üht tootmiseks vajaminevat elektroonikadetaili on võimalik tellida kolmelt erinevalt tarnijalt. Tarnija valikul võetakse arvesse kolme suurust: hind, kättetoimetamisaeg ja tarnitavate detailide kvaliteet. Kvaliteedi üle otsustamiseks on uuritud proovipartiisid, detailide kvaliteeti hinnati 100 pallisel skaalal. Data -> Data Analysis -> Anova: Single Factor Tarnijad A B 75 94 72 87 87 80 77 86 84 80 82 67 84 86 81 82 78 86 97 82 85 72 81 77 C 90 86 92 75 79 94 95 85 86 92 92 85

OTSUS? ? ?

OTSUS? ? ?

Post Hoc testid (järgnevad testid) • Dispersioonanalüüsi tulemus: • Kui F-testi tulemusel erinevus ei

Post Hoc testid (järgnevad testid) • Dispersioonanalüüsi tulemus: • Kui F-testi tulemusel erinevus ei ole oluline, pole mitmest võrdlemist vaja läbi viia. • Kui F-testi tulemusel erinevus on oluline (faktori mõju on statistiliselt oluline) , võib minna edasi ja viia läbi mitmene võrdlemine. • milliste gruppide keskväärtused on oluliselt erinevad • EXCEL: Fisheri LSD (Least Significant Difference) test (käsitsi) • SPSS : Bonferroni test võrdleb paariviisiliselt gruppide keskväärtuseid 31

Fisheri LSD testi teostamiseks Excelis (1): 1. viia läbi ühefaktoriline dispersioonanalüüs, 2. arvutada välja

Fisheri LSD testi teostamiseks Excelis (1): 1. viia läbi ühefaktoriline dispersioonanalüüs, 2. arvutada välja vähima olulise vahe LSD väärtus ja 3. võrrelda kõigi gruppide paarikaupa erinevusi LSD-ga: • kui kahe grupi keskmiste vaheline erinevus < LSD, siis ei ole võrreldud grupid statistiliselt oluliselt erinevad, • kui kahe grupi keskmiste vaheline erinevus >= LSD, siis on võrreldud grupid statistiliselt oluliselt erinevad. • Tanel Kaart: Andmeanalüüs Excelis http: //ph. emu. ee/~ktanel/andmeanalyys_excelis/pt 93. php 32

Allikas: Kairi Osula. Dispersioonanalüüs. 2013 http: //www. tlu. ee/~kairio/7044/anovaprax. pdf 33

Allikas: Kairi Osula. Dispersioonanalüüs. 2013 http: //www. tlu. ee/~kairio/7044/anovaprax. pdf 33

Kui ANOVA eeldus ei ole täidetud (tulemuste hajuvused võrreldavates gruppides samad) • MPAR (mitteparameetrilist)

Kui ANOVA eeldus ei ole täidetud (tulemuste hajuvused võrreldavates gruppides samad) • MPAR (mitteparameetrilist) testi: Kruskal-Wallise testi • Kui H 1→Tamhane test • Modified tests: Brown-Forsythe and Welch’s procedure • Transformations (see http: //www. real-statistics. com/one-way-analysisof-variance-anova/homogeneity-variances/) 34

Real Statistics Data Analysis Tool http: //www. real-statistics. com/free-download/real-statisticsresource-pack/ POST HOC TESTS=followup options 35

Real Statistics Data Analysis Tool http: //www. real-statistics. com/free-download/real-statisticsresource-pack/ POST HOC TESTS=followup options 35

Kahefaktoriline dispersioonanalüüs • Faktori peamõju • Faktorite koosmõju • Täismudel (sisaldab kõiki võimalikke mõjukomponente)

Kahefaktoriline dispersioonanalüüs • Faktori peamõju • Faktorite koosmõju • Täismudel (sisaldab kõiki võimalikke mõjukomponente) • Testitakse rohkem kui ühte hüpoteeside paari (iga peamõju ja iga koosmõju kohta eraldi)! • Nullhüpoteesid: Erinevused üldkogumis /vastavate/ gruppide keskmiste tasemete vahel puuduvad • Peamõju kirjeldavate testide sisukas hüpotees: • Vähemalt ühel /vastava/ faktori tasemel e ühel /antud/ tunnuse poolt moodustunud grupil on üldkogumis teistest erinev keskmine tase • ehk antud faktor e tunnus mõjutab tulemust (on tulemusega seotud) • Koosmõju kirjeldavate testide sisukas hüpotees 36

ÜLESANNE: Kahefaktoriline dispersioonanalüüs • http: //ph. emu. ee/~ktanel/andmeanalyys_excelis/pt 92. php • Kuidas erineb keskmine

ÜLESANNE: Kahefaktoriline dispersioonanalüüs • http: //ph. emu. ee/~ktanel/andmeanalyys_excelis/pt 92. php • Kuidas erineb keskmine netokuupalk maakondades ja aastatel 20152017? • Uuri keskmise netopalga sõltuvust tööandja (omaniku) liigist ja aastast 2015 -2017 • ÜLESANNE: iseseisev töö 1 ja iseseisev töö 2 Moodle’is • Lahenda ühes MS Excel töövihikus, kokku kolm töölehte. Nimeta töölehed vastavalt tehtud analüüsile • Kokku: 5 lisapunkti

MPAR test: Hii ruut • EI UURI, kas meeste ja naiste IQ testi tulemused

MPAR test: Hii ruut • EI UURI, kas meeste ja naiste IQ testi tulemused on keskmiselt samad või erinevad? • UURIVAD, kas meeste ja naiste arvamused IQ testide kohta on ühesugused või erinevad χ2 - test võimaldab kontrollida hüpoteesi: • kahe empiirilise jaotuse kokkulangemise kohta, sealhulgas kahe erineva tunnuse vahelise seose olemasolu, • empiirilise ja teatud teoreetilise jaotuse kokkulangemise kohta. • Tavaliselt võrreldavaid gruppe vähe • Tundlik iga erinevuse suhtes üldkogumi jaotuses • Põhineb risttabelil 38

χ2 – test näide • Olgu meil läbi viidud ankeetküsitlus. • Lisaks vastustele paluti

χ2 – test näide • Olgu meil läbi viidud ankeetküsitlus. • Lisaks vastustele paluti küsitluse täitjal märkida ka oma sugu ja vanusegrupp. • Kasutades χ2 - testi, on võimalik uurida, kas vastus mingile konkreetsele küsimusele sõltub vastaja soost, st kas on seos soo ja vastusevariantide jaotuse vahel. • Samuti kas on seos vanuse ja konkreetsele küsimusele vastamise vahel. 39

Hii ruut-test ei arvesta valimi suurust • Seepärast on tema kasutamisel mõned eeltingimused: 1.

Hii ruut-test ei arvesta valimi suurust • Seepärast on tema kasutamisel mõned eeltingimused: 1. Objektide arv ei tohi olla alla 40 ne 2. Ühegi lahtri oodatav sagedus ei tohi olla väiksem kui 1 3. Oodatav sagedus ei tohi olla väiksem kui 5 üle 20% lahtritest 40

χ2 – test – 2 ja enam gruppi • Ülesanne: uurida immigrantide huvi kohaliku

χ2 – test – 2 ja enam gruppi • Ülesanne: uurida immigrantide huvi kohaliku poliitika vastu Tallinnas. • Küsitletute arv on 200, neist 120 meest ja 80 naist. • Sagedustabel (2 X 2): MEES NAINE Jah Kokku 35 15 50 EI 85 65 150 Kokku 120 80 200 Sageduste leidmiseks Excelis: 1. Funktsioon: COUNTIF või COUNTIFS või 2. Pivot. Table 41

Empiirilised ja oodatavad sagedused: Jah EI Kokku MEES 35 85 120 NAINE 15 65

Empiirilised ja oodatavad sagedused: Jah EI Kokku MEES 35 85 120 NAINE 15 65 80 Kokku 50 150 200 Meeste osakaal: 60% Naiste osakaal: 40% Jah EI MEES NAINE 42

Empiirilised ja oodatavad sagedused: Jah EI Kokku MEES 35 85 120 NAINE 15 65

Empiirilised ja oodatavad sagedused: Jah EI Kokku MEES 35 85 120 NAINE 15 65 80 Kokku 50 150 200 Meeste osakaal: 60% Naiste osakaal: 40% Jah EI Kokku MEES 30 (50*0, 6) 90 (150*0, 6) 120 NAINE 20 (50*0, 4) 60 (150*0, 4) 80 Kokku 50 150 200 43

χ2 – test : 2 ja enam gruppi • H 0: Tallinna mees- ja

χ2 – test : 2 ja enam gruppi • H 0: Tallinna mees- ja naissoost immigrantide huvi kohaliku poliitika vastu ei erine (naistest on kohalikust poliitikast huvitatud sama suur osa kui meestest) • H 1: huvi erineb • Kontrollime, kas tingimused on täidetud? • Objekte rohkem kui 40 • − 200 • Oodatud sagedused suuremad kui 1 • − Väikseim O =20 • Oodatud sagedused peavad olema suuremad kui 5 vähemalt 80%-l lahtritest • − Kõik on suuremad kui 5 • Hüpoteeside püstitamine, olulisusnivoo α (0, 01; 0, 05) valik. 44

Hii-ruut test olulisusetõenäosus • Olulisuse tõenäosuse kasutame funktsiooni CHISQ. TEST Actual range empiirilised ehk

Hii-ruut test olulisusetõenäosus • Olulisuse tõenäosuse kasutame funktsiooni CHISQ. TEST Actual range empiirilised ehk tegelikud andmed Expected range teoreetilised ehk oodatavad • Funktsioon leiab olulisuse tõenäosuse p. Kui • p ≥ a siis pole erinevused piisavad, vastu võetakse nullhüpotees • p < a erinevused on suured, vastu võetakse sisukas hüpotees 45

Näide: • Või Funktsioon: =CHISQ. TEST(D 14: E 15; D 19: E 20) →

Näide: • Või Funktsioon: =CHISQ. TEST(D 14: E 15; D 19: E 20) → P-value = 0, 095 • Olulisusetõenäosus= 0, 095 > 0, 05 Kui OTSUS: H 0 p ≥ a siis pole erinevused piisavad, vastu võetakse nullhüpotees p < a erinevused on suured, vastu võetakse sisukas hüpotees Tallinna mees- ja naissoost immigrantide huvi kohaliku poliitika vastu ei erine (naistest on kohalikust poliitikast huvitatud sama suur osa kui meestest) 46

Real Statistics Data Analysis Tool : http: //www. real -statistics. com/free-download/real-statisticsresource-pack/ 47

Real Statistics Data Analysis Tool : http: //www. real -statistics. com/free-download/real-statisticsresource-pack/ 47

Real Statistics Data Analysis Tool Output: Hii-ruut Olulisuse statistiku tõenäosus väärtus Hii-ruut krit OR

Real Statistics Data Analysis Tool Output: Hii-ruut Olulisuse statistiku tõenäosus väärtus Hii-ruut krit OR = (a × d)/(b × c) 48

SPSS output

SPSS output

Veel MPAR teste - järjekorra testid (ranking tests): • MANN WHITNEY U TEST •

Veel MPAR teste - järjekorra testid (ranking tests): • MANN WHITNEY U TEST • Keskväärtuste võrdlemine • Sõltumatud valimid • WILCOXONI ASTAKMÄRGITEST • Kasutab arvulisi vahesid • Võimsam kui märgitest • Anu Iher. „Olulisemad kahe üldkogumi võrdlemise testid ja MS Excel’i moodul nende läbiviimiseks“. Bakalaureusetöö. 2005 • http: //www. eau. ee/~ktanel/baca_AIher_2005. pdf 50

Variables in the analysis Variable Description VOLAUDIT Whether company would have a voluntary audit

Variables in the analysis Variable Description VOLAUDIT Whether company would have a voluntary audit (1, 0) TURNOVER Turnover in 2002 accounts (£k) H 1 + CHECK Audit provides a check on accounting records and systems (5 = Agree, 1 = Disagree) H 2 + QUALITY Audit improves the quality of the financial information (5 = Agree, 1 = Disagree) H 3 + CREDIBILITY Audit improves the credibility of the financial information (5 = Agree, 1 = Disagree) H 4 + H 5 + CREDITSCORE Audit has a positive effect on the credit rating score (5 = Agree, 1 = Disagree) Hypothesis Expected sign FAMILY Whether company is wholly family-owned (1, 0) H 6 _ EXOWNERS Whether company has external shareholders (1, 0) H 7 + BANK Whether statutory accounts are given to bank/lenders (1, 0) H 8 + EDUCATION Whether respondent has degree/qualifications/training (1, 0) H 9 + 51

Hypotheses to be tested H 1 Voluntary audit is positively associated with turnover Assumption

Hypotheses to be tested H 1 Voluntary audit is positively associated with turnover Assumption is not met: The data are from a population with a normal distribution H 2 Voluntary audit is positively associated with agreement that the audit provides a check on accounting records and systems H 3 Voluntary audit is positively associated with agreement that it improves the quality of the financial information H 4 Voluntary audit is positively associated with agreement that it improves the credibility of the financial information H 5 Voluntary audit is positively associated with agreement that it has a positive effect on the credit rating score Variables: TURNOVER, CHECK, QUALITY, CREDIBILITY, CREDITSCORE, FAMILY, EXOWNERS, EDUCATION H 6 Voluntary audit is negatively associated with the company being family-owned H 7 Voluntary audit is positively associated with the company having shareholders without access to internal financial information H 8 Voluntary audit is positively associated with demand from the bank/lenders H 9 Voluntary audit is positively associated with the directors having qualifications or training in business or management 52

Exercise 1 Generating descriptive statistics and normality tests • SPSS: We are going to

Exercise 1 Generating descriptive statistics and normality tests • SPSS: We are going to conduct an exploratory analysis of the ratio variable TURNOVER • • • Select Analyze Descriptive statistics Explore Move TURNOVER into the Variable(s) box on the right Accept the default which is for statistics and plots Under Statistics, accept the default of Descriptives Under Plots, accept the defaults but also select Normality plots with tests Then click Continue and OK • Excel: Use Data→Data Analysis→Descriptive statistics 53

SPSS output Significance value Results of the normality tests • The normality test results

SPSS output Significance value Results of the normality tests • The normality test results show that the significance values (Sig. ) are ≤ 0. 01, which means we can be 99% certain that the distribution of TURNOVER deviates from normality • This gives us evidence to reject the null hypothesis that turnover is normally distributed and confirms the skewed distribution we see reflected in the measures of central tendency and the shape of the following histogram 54

Exercise 2 Mann-Whitney test of difference • Establishes whethere is a difference between two

Exercise 2 Mann-Whitney test of difference • Establishes whethere is a difference between two independent samples in the DV (companies that would have a voluntary audit and those that would not) and a non-parametric quantitative IV • First, reclassify IVs measured on a rating scale as ‘scale’ variables • Open the file Data for 790 cos. sav and select Analyze Nonparametric tests Independent samples and accept the default: Automatically compare distributions across groups • Click on the Fields tab and move TURNOVER, CHECK, QUALITY, CREDIBILITY and CREDITSCORE to Test Fields box • Move VOLAUDIT to Grouping Variable • Click ►Run to see the output 55

Solution 2 Analyze Nonparametric tests Independent samples 56

Solution 2 Analyze Nonparametric tests Independent samples 56

Solution 2 SPSS output file: Mann-Whitney test • The results show that the significance

Solution 2 SPSS output file: Mann-Whitney test • The results show that the significance values (Sig. ) are ≤ 0. 01 for each of the five tests • As our hypotheses were one-tailed (they predicted the direction of the relationship), and these are shown for a two-tailed hypothesis , we need to divide them by 2 • The outcome is unchanged with a very high level of significance and we have evidence to reject the null hypothesis for this test in respect of TURNOVER, CHECK, QUALITY, 57 CREDIBILITY and CREDITSCORE

Exercise 3 Chi-square ( 2) test of association • The 2 test measures the

Exercise 3 Chi-square ( 2) test of association • The 2 test measures the association between the two groups in the DV (companies that would have a voluntary audit and those that would not) and each dichotomous nominal IV (eg the dummy variables) • • • Select Analyze Descriptive statistics Crosstabs Move FAMILY, EXOWNERS, BANK and EDUCATION into Row(s) Move VOLAUDIT into Columns Select Statistics and click Chi-square and Continue Select Cells and under Counts, click Column and Continue Then click OK to see the output 58

Solution 3 Analyze Descriptive Statistics Crosstabs 59

Solution 3 Analyze Descriptive Statistics Crosstabs 59

Solution 3 Scroll down to see each crosstab (eg FAMILY) FAMILY * Volaudit Crosstab

Solution 3 Scroll down to see each crosstab (eg FAMILY) FAMILY * Volaudit Crosstab Volaudit FAMILY 0 Otherwise Count Expected Count % within Volaudit 1 Wholly family-owned Count Expected Count % within Volaudit Total Count Expected Count % within Volaudit 0 Otherwise 1 Yes 102 144 Total 246 138. 9 107. 1 246. 0 23. 6% 43. 1% 32. 1% 331 190 521 294. 1 226. 9 521. 0 76. 4% 56. 9% 67. 9% 433 334 767 433. 0 334. 0 767. 0 100. 0% 60

Solution 3 Scroll down to see the chi-square test (eg FAMILY) FAMILY * Volaudit

Solution 3 Scroll down to see the chi-square test (eg FAMILY) FAMILY * Volaudit Chi-Square Tests Asymp. Sig. Exact Sig. Value df (2 -sided) (1 -sided) Pearson Chi-Square 33. 103 a 1. 000 Continuity Correctionb 32. 212 1. 000 Likelihood Ratio 33. 031 1. 000 Fisher’s Exact Test. 000 Linear-by-Linear Association 33. 060 1. 000 N of Valid Cases 767 a. 0 cells (. 0%) have expected count less than 5. The minimum expected count is 107. 12. b. Computed only for a 2 x 2 table • The notes confirm the assumptions of the chi-square test are met, but we need to divide the significance value (Sig. ) by 2 for our one-tailed hypothesis and the outcome is unchanged (p ≤ 0. 01) • Looking at all the results, we have evidence to reject the null hypotheses for FAMILY, EXOWNERS and BANK, but not EDUCATION 61

Summary of the bivariate analysis so far • The bivariate analysis was designed to

Summary of the bivariate analysis so far • The bivariate analysis was designed to test the factors suggested by theoretical framework that might influence the demand for the audit and found • Significant difference between the two groups in VOLAUDIT (whether the directors would have a voluntary audit or not) and TURNOVER, CHECK, QUALITY, CREDIBILITY and CREDITSCORE • Significant association between the two groups in VOLAUDIT and the two groups in FAMILY, EXOWNERS, BANK but not for EDUCATION • Therefore, we have evidence to support H 1 -H 8 but not H 9 62