Korrelation Gliederung Kovarianz Die ProduktMomentKorrelation Berechnung SPSS Voraussetzungen

Korrelation Gliederung • Kovarianz • Die Produkt-Moment-Korrelation – Berechnung – SPSS – Voraussetzungen • Mittelwerte von Korrelationen berechnen • Unterschiede von Korrelationen testen • Optimale Stichproben 09_korrelation 1

Korrelation Gliederung • Korrelationen bei nicht intervallskalierten Variablen (1) Spearman‘s Rangkorrelation (2) Kendalls τ (3) Punktbiseriale Korrelation (4) Biseriale Korrelation (5) Biseriale Rangkorrelation (6) Punkttetrachorische Korrelation (7) Tetrachorische Korrelation (8) Polychorische Korrelation (9) Yules Y (10) ν-Koeffizient (11) Der Kontingenzkoeffizient CC (12) Cramérs Index 09_korrelation 2

Kovarianz und Korrelation • Kovarianz und Korrelation sind Maße für den (linearen) Zusammenhang zwischen zwei Variablen. • Eine positive Korrelation (bzw. Kovarianz) ist dann gegeben, wenn ein hoher Wert auf einer Variable häufig mit einen hohen Wert auf der anderen Variable einhergeht (z. B. Optimismus und Risikobereitschaft). • Eine negative Korrelation (bzw. Kovarianz) ist dann gegeben, wenn ein hoher Wert auf einer Variable häufig mit einen niedrigen Wert auf der anderen Variable einhergeht (z. B. Optimismus und Ängstlichkeit). 09_korrelation 3

Kovarianz und Korrelation • Grafisch kann man Zusammenhänge zwischen zwei Variablen in einem Scatterplot darstellen. positiver Zusammenhang 09_korrelation negativer Zusammenhang 4

Kovarianz • Die Kovarianz (= „gemeinsame Varianz“) wird zur Herleitung der Korrelation benötigt. • Die Kovarianz wird ähnlich wie die Varianz berechnet: 09_korrelation 5

Kovarianz • Beispiel 09_korrelation Vp Opt Risiko 1 40 120 2 20 100 3 10 90 4 35 130 5 25 105 26 109 6

Kovarianz • Immer, wenn eine Person auf beiden Variablen über dem Durchschnitt oder auf beiden Variablen unter dem Durchschnitt liegt, vergrößert sich der Wert für die Kovarianz, sonst verkleinert er sich. • Interpretation: Die Kovarianz ist ein unstandardisiertes Maß – d. h. sie hängt von der Skalierung der beteiligten Variablen ab – Daher können Kovarianzen nicht direkt interpretiert oder verglichen werden. • Aus diesem Grund wird die Kovarianz standardisiert. • Die standardisierte Kovarianz ist der Korrelationskoeffizient. 09_korrelation 7

Produkt-Moment-Korrelation • Der am häufigsten Verwendete Korrelationskoeffizient ist die Produkt-Moment-Korrelation (Pearson-Koeffizient) • Berechnung: • Die Korrelation entspricht der Kovarianz der z-transformierten Variablen 09_korrelation 8

Produkt-Moment-Korrelation Interpretation des Korrelationskoeffizienten • Der Korrelationskoeffizient (r) hat einen möglichen Wertebereich von +1 bis -1. • Es gilt: – r = 1 Perfekter positiver Zusammenhang – 1>r > 0 Positiver Zusammenhang – r ≈ 0 kein Zusammenhang – -1<r < 0 Negativer Zusammenhang – r =-1 Perfekter Negativer Zusammenhang 09_korrelation 9

Produkt-Moment-Korrelation • Korrelationen zeigen nur einen statistischen Zusammenhang dar. Sie dürfen nicht als Beweis für Kausalität verwendet werden. • Zusammenhänge können bedeuten, dass… – … sich „A“ auf „B“ auswirkt. – … sich „B“ auf „A“ auswirkt. – … „A“ und „B“ beide von einem dritten Merkmal „C“ beeinflusst werden • Beispiel: Es soll die Wirksamkeit von Nachhilfestunden untersucht werden. Dabei zeigt sich eine Korrelation von r = -. 20 zwischen der Anzahl der genommenen Nachhilfestunden und der Schulleistung. 09_korrelation 10

Determinationskoeffizient • Der Determinationskoeffizient (r²) ist die quadrierte Korrelation • Er beschreibt den relativen Anteil der gemeinsamen Varianz von zwei Merkmalen. • Der Determinationskoeffizient hat einen Wertebereich von 0 bis 1. Varianz von X Varianz von Y Gemeinsame Varianz 09_korrelation 11

Produkt-Moment-Korrelation • Beispiel 09_korrelation Vp Opt Risiko 1 40 120 2 20 100 3 10 90 4 35 130 5 25 105 26 109 12

Signifikanztest Statistische Signifikanz des Korrelationskoeffizienten • Auch bei Korrelationskoeffizienten muss ein Signifikanztest durchgeführt werden • Es werden dabei folgende Hypothesen geprüft – Ungerichtet: • H 0: ρ = 0 • H 1: ρ ≠ 0 (“rho” = Null) – Gerichtet: • H 0: ρ ≤ 0 (bzw. : ρ ≥ 0) • H 1: ρ > 0 (bzw. : ρ < 0) 09_korrelation 13

Signifikanztest • Auch der Korrelationskoeffizient kann mit einem t-Test auf Signifikanz getestet werden. • Dabei wird der empirische t-Wert wie folgt berechnet: • Wie immer gilt: Wenn temp > tkrit wird die H 0 verworfen • tkrit wird unter Berücksichtigung der Freiheitsgrade, des Alpha. Niveaus und der Art der Testung aus der Tabelle abgelesen. 09_korrelation 14

Signifikanztest Für das Beispiel ergibt sich: • Der kritischer t-Wert bei df=3, α=. 05 und 2 -seitiger Testung beträgt: tkrit = 3. 18. • Die H 0 wird also verworfen. Es besteht demnach ein bedeutsamer Zusammenhang zwischen den beiden untersuchten Variablen. 09_korrelation 15

SPSS Datensatz: • Für eine Korrelation werden immer für jede Vp gültige Werte für beide Variablen benötigt. 09_korrelation 16

SPSS Menu Befehl: • Analysieren • Korrelation • Bivariat 09_korrelation 17

SPSS Menu Befehl: • Beide Variablen auswählen • Pearson (für die Produkt. Moment-Korrelation) • Ein oder Zweiseitig? • OK 09_korrelation 18

SPSS Syntax: correlation opt with risiko. • Allgemein: correlation VAR 1 with VAR 2. • Oder: correlation VAR 1, VAR 2, VAR 3, …. 09_korrelation 19

SPSS Ausgabe: Korrelationen Risiko Opt Korrelation nach Pearson , 925 Signifikanz (2 -seitig) , 025 N 5 • r =. 93 • p <. 05 • Also: signifikanter Zusammenhang 09_korrelation 20

SPSS freiburg r p 1, 000 freiburg_2 N r p stat_2 N r p psycho_2 N r p 98 , 447 , 000 60 , 217 , 032 98 -, 038 , 776 60 , 207 , 041 98 , 138 , 292 60 N 09_korrelation freiburg_2 , 447 , 000 60 1, 000 79 , 282 , 029 60 , 240 , 033 79 , 127 , 334 60 , 231 , 040 79 stat_2 , 217 , 032 98 , 282 , 029 60 1, 000 98 , 706 , 000 60 , 185 , 069 98 , 269 , 037 60 -, 038 , 776 60 , 240 , 033 79 , 706 , 000 60 1, 000 79 , 100 , 448 60 , 263 , 019 79 psycho , 207 , 041 98 , 127 , 334 60 , 185 , 069 98 , 100 , 448 60 1, 000 98 , 606 , 000 60 psycho_2 , 138 , 292 60 , 231 , 040 79 , 269 , 037 60 , 263 , 019 79 , 606 , 000 60 1, 000 79 21

Voraussetzungen der Produkt-Moment Korellation Voraussetzungen der Produkt-Moment-Korrelation: (1) Intervallskalenniveau der Variablen (2) Normalverteilung der Variablen (3) Homoskedastizität: – Normalverteilung von y für alle Probanden, die den gleichen x-Wert haben. – Die Homoskedastizität ist in der Praxis kaum zu überprüfen!) • Zusätzliche Einschränkung: Es können nur lineare Zusammenhänge gezeigt werden! 09_korrelation 22

Mittelwerte von Korrelationen • Korrelationen sind nicht intervallskaliert. Daher ist es nicht erlaubt, direkt einen Mittelwert zu bilden! • Vorgehen: (1) Berechnung von Fischers Z-Transformation für die einzelnen Korrelationen (2) Berechnung des (gewichteten) Mittelwertes der Z-Werte (3) Rücktransformation des arithmetischen Mittels (Tabelle in Leonhart, S. 466) 09_korrelation 23

Mittelwerte von Korrelationen • Beispiel: In zwei Untersuchungen wurde der Zusammenhang zwischen der Studienmotivation und der Examensnote bestimmt. • Fischers Z: • Mittelwert: • Rücktransformierung (nach Tabelle): 09_korrelation 24

Unterschiede von Korrelationen • Fragestellung: Ist der Unterschied zwischen zwei Korrelationen statistisch bedeutsam? • Vorgehen: (1) Berechnung von Fischers Z-Transformation für beide Korrelationen. (2) Berechnung eines empirischen z-Werts (3) Bestimmung eines kritischen z-Wert (aus der Tabelle für die Standardnormalverteilung). (4) Wenn zemp > zkrit, liegt ein signifikanter Unterschied zwischen r 1 und r 2 vor. 09_korrelation 25

Unterschiede von Korrelationen • Beispiel: Es soll geprüft werden, ob sich die beiden Korrelationen von Folie 24 signifikant unterscheiden. • Berechnung: • Interpretation: Die H 0 kann nicht verworfen werden. Der Unterschied zwischen r 1 und r 2 ist nicht statistisch bedeutsam. 09_korrelation 26

Optimale Stichprobenumfänge • Wie beim t-Test gilt auch bei der Korrelation: Je kleiner ein Effekt (d. h. ein Zusammenhang), desto mehr Probanden werden benötigt, um ihn nachzuweisen! • Die optimale Stichprobengröße kann mit G*Power bestimmt werden. • Folgende Formel erlaubt eine Schätzung der optimalen Stichprobengröße: (Z: Fischers Z) 09_korrelation 27

Optimale Stichprobenumfänge Fazit: Um eine Korrelation von r =. 30 mit einer Power von. 90 zeigen zur können, benötigt man eine Stichprobe von N=109. 09_korrelation 28

Optimale Stichprobenumfänge Fazit: Um eine Korrelation von r =. 50 mit einer Power von. 80 (1 -seitig) zeigen zur können, benötigt man eine Stichprobe von N=21. 09_korrelation 29

Korrelationen ohne Intervallskalenniveau • Wenn zur Überprüfung einer Zusammenhangshypothese keine intervallskalierten Daten zur Verfügung stehen, kann die Produkt. Moment-Korrelation nicht verwendet werden. • Es gibt jedoch eine ganze Reihe weiterer Maße für die Korrelation, die in diesem Fall eingesetzt werden können. • Dabei muss das Skalenniveau beider Variablen berück-sichtigt werden. • Die folgende Tabelle gibt einen Überblick über den Einsatz der unterschiedlichen Koeffizienten. 09_korrelation 30

Nach Leonhart (2004), S. 204

Spearmans Rangkorrelation wird eingesetzt, wenn… • … zwei Variablen (x, y) als ordinalskaliert sind. • … eine intervallskalierte und eine ordinalskalierte Variable vorliegen. • … intervallskalierte Variablen vorliegen aber die Normalverteilungsannahme verletzt ist. Vorsicht: – Wenn Rangplätze mehrfach besetzt sind („Rangbindung“), sollte Spearmans Rangkorrelation nicht verwendet werden. – In diesem Fall empfiehlt sich die Verwendung von Kendalls τ. 09_korrelation 32

Spearmans Rangkorrelation • Alle Variablen werden vor der Berechnung in eine Rangreihe (Rang 1 bis N) transformiert. • Beispiel: – 3. 40; 27. 40; 7. 80; 15. 00; 27. 10 – 1, 5, 2, 3, 4 • Berechnung: • Signifikanztest: 09_korrelation 33

Spearmans Rangkorrelation Beispiel: Vergleich der Ergebnisse aus zwei Angsttests: Vp Test 1 Test 2 Rang 1 Rang 2 d d² 1 20 53 5 6 1 1 2 16 39 4 2 -2 4 3 38 67 8 8 0 0 4 30 52 7 5 -2 4 5 27 60 6 7 1 1 6 12 42 2 3 1 1 7 11 47 1 4 3 9 8 14 34 3 1 -2 4 24 09_korrelation 34

Spearmans Rangkorrelation Berechnung des Koeffizienten: Signifikanztest: Für df=6 und α=. 05 bei einseitiger Testung ergibt sich: Die Korrelation ist statistisch signifikant! 09_korrelation 35

Spearmans Rangkorrelation • Spearmans Rangkorrelation in SPSS – Gleicher Befehl wie für „Pearson“, aber „Spearman“ anwählen 09_korrelation 36

Spearmans Rangkorrelation • SPSS Ausgabe Korrelationen Test 1 Korrelationskoeffizient Test 1 Sig. (2 -seitig) 1, 000. Test 2 , 714* , 047 N Spearman-Rho Test 2 8 8 Korrelationskoeffizient , 714* 1, 000 Sig. (2 -seitig) , 047. N 8 8 *. Die Korrelation ist auf dem 0, 05 Niveau signifikant (zweiseitig). 09_korrelation 37

Kendalls τ • Kendalls τ („tau“) ist ebenfalls ein Koeffizient für ordinalskalierte Variablen. • Kendalls τ ist unempfindlich gegenüber Ausreißern (es dürfen leere Ränge verwendet werden; die Bildung einer Rangreihe ist nicht notwendig!) • Kendalls τ wird verwendet, wenn Ränge mehrfach besetzt sind („Rangbindungen“). • Hinweis: Kendalls τ fällt in der Regel kleiner aus als Spearmans Koeffizient. Daher sollte letzterer bevorzugt werden, wenn die Voraussetzungen erfüllt sind. 09_korrelation 38

Kendalls τ Berechnung, wenn Rangbindungen vorliegen: • Mit… – – – P: Anzahl der Proversionen über alle Personen I: Anzahl der Inversionen über alle Personen N: Stichprobenumfang k, m: Anzahl der Kategorien der Variablen X und Y ti, wj: Anzahl der Probanden auf Rang i oder j 09_korrelation 39

Kendalls τ • • Proversionen: Anzahl der Vpn „rechts unterhalb“ eines Werts. Inversionen: Anzahl der Vpn „links-unterhalb“ eines Werts. P=6 I=3 P=2 I=3 Über alle Vpn ergibt sich: P = 44 I =7 09_korrelation 40

Kendalls τ • Signifikanzprüfung nach Tabelle (Leonhart, 2004, S. 465): • Bei N = 12 ist ein Zusammenhang ab P – I > 26 statistisch bedeutsam. 09_korrelation 41

Kendalls τ • Kendalls τ in SPSS: – Gleicher Befehl wie für „Pearson“, aber „Kendalls τ“ anwählen Korrelationen Kendall-Tau-b x Korrelationskoeffizient Sig. (2 -seitig) N y x 1, 000 Korrelationskoeffizient Sig. (2 -seitig) N . , 007 12 12 , 644** 1, 000 , 007. 12 **. Die Korrelation ist auf dem 0, 01 Niveau signifikant (zweiseitig). 09_korrelation y , 644** 12 42

Punktbiseriale Korrelation Verwendung der Punktbiserialen Korrelation • Es soll ein Zusammenhang zwischen einer intervallskalierten und einer natürlich dichotomen nominalskalierten Variable bestimmt werden. • Oder: Es soll ein Zusammenhang zwischen einer intervallskalierten Variable einerseits und einer (aus einer ursprünglich normalverteilten intervallskalierten Variable) künstlich dichotomisierten Variable bestimmt werden. • Die punktbiseriale Korrelation sollte nicht für latente Variablen verwendet werden! 09_korrelation 43

Punktbiseriale Korrelation Berechnung der Punktbiserialen Korrelation 09_korrelation 44

Punktbiseriale Korrelation Beispiel: Ängstlichkeit von Männern und Frauen Signifikanztest tkrit = 1. 99 Der Zusammenhang ist statistisch bedeutsam! 09_korrelation 45

Biseriale Korrelation Verwendung der Biserialen Korrelation: • Ein latentes, intervallskaliertes Konstrukt wird über eine dichotome, manifeste Variable erfasst. (z. B. „Haben Sie gute Statistikkenntnisse: ja/nein? “). • Eine intervallskalierten Variable wird künstlich dichotomisiert. (z. B. Alter größer oder kleiner 18 Jahre). 09_korrelation 46

Biseriale Korrelation Berechnung der Biserialen Korrelation 09_korrelation 47

Biseriale Korrelation Bestimmung von δ: (1) Bestimmung des Anteil der Probanden in Gruppe 1: – z. B. p(Gr. =1) =. 40 (2) Bestimmung der Ordinate („y-Achse“) der Normalverteilung für p aus einer Tabelle zur Standardnormalverteilung. – z. B. Ordinate(p =. 40) = 0. 386 09_korrelation 48

Biseriale Korrelation Beispiel: Nutzungsdauer des Internets (Minuten pro Tag) von Jugendlichen und Erwachsenen. 09_korrelation 49

Biseriale Rangkorrelation Verwendung der Biserialen Rangkorrelation: • Der Zusammenhang zwischen einer ordinalskalierten Variable und einer dichotomen Variable soll bestimmt werden. Berechnung: 09_korrelation 50

Biseriale Rangkorrelation Korrektur bei Rangbindungen: – b: Anzahl der vorhandenen Rangplätze. – ti: Anzahl der Probanden auf Rangplatz i. 09_korrelation 51

Biseriale Rangkorrelation • Beispiel: Es soll der Zusammenhang des Geschlechts mit einem vierstufigen Rating zum Optimismus bestimmt werden. R(x), R(y): Mittlerer Rang d: Differenz der mittleren Ränge 09_korrelation 52

Biseriale Rangkorrelation Summe der quadrierten Rangdifferenzen Korrekturkoeffizient: 09_korrelation 53

Biseriale Rangkorrelation Berechnung der Korrelation: 09_korrelation 54

Punkttetrachorische Korrelation Verwendung der Punkttetrachorischen Korrelation • Der Zusammenhang von 2 dichotomen Variablen soll bestimmt werden. • Alternativen: – Die punkttetrachorische Korrelation sollte nicht bei ungleichen Randsummen verwendet werden (Alternative: Yules Y). – Wenn eine intervallskalierte latente Variable zugrunde liegt, sollte der νKoeffizient verwendet werden. – Liegen zwei normalverteilte latente Variablen zugrunde, sollte die tetrachorische Korrelation verwendet werden. – Bei polytomen Variablen wird Cramérs Index verwendet. 09_korrelation 55

Punkttetrachorische Korrelation Berechnung der Punkttetrachorischen Korrelation • Beispiel: Zusammenhang von Geschlecht und Besitz eines Autos Geschlecht Auto Frau Mann nein 12 10 22 ja 8 20 28 20 30 50 09_korrelation 56

Tetrachorische Korrelation Verwendung der Tetrachorischen Korrelation • Der Zusammenhang von zwei künstlich dichotomisierten Variablen, die auf intervallskalierten latenten Variablen beruhen, soll bestimmt werden. Berechnung (Näherungsformel): 09_korrelation 57

Polychorische Korrelation Verwendung der Polychorischen Korrelation • Der Zusammenhang von zwei ordinalskalierten Merkmalen, denen latente intervallskalierte Merkmale zugrunde liegen soll berechnet werden. Die Berechnung wird hier nicht dargestellt, da sie relativ komplex ist (siehe Leonhart, 2004, S. 221). 09_korrelation 58

Yules Y Verwendung von Yules Y • Der Zusammenhang von zwei natürlich dichotomen Variablen soll bestimmt werden. • Yules Y darf auch verwendet werden, wenn sich die Randsummen stark unterscheiden. Berechnung: 09_korrelation 59

Yules Y Beispiel: Zusammenhang von Geschlecht und Besitz eines Autos Geschlecht Auto Frau Mann nein 12 10 22 ja 8 20 28 20 30 50 09_korrelation 60

ν-Koeffizient Verwendung des ν-Koeffizient • Der Zusammenhang von einem natürlich dichotomen und einer künstlich dichotomisierten Variable, der ein latentes Konstrukt zugrunde liegt, soll berechnet werden. Berechnung: p. 1: p. 2: 09_korrelation relative Häufigkeit der Stufe 1 des natürlich-dichotomen Merkmals relative Häufigkeit der Stufe 2 des natürlich-dichotomen Merkmals 61

Kontingenzkoeffizient CC Verwendung des Kontingenzkoeffizient CC • Der Zusammenhang zwischen zwei polytomen nominalskalierten Variablen soll berechnet werden. • CC sollte nicht bei ungleichen Randsummen verwendet werden. • Da CC nicht wie ein Korrelationskoeffizient skaliert ist (r<1), wird immer die Verwendung von Cramérs C empfohlen. Beispiel: Die Auftretenshäufigkeit psychiatrischer Diagnosen soll zwischen Verschiedenen EU-Staaten verglichen werden. 09_korrelation 62

Cramérs Index Verwendung von Cramérs Index • Der Zusammenhang zwischen zwei polytomen nominalskalierten Variablen soll berechnet werden. Beispiel: • Die Auftretenshäufigkeit psychiatrischer Diagnosen soll zwischen Verschiedenen EU-Staaten verglichen werden. Berechnung: 09_korrelation 63

Cramérs Index Beobachtete Häufigkeiten Land Diagnose Deutschl. Frankr. Engl. Summe rel. Häuf. Depression 12 15 10 37 . 41 Angst 12 10 12 34 . 38 Schizophrenie 6 5 8 19 . 21 Summe 30 30 30 90 90 Erwartete Häufigkeiten Land Diagnose Deutschl. Frankr. Engl. Summe rel. Häuf. Depression 12. 33 37 . 41 Angst 11. 33 34 . 38 Schizophrenie 6. 33 19 . 21 Summe 30 30 30 90 90 09_korrelation 64

Cramérs Index Diagnose Deutschl. Frankr. Engl. Σ Depression 0. 01 0. 58 0. 44 1. 03 Angst 0. 04 0. 16 0. 04 0. 24 Schizophrenie 0. 02 0. 28 0. 44 0. 74 Σ 0. 07 1. 01 0. 92 2. 00 09_korrelation 65

Zusammenfassung • Kovarianz und Korrelation sind Maße für den (linearen) Zusammenhang zwischen zwei Variablen. • Positive bzw. negative Zusammenhänge erkennt man durch „ansteigende“ bzw. „abfallende“ Formen einer Punktewolke in einem Streudiagramm. • Die Kovarianz ist ein unstandardisiertes Maß; sie kann beliebige Werte annehmen. • Die Korrelation ist ein standardisiertes Maß; sie nimmt Werte zwischen -1 und +1 an. • Die Produkt-Moment-Korrelation kann mit einem t-Test auf Signifikanz überprüft werden. 09_korrelation 66

Zusammenfassung • Voraussetzungen für die Berechnung der Produkt-Moment. Korrelation sind (a) Intervallskalenniveau, (b) Normalverteilung und (c) Homoskedastizität. • Der Determinationskoeffizient gibt den Anteil der gemeinsamen Varianz an. • Mit Hilfe von Fischers Z-Transformation ist es möglich, Mittelwerte von Korrelationen zu berechnen und Unterschiede von Korrelationen auf Signifikanz zu prüfen. • Um schwache Zusammenhänge nachweisen zu können, sind sehr große Stichproben notwendig (G*Power). 09_korrelation 67

Zusammenfassung • Für nicht-intervallskalierte Variablen gibt es eine Reihe alternativer Korrelationskoeffizienten, die unterschiedliche Voraussetzungen haben. • Besonders wichtig sind dabei Spearmans Rangkorrelation und Kendalls τ 09_korrelation 68