Korrelation Gliederung Kovarianz Die ProduktMomentKorrelation Berechnung SPSS Voraussetzungen
Korrelation Gliederung • Kovarianz • Die Produkt-Moment-Korrelation – Berechnung – SPSS – Voraussetzungen • Mittelwerte von Korrelationen berechnen • Unterschiede von Korrelationen testen • Optimale Stichproben 09_korrelation 1
Korrelation Gliederung • Korrelationen bei nicht intervallskalierten Variablen (1) Spearman‘s Rangkorrelation (2) Kendalls τ (3) Punktbiseriale Korrelation (4) Biseriale Korrelation (5) Biseriale Rangkorrelation (6) Punkttetrachorische Korrelation (7) Tetrachorische Korrelation (8) Polychorische Korrelation (9) Yules Y (10) ν-Koeffizient (11) Der Kontingenzkoeffizient CC (12) Cramérs Index 09_korrelation 2
Kovarianz und Korrelation • Kovarianz und Korrelation sind Maße für den (linearen) Zusammenhang zwischen zwei Variablen. • Eine positive Korrelation (bzw. Kovarianz) ist dann gegeben, wenn ein hoher Wert auf einer Variable häufig mit einen hohen Wert auf der anderen Variable einhergeht (z. B. Optimismus und Risikobereitschaft). • Eine negative Korrelation (bzw. Kovarianz) ist dann gegeben, wenn ein hoher Wert auf einer Variable häufig mit einen niedrigen Wert auf der anderen Variable einhergeht (z. B. Optimismus und Ängstlichkeit). 09_korrelation 3
Kovarianz und Korrelation • Grafisch kann man Zusammenhänge zwischen zwei Variablen in einem Scatterplot darstellen. positiver Zusammenhang 09_korrelation negativer Zusammenhang 4
Kovarianz • Die Kovarianz (= „gemeinsame Varianz“) wird zur Herleitung der Korrelation benötigt. • Die Kovarianz wird ähnlich wie die Varianz berechnet: 09_korrelation 5
Kovarianz • Beispiel 09_korrelation Vp Opt Risiko 1 40 120 2 20 100 3 10 90 4 35 130 5 25 105 26 109 6
Kovarianz • Immer, wenn eine Person auf beiden Variablen über dem Durchschnitt oder auf beiden Variablen unter dem Durchschnitt liegt, vergrößert sich der Wert für die Kovarianz, sonst verkleinert er sich. • Interpretation: Die Kovarianz ist ein unstandardisiertes Maß – d. h. sie hängt von der Skalierung der beteiligten Variablen ab – Daher können Kovarianzen nicht direkt interpretiert oder verglichen werden. • Aus diesem Grund wird die Kovarianz standardisiert. • Die standardisierte Kovarianz ist der Korrelationskoeffizient. 09_korrelation 7
Produkt-Moment-Korrelation • Der am häufigsten Verwendete Korrelationskoeffizient ist die Produkt-Moment-Korrelation (Pearson-Koeffizient) • Berechnung: • Die Korrelation entspricht der Kovarianz der z-transformierten Variablen 09_korrelation 8
Produkt-Moment-Korrelation Interpretation des Korrelationskoeffizienten • Der Korrelationskoeffizient (r) hat einen möglichen Wertebereich von +1 bis -1. • Es gilt: – r = 1 Perfekter positiver Zusammenhang – 1>r > 0 Positiver Zusammenhang – r ≈ 0 kein Zusammenhang – -1<r < 0 Negativer Zusammenhang – r =-1 Perfekter Negativer Zusammenhang 09_korrelation 9
Produkt-Moment-Korrelation • Korrelationen zeigen nur einen statistischen Zusammenhang dar. Sie dürfen nicht als Beweis für Kausalität verwendet werden. • Zusammenhänge können bedeuten, dass… – … sich „A“ auf „B“ auswirkt. – … sich „B“ auf „A“ auswirkt. – … „A“ und „B“ beide von einem dritten Merkmal „C“ beeinflusst werden • Beispiel: Es soll die Wirksamkeit von Nachhilfestunden untersucht werden. Dabei zeigt sich eine Korrelation von r = -. 20 zwischen der Anzahl der genommenen Nachhilfestunden und der Schulleistung. 09_korrelation 10
Determinationskoeffizient • Der Determinationskoeffizient (r²) ist die quadrierte Korrelation • Er beschreibt den relativen Anteil der gemeinsamen Varianz von zwei Merkmalen. • Der Determinationskoeffizient hat einen Wertebereich von 0 bis 1. Varianz von X Varianz von Y Gemeinsame Varianz 09_korrelation 11
Produkt-Moment-Korrelation • Beispiel 09_korrelation Vp Opt Risiko 1 40 120 2 20 100 3 10 90 4 35 130 5 25 105 26 109 12
Signifikanztest Statistische Signifikanz des Korrelationskoeffizienten • Auch bei Korrelationskoeffizienten muss ein Signifikanztest durchgeführt werden • Es werden dabei folgende Hypothesen geprüft – Ungerichtet: • H 0: ρ = 0 • H 1: ρ ≠ 0 (“rho” = Null) – Gerichtet: • H 0: ρ ≤ 0 (bzw. : ρ ≥ 0) • H 1: ρ > 0 (bzw. : ρ < 0) 09_korrelation 13
Signifikanztest • Auch der Korrelationskoeffizient kann mit einem t-Test auf Signifikanz getestet werden. • Dabei wird der empirische t-Wert wie folgt berechnet: • Wie immer gilt: Wenn temp > tkrit wird die H 0 verworfen • tkrit wird unter Berücksichtigung der Freiheitsgrade, des Alpha. Niveaus und der Art der Testung aus der Tabelle abgelesen. 09_korrelation 14
Signifikanztest Für das Beispiel ergibt sich: • Der kritischer t-Wert bei df=3, α=. 05 und 2 -seitiger Testung beträgt: tkrit = 3. 18. • Die H 0 wird also verworfen. Es besteht demnach ein bedeutsamer Zusammenhang zwischen den beiden untersuchten Variablen. 09_korrelation 15
SPSS Datensatz: • Für eine Korrelation werden immer für jede Vp gültige Werte für beide Variablen benötigt. 09_korrelation 16
SPSS Menu Befehl: • Analysieren • Korrelation • Bivariat 09_korrelation 17
SPSS Menu Befehl: • Beide Variablen auswählen • Pearson (für die Produkt. Moment-Korrelation) • Ein oder Zweiseitig? • OK 09_korrelation 18
SPSS Syntax: correlation opt with risiko. • Allgemein: correlation VAR 1 with VAR 2. • Oder: correlation VAR 1, VAR 2, VAR 3, …. 09_korrelation 19
SPSS Ausgabe: Korrelationen Risiko Opt Korrelation nach Pearson , 925 Signifikanz (2 -seitig) , 025 N 5 • r =. 93 • p <. 05 • Also: signifikanter Zusammenhang 09_korrelation 20
SPSS freiburg r p 1, 000 freiburg_2 N r p stat_2 N r p psycho_2 N r p 98 , 447 , 000 60 , 217 , 032 98 -, 038 , 776 60 , 207 , 041 98 , 138 , 292 60 N 09_korrelation freiburg_2 , 447 , 000 60 1, 000 79 , 282 , 029 60 , 240 , 033 79 , 127 , 334 60 , 231 , 040 79 stat_2 , 217 , 032 98 , 282 , 029 60 1, 000 98 , 706 , 000 60 , 185 , 069 98 , 269 , 037 60 -, 038 , 776 60 , 240 , 033 79 , 706 , 000 60 1, 000 79 , 100 , 448 60 , 263 , 019 79 psycho , 207 , 041 98 , 127 , 334 60 , 185 , 069 98 , 100 , 448 60 1, 000 98 , 606 , 000 60 psycho_2 , 138 , 292 60 , 231 , 040 79 , 269 , 037 60 , 263 , 019 79 , 606 , 000 60 1, 000 79 21
Voraussetzungen der Produkt-Moment Korellation Voraussetzungen der Produkt-Moment-Korrelation: (1) Intervallskalenniveau der Variablen (2) Normalverteilung der Variablen (3) Homoskedastizität: – Normalverteilung von y für alle Probanden, die den gleichen x-Wert haben. – Die Homoskedastizität ist in der Praxis kaum zu überprüfen!) • Zusätzliche Einschränkung: Es können nur lineare Zusammenhänge gezeigt werden! 09_korrelation 22
Mittelwerte von Korrelationen • Korrelationen sind nicht intervallskaliert. Daher ist es nicht erlaubt, direkt einen Mittelwert zu bilden! • Vorgehen: (1) Berechnung von Fischers Z-Transformation für die einzelnen Korrelationen (2) Berechnung des (gewichteten) Mittelwertes der Z-Werte (3) Rücktransformation des arithmetischen Mittels (Tabelle in Leonhart, S. 466) 09_korrelation 23
Mittelwerte von Korrelationen • Beispiel: In zwei Untersuchungen wurde der Zusammenhang zwischen der Studienmotivation und der Examensnote bestimmt. • Fischers Z: • Mittelwert: • Rücktransformierung (nach Tabelle): 09_korrelation 24
Unterschiede von Korrelationen • Fragestellung: Ist der Unterschied zwischen zwei Korrelationen statistisch bedeutsam? • Vorgehen: (1) Berechnung von Fischers Z-Transformation für beide Korrelationen. (2) Berechnung eines empirischen z-Werts (3) Bestimmung eines kritischen z-Wert (aus der Tabelle für die Standardnormalverteilung). (4) Wenn zemp > zkrit, liegt ein signifikanter Unterschied zwischen r 1 und r 2 vor. 09_korrelation 25
Unterschiede von Korrelationen • Beispiel: Es soll geprüft werden, ob sich die beiden Korrelationen von Folie 24 signifikant unterscheiden. • Berechnung: • Interpretation: Die H 0 kann nicht verworfen werden. Der Unterschied zwischen r 1 und r 2 ist nicht statistisch bedeutsam. 09_korrelation 26
Optimale Stichprobenumfänge • Wie beim t-Test gilt auch bei der Korrelation: Je kleiner ein Effekt (d. h. ein Zusammenhang), desto mehr Probanden werden benötigt, um ihn nachzuweisen! • Die optimale Stichprobengröße kann mit G*Power bestimmt werden. • Folgende Formel erlaubt eine Schätzung der optimalen Stichprobengröße: (Z: Fischers Z) 09_korrelation 27
Optimale Stichprobenumfänge Fazit: Um eine Korrelation von r =. 30 mit einer Power von. 90 zeigen zur können, benötigt man eine Stichprobe von N=109. 09_korrelation 28
Optimale Stichprobenumfänge Fazit: Um eine Korrelation von r =. 50 mit einer Power von. 80 (1 -seitig) zeigen zur können, benötigt man eine Stichprobe von N=21. 09_korrelation 29
Korrelationen ohne Intervallskalenniveau • Wenn zur Überprüfung einer Zusammenhangshypothese keine intervallskalierten Daten zur Verfügung stehen, kann die Produkt. Moment-Korrelation nicht verwendet werden. • Es gibt jedoch eine ganze Reihe weiterer Maße für die Korrelation, die in diesem Fall eingesetzt werden können. • Dabei muss das Skalenniveau beider Variablen berück-sichtigt werden. • Die folgende Tabelle gibt einen Überblick über den Einsatz der unterschiedlichen Koeffizienten. 09_korrelation 30
Nach Leonhart (2004), S. 204
Spearmans Rangkorrelation wird eingesetzt, wenn… • … zwei Variablen (x, y) als ordinalskaliert sind. • … eine intervallskalierte und eine ordinalskalierte Variable vorliegen. • … intervallskalierte Variablen vorliegen aber die Normalverteilungsannahme verletzt ist. Vorsicht: – Wenn Rangplätze mehrfach besetzt sind („Rangbindung“), sollte Spearmans Rangkorrelation nicht verwendet werden. – In diesem Fall empfiehlt sich die Verwendung von Kendalls τ. 09_korrelation 32
Spearmans Rangkorrelation • Alle Variablen werden vor der Berechnung in eine Rangreihe (Rang 1 bis N) transformiert. • Beispiel: – 3. 40; 27. 40; 7. 80; 15. 00; 27. 10 – 1, 5, 2, 3, 4 • Berechnung: • Signifikanztest: 09_korrelation 33
Spearmans Rangkorrelation Beispiel: Vergleich der Ergebnisse aus zwei Angsttests: Vp Test 1 Test 2 Rang 1 Rang 2 d d² 1 20 53 5 6 1 1 2 16 39 4 2 -2 4 3 38 67 8 8 0 0 4 30 52 7 5 -2 4 5 27 60 6 7 1 1 6 12 42 2 3 1 1 7 11 47 1 4 3 9 8 14 34 3 1 -2 4 24 09_korrelation 34
Spearmans Rangkorrelation Berechnung des Koeffizienten: Signifikanztest: Für df=6 und α=. 05 bei einseitiger Testung ergibt sich: Die Korrelation ist statistisch signifikant! 09_korrelation 35
Spearmans Rangkorrelation • Spearmans Rangkorrelation in SPSS – Gleicher Befehl wie für „Pearson“, aber „Spearman“ anwählen 09_korrelation 36
Spearmans Rangkorrelation • SPSS Ausgabe Korrelationen Test 1 Korrelationskoeffizient Test 1 Sig. (2 -seitig) 1, 000. Test 2 , 714* , 047 N Spearman-Rho Test 2 8 8 Korrelationskoeffizient , 714* 1, 000 Sig. (2 -seitig) , 047. N 8 8 *. Die Korrelation ist auf dem 0, 05 Niveau signifikant (zweiseitig). 09_korrelation 37
Kendalls τ • Kendalls τ („tau“) ist ebenfalls ein Koeffizient für ordinalskalierte Variablen. • Kendalls τ ist unempfindlich gegenüber Ausreißern (es dürfen leere Ränge verwendet werden; die Bildung einer Rangreihe ist nicht notwendig!) • Kendalls τ wird verwendet, wenn Ränge mehrfach besetzt sind („Rangbindungen“). • Hinweis: Kendalls τ fällt in der Regel kleiner aus als Spearmans Koeffizient. Daher sollte letzterer bevorzugt werden, wenn die Voraussetzungen erfüllt sind. 09_korrelation 38
Kendalls τ Berechnung, wenn Rangbindungen vorliegen: • Mit… – – – P: Anzahl der Proversionen über alle Personen I: Anzahl der Inversionen über alle Personen N: Stichprobenumfang k, m: Anzahl der Kategorien der Variablen X und Y ti, wj: Anzahl der Probanden auf Rang i oder j 09_korrelation 39
Kendalls τ • • Proversionen: Anzahl der Vpn „rechts unterhalb“ eines Werts. Inversionen: Anzahl der Vpn „links-unterhalb“ eines Werts. P=6 I=3 P=2 I=3 Über alle Vpn ergibt sich: P = 44 I =7 09_korrelation 40
Kendalls τ • Signifikanzprüfung nach Tabelle (Leonhart, 2004, S. 465): • Bei N = 12 ist ein Zusammenhang ab P – I > 26 statistisch bedeutsam. 09_korrelation 41
Kendalls τ • Kendalls τ in SPSS: – Gleicher Befehl wie für „Pearson“, aber „Kendalls τ“ anwählen Korrelationen Kendall-Tau-b x Korrelationskoeffizient Sig. (2 -seitig) N y x 1, 000 Korrelationskoeffizient Sig. (2 -seitig) N . , 007 12 12 , 644** 1, 000 , 007. 12 **. Die Korrelation ist auf dem 0, 01 Niveau signifikant (zweiseitig). 09_korrelation y , 644** 12 42
Punktbiseriale Korrelation Verwendung der Punktbiserialen Korrelation • Es soll ein Zusammenhang zwischen einer intervallskalierten und einer natürlich dichotomen nominalskalierten Variable bestimmt werden. • Oder: Es soll ein Zusammenhang zwischen einer intervallskalierten Variable einerseits und einer (aus einer ursprünglich normalverteilten intervallskalierten Variable) künstlich dichotomisierten Variable bestimmt werden. • Die punktbiseriale Korrelation sollte nicht für latente Variablen verwendet werden! 09_korrelation 43
Punktbiseriale Korrelation Berechnung der Punktbiserialen Korrelation 09_korrelation 44
Punktbiseriale Korrelation Beispiel: Ängstlichkeit von Männern und Frauen Signifikanztest tkrit = 1. 99 Der Zusammenhang ist statistisch bedeutsam! 09_korrelation 45
Biseriale Korrelation Verwendung der Biserialen Korrelation: • Ein latentes, intervallskaliertes Konstrukt wird über eine dichotome, manifeste Variable erfasst. (z. B. „Haben Sie gute Statistikkenntnisse: ja/nein? “). • Eine intervallskalierten Variable wird künstlich dichotomisiert. (z. B. Alter größer oder kleiner 18 Jahre). 09_korrelation 46
Biseriale Korrelation Berechnung der Biserialen Korrelation 09_korrelation 47
Biseriale Korrelation Bestimmung von δ: (1) Bestimmung des Anteil der Probanden in Gruppe 1: – z. B. p(Gr. =1) =. 40 (2) Bestimmung der Ordinate („y-Achse“) der Normalverteilung für p aus einer Tabelle zur Standardnormalverteilung. – z. B. Ordinate(p =. 40) = 0. 386 09_korrelation 48
Biseriale Korrelation Beispiel: Nutzungsdauer des Internets (Minuten pro Tag) von Jugendlichen und Erwachsenen. 09_korrelation 49
Biseriale Rangkorrelation Verwendung der Biserialen Rangkorrelation: • Der Zusammenhang zwischen einer ordinalskalierten Variable und einer dichotomen Variable soll bestimmt werden. Berechnung: 09_korrelation 50
Biseriale Rangkorrelation Korrektur bei Rangbindungen: – b: Anzahl der vorhandenen Rangplätze. – ti: Anzahl der Probanden auf Rangplatz i. 09_korrelation 51
Biseriale Rangkorrelation • Beispiel: Es soll der Zusammenhang des Geschlechts mit einem vierstufigen Rating zum Optimismus bestimmt werden. R(x), R(y): Mittlerer Rang d: Differenz der mittleren Ränge 09_korrelation 52
Biseriale Rangkorrelation Summe der quadrierten Rangdifferenzen Korrekturkoeffizient: 09_korrelation 53
Biseriale Rangkorrelation Berechnung der Korrelation: 09_korrelation 54
Punkttetrachorische Korrelation Verwendung der Punkttetrachorischen Korrelation • Der Zusammenhang von 2 dichotomen Variablen soll bestimmt werden. • Alternativen: – Die punkttetrachorische Korrelation sollte nicht bei ungleichen Randsummen verwendet werden (Alternative: Yules Y). – Wenn eine intervallskalierte latente Variable zugrunde liegt, sollte der νKoeffizient verwendet werden. – Liegen zwei normalverteilte latente Variablen zugrunde, sollte die tetrachorische Korrelation verwendet werden. – Bei polytomen Variablen wird Cramérs Index verwendet. 09_korrelation 55
Punkttetrachorische Korrelation Berechnung der Punkttetrachorischen Korrelation • Beispiel: Zusammenhang von Geschlecht und Besitz eines Autos Geschlecht Auto Frau Mann nein 12 10 22 ja 8 20 28 20 30 50 09_korrelation 56
Tetrachorische Korrelation Verwendung der Tetrachorischen Korrelation • Der Zusammenhang von zwei künstlich dichotomisierten Variablen, die auf intervallskalierten latenten Variablen beruhen, soll bestimmt werden. Berechnung (Näherungsformel): 09_korrelation 57
Polychorische Korrelation Verwendung der Polychorischen Korrelation • Der Zusammenhang von zwei ordinalskalierten Merkmalen, denen latente intervallskalierte Merkmale zugrunde liegen soll berechnet werden. Die Berechnung wird hier nicht dargestellt, da sie relativ komplex ist (siehe Leonhart, 2004, S. 221). 09_korrelation 58
Yules Y Verwendung von Yules Y • Der Zusammenhang von zwei natürlich dichotomen Variablen soll bestimmt werden. • Yules Y darf auch verwendet werden, wenn sich die Randsummen stark unterscheiden. Berechnung: 09_korrelation 59
Yules Y Beispiel: Zusammenhang von Geschlecht und Besitz eines Autos Geschlecht Auto Frau Mann nein 12 10 22 ja 8 20 28 20 30 50 09_korrelation 60
ν-Koeffizient Verwendung des ν-Koeffizient • Der Zusammenhang von einem natürlich dichotomen und einer künstlich dichotomisierten Variable, der ein latentes Konstrukt zugrunde liegt, soll berechnet werden. Berechnung: p. 1: p. 2: 09_korrelation relative Häufigkeit der Stufe 1 des natürlich-dichotomen Merkmals relative Häufigkeit der Stufe 2 des natürlich-dichotomen Merkmals 61
Kontingenzkoeffizient CC Verwendung des Kontingenzkoeffizient CC • Der Zusammenhang zwischen zwei polytomen nominalskalierten Variablen soll berechnet werden. • CC sollte nicht bei ungleichen Randsummen verwendet werden. • Da CC nicht wie ein Korrelationskoeffizient skaliert ist (r<1), wird immer die Verwendung von Cramérs C empfohlen. Beispiel: Die Auftretenshäufigkeit psychiatrischer Diagnosen soll zwischen Verschiedenen EU-Staaten verglichen werden. 09_korrelation 62
Cramérs Index Verwendung von Cramérs Index • Der Zusammenhang zwischen zwei polytomen nominalskalierten Variablen soll berechnet werden. Beispiel: • Die Auftretenshäufigkeit psychiatrischer Diagnosen soll zwischen Verschiedenen EU-Staaten verglichen werden. Berechnung: 09_korrelation 63
Cramérs Index Beobachtete Häufigkeiten Land Diagnose Deutschl. Frankr. Engl. Summe rel. Häuf. Depression 12 15 10 37 . 41 Angst 12 10 12 34 . 38 Schizophrenie 6 5 8 19 . 21 Summe 30 30 30 90 90 Erwartete Häufigkeiten Land Diagnose Deutschl. Frankr. Engl. Summe rel. Häuf. Depression 12. 33 37 . 41 Angst 11. 33 34 . 38 Schizophrenie 6. 33 19 . 21 Summe 30 30 30 90 90 09_korrelation 64
Cramérs Index Diagnose Deutschl. Frankr. Engl. Σ Depression 0. 01 0. 58 0. 44 1. 03 Angst 0. 04 0. 16 0. 04 0. 24 Schizophrenie 0. 02 0. 28 0. 44 0. 74 Σ 0. 07 1. 01 0. 92 2. 00 09_korrelation 65
Zusammenfassung • Kovarianz und Korrelation sind Maße für den (linearen) Zusammenhang zwischen zwei Variablen. • Positive bzw. negative Zusammenhänge erkennt man durch „ansteigende“ bzw. „abfallende“ Formen einer Punktewolke in einem Streudiagramm. • Die Kovarianz ist ein unstandardisiertes Maß; sie kann beliebige Werte annehmen. • Die Korrelation ist ein standardisiertes Maß; sie nimmt Werte zwischen -1 und +1 an. • Die Produkt-Moment-Korrelation kann mit einem t-Test auf Signifikanz überprüft werden. 09_korrelation 66
Zusammenfassung • Voraussetzungen für die Berechnung der Produkt-Moment. Korrelation sind (a) Intervallskalenniveau, (b) Normalverteilung und (c) Homoskedastizität. • Der Determinationskoeffizient gibt den Anteil der gemeinsamen Varianz an. • Mit Hilfe von Fischers Z-Transformation ist es möglich, Mittelwerte von Korrelationen zu berechnen und Unterschiede von Korrelationen auf Signifikanz zu prüfen. • Um schwache Zusammenhänge nachweisen zu können, sind sehr große Stichproben notwendig (G*Power). 09_korrelation 67
Zusammenfassung • Für nicht-intervallskalierte Variablen gibt es eine Reihe alternativer Korrelationskoeffizienten, die unterschiedliche Voraussetzungen haben. • Besonders wichtig sind dabei Spearmans Rangkorrelation und Kendalls τ 09_korrelation 68
- Slides: 68