Methoden der Psychologie Multivariate Analysemethoden Multivariate Distanz Multivariate

  • Slides: 21
Download presentation
Methoden der Psychologie Multivariate Analysemethoden Multivariate Distanz – Multivariate Normalverteilung Minimum Distance Classifier –

Methoden der Psychologie Multivariate Analysemethoden Multivariate Distanz – Multivariate Normalverteilung Minimum Distance Classifier – Bayes Classifier Günter Meinhardt Johannes Gutenberg Universität Mainz

Methoden der Psychologie Klassifikation Multivariate Klassifikation Ziele • Einordnen von Fällen (Versuchspersonen, Beobachtungen) in

Methoden der Psychologie Klassifikation Multivariate Klassifikation Ziele • Einordnen von Fällen (Versuchspersonen, Beobachtungen) in Gruppen aufgrund ihrer Werte in mehreren Meßvariablen. • Maßgeblich für die Zuordnung zu eine Gruppe ist a) die Methoden Wahrscheinlichkeit des Auftretens des Falles in der Zielgruppe (falls ermittelbar) oder b) die Distanz des Falles vom charakteristischen Wert der Gruppe (Prototyp, Zentroid) • Deskriptive Methoden: * Bestimmung von Distanzen und Wahrscheinlichkeiten auf dem Set der beobachteten Meßvariablen • Analytische Methoden: * Bestimmung von Distanzen und Wahrscheinlichkeiten auf transformierten Meßvariablen mit dem Ziel, die Separation von Gruppen zu maximieren (Diskriminanzanalytische Methoden) • Weitere Kriterien sind Kosten von Fehlklassifikationen und die a- priori Wahrscheinlichkeit von Gruppen (Allg. Likelihood-Ratio und Bayes-Klassifikation)

Methoden der Psychologie Kreis Iso-Distanz Konturen in 2 D Klassifikation Iso-Distanz-Konturen in 2 D

Methoden der Psychologie Kreis Iso-Distanz Konturen in 2 D Klassifikation Iso-Distanz-Konturen in 2 D Kreis mit Radius c: Alle Punkte auf dem Kreisbogen haben euklidischen Abstand c zum Kreismittelpunkt c y x • Der Kreis ist die Grundform der Iso-Distanz Kontur im zweidimensionalen Raum (p = 2). • Er entspricht im Variablenraum einer Iso-Distanz-Kontur für 2 unkorrelierte (orthogonale) Variablen mit derselben Skalierung.

Methoden der Psychologie Ellipse: Skalierung Iso-Distanz Konturen in 2 D Klassifikation Ellipse mit Ellipsenradius

Methoden der Psychologie Ellipse: Skalierung Iso-Distanz Konturen in 2 D Klassifikation Ellipse mit Ellipsenradius c: Alle Punkte auf dem Ellipsenbogen haben, auf Standardskala normiert, denselben Abstand c zum Mittelpunkt y x v Standardskala: u

Methoden der Psychologie Ellipse Translation Iso-Distanz Konturen in 2 D Klassifikation Translation zum Punkt

Methoden der Psychologie Ellipse Translation Iso-Distanz Konturen in 2 D Klassifikation Translation zum Punkt (x 0, y 0) ändert an dieser Eigenschaft nichts: v Standardskala: Standard. Transformation u

Methoden der Psychologie Standard. Ellipse Neigung Korrelation r Koordinaten Korrelierte Achsen Iso-Distanz Konturen in

Methoden der Psychologie Standard. Ellipse Neigung Korrelation r Koordinaten Korrelierte Achsen Iso-Distanz Konturen in 2 D Die Invarianz der Distanz im neuen Koordinatensystem mit geneigten Achsen (Korrelation der Variablen) ist über eine Rotation der Koordinaten (anticlock) erklärt: Mit der Transformation v u [Tafel: cos a] Klassifikation erfüllen alle Ellipsenpunkte:

Methoden der Psychologie Standard. Ellipse: Zeichen. Routine Klassifikation Iso-Distanz Konturen in 2 D Ellipsen

Methoden der Psychologie Standard. Ellipse: Zeichen. Routine Klassifikation Iso-Distanz Konturen in 2 D Ellipsen sind in kartesischen Koordinaten unpraktisch zu zeichnen. Man geht über zur Darstellung in Polarkoordinaten. kartesisch polar Es gelten die Transformationen: polar kartesisch polar Zum Zeichnen muß die Ellipsengleichung als Gleichung in Polarkoordinaten (Vektorlänge in Abhängigkeit des Winkels a) umgeschrieben werden

Methoden der Psychologie Standard. Ellipse: Zeichen. Routine Iso-Distanz Konturen in 2 D Von der

Methoden der Psychologie Standard. Ellipse: Zeichen. Routine Iso-Distanz Konturen in 2 D Von der Darstellung in Polarkoordinaten kann einfach in kartesische Koordinaten zurückgerechnet werden (Setzen der Ellipsenpunkte) Setze damit Verfahren 1. Variiere a von –p bis p (= ein Kreisumlauf). 2. Für jeden Winkel a berechne q = tan-1(a). 3. Berechne dann 4. Berechne damit r. 5. Berechne dann x, y: [Excel-Sheet]

Methoden der Psychologie 1 D-Normal Verteilung Klassifikation Multivariate Normalverteilung Die Funktion hat Fläche Die

Methoden der Psychologie 1 D-Normal Verteilung Klassifikation Multivariate Normalverteilung Die Funktion hat Fläche Die auf die Fläche 1 normierte Funktion heißt Normalverteilung (Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Flächen. Anteile für z - Standardvariablen definierbar. (Standard-NV) f(z) 0. 4 68. 26% 0. 3 [Kurzübung] -3 -2 -1 0. 4 0. 2 0. 1 1 2 3 z 95. 5% 0. 3 -3 -2 -1 1 2 3 z

Methoden der Psychologie p-variater Fall Klassifikation Mahalanobisdistanz Man bemerke daß ist. Man habe nun

Methoden der Psychologie p-variater Fall Klassifikation Mahalanobisdistanz Man bemerke daß ist. Man habe nun nicht eine, sondern m Variablen: (jeder Messpunkt ist ein m-dimensionaler Vektor und der Zentroid ist ein m-dimensionaler Vektor) mit Zentroid Dann definiert Mahalanobis. Distanz [Excel-Beispiel 2 D] mit die Inverse der Varianz. Kovarianz Matrix S. die verallgemeinerte quadrierte Distanz im multivariaten Raum. Sie heißt quadrierte Mahalanobis-Distanz.

Methoden der Psychologie p D-Normal Verteilung Klassifikation Multivariate Normalverteilung Die Funktion hat Volumen Die

Methoden der Psychologie p D-Normal Verteilung Klassifikation Multivariate Normalverteilung Die Funktion hat Volumen Die auf Volumen 1 normierte Funktion heißt multivariate Normalverteilung (multivariate Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Anteile des Gesamtvolumens eines m-dimensionalen Ellipsoids definiert. Die in ihrem Argument auftretende Mahalanobis-Distanz erfüllt die Bedingung: mit a einem zu setzenden alpha-Fehler Niveau. Alle Mahalanobisdistanzen D, diese Bedingung erfüllen, erzeugen Konturen gleicher Wahrscheinlichkeit (iso-probability contours) mit P = 1 - a in der multivariaten Normalverteilung.

Methoden der Psychologie 2 D-Normal Verteilung Multivariate Normalverteilung Klassifikation Die multivariate Normalverteilung mit m

Methoden der Psychologie 2 D-Normal Verteilung Multivariate Normalverteilung Klassifikation Die multivariate Normalverteilung mit m = 2 Variablen (bivariate Normalverteilung) hat die Form Die im Argument auftretende Mahalanobis-Distanz definiert eine Ellipse im zweidimensionalen Raum für jede Konstante c: Diese ist eine Iso-Probability-Contour im obigen Sinne (s. multivariate NV, vorherige Folie) [Tafelbetrachtung]

Methoden der Psychologie 2 D-Normal Verteilung Multivariate Normalverteilung Klassifikation Bivariate Normalverteilung mit m =

Methoden der Psychologie 2 D-Normal Verteilung Multivariate Normalverteilung Klassifikation Bivariate Normalverteilung mit m = 2 Variablen und Korrelation r = 0. 6 Density-Plot Contour-Plot x 2 P=0. 95 P=0. 75 P=0. 5 x 2 P=0. 25 x 1 [Excel-Übung] Ellipsen gleicher Wahrscheinlichkeit und zugehöriges Distanzmaß (quadrierte Mahalanobis-Distanz) x 1

Methoden der Psychologie NV-2 DEllipse: Zeichen. Routine Iso-Distanz Konturen in 2 D (NV-Ellipse) Setze

Methoden der Psychologie NV-2 DEllipse: Zeichen. Routine Iso-Distanz Konturen in 2 D (NV-Ellipse) Setze und temporär 3. Berechne dann Und es gilt: Verfahren [Excel-Sheet] a) a läuft von –p bis p (= ein Kreisumlauf) b) c)

Methoden der Psychologie m-dim-Normal Verteilung Multivariate Normalverteilung Klassifikation Die Ellipsen der Form sind zentriert

Methoden der Psychologie m-dim-Normal Verteilung Multivariate Normalverteilung Klassifikation Die Ellipsen der Form sind zentriert in und haben Hauptachsen mit Eigenwertbedingung Eine Eigenwertzerlegung der Varianz-Kovarianz Matrix liefert somit die Hauptachsen des m-variaten Ellipsoids der multivariaten Normalverteilung Beispiel 2 D Länge =

Methoden der Psychologie MDC Minimum Distance Classifier Klassifikation Mit der Mahalanobisdistanz für eine Beobachtung

Methoden der Psychologie MDC Minimum Distance Classifier Klassifikation Mit der Mahalanobisdistanz für eine Beobachtung zum Zentroid der Gruppe cj definiere die Regel: Gruppiere in Gruppe ci, wenn gilt MDC-Regel Die Performance des MDC läßt sich mit großen Stichproben für die k – Gruppen mit einer Konfusions-Matrix bewerten: Häufigkeit zur Einordnung von Fall (Zeile) in Gruppe (Spalte) allocated to group Case is group

Methoden der Psychologie Minimum Distance Classifier Klassifikation Confusionmatrix Hits Erwartete Häufigkeiten bei Zufall (anteilige

Methoden der Psychologie Minimum Distance Classifier Klassifikation Confusionmatrix Hits Erwartete Häufigkeiten bei Zufall (anteilige Gleichverteilung) Korrekte Klassifizierungen sind die Häufigkeiten auf der Diagonalen: Mit den Zeilensummen und N der Summe aller Häufigkeiten gilt (erwartete Zellhäufigkeit) mit pj der A-priori Wahrscheinlichkeit der Gruppe cj pj kann ggf. aus den empirischen Gruppenstärken über pj = hi/N geschätzt werden, wenn keine Information über die A-priori Wahrscheinlichkeiten vorliegt.

Methoden der Psychologie Erwartete Confusionmatrix Klassifikation Minimum Distance Classifier Dann ist die erwartete Hit-Häufigkeit.

Methoden der Psychologie Erwartete Confusionmatrix Klassifikation Minimum Distance Classifier Dann ist die erwartete Hit-Häufigkeit. Mit Hits Erwartete Häufigkeiten bei Zufall (anteilige Gleichverteilung) ist ho normalverteilt über die Approximation der Binomialverteilung wenn gilt. Dann testet der z- Test die Hitrate des MDC gegen den Zufall.

Methoden der Psychologie A-priori Wahrscheinlichkeit der Gruppen Bayesian Classifier Klassifikation Man habe Information über

Methoden der Psychologie A-priori Wahrscheinlichkeit der Gruppen Bayesian Classifier Klassifikation Man habe Information über die A-priori Wahrscheinlichkeiten der Gruppen cj: Dann liefert eine Klassifikation der Beobachtung A-posteriori WK nach ihrer A-posteriori Wahrscheinlichkeit eine korrektere Zuordnung als nur nach der kürzesten Distanz zum Gruppenzentroid. Max-Aposteriori WKn Classifier Normalverteilungsannahme Regel: Gruppiere in Gruppe ci, wenn gilt Um die A-posteriori WKn zu berechnen, muss für die Likelihood. Funktionen die Annahme der multivariaten Normalverteilung gelten.

Methoden der Psychologie Likelihoods A-posteriori WK Klassifikation Bayesian Classifier Mit der multivariaten Normalverteilung haben

Methoden der Psychologie Likelihoods A-posteriori WK Klassifikation Bayesian Classifier Mit der multivariaten Normalverteilung haben die Likelihoods die Form mit der quadrierten Mahalanobisdistanz zum Gruppenzentroid Klassifikations. Raum Der Klassifikationsraum ist durch alle Gruppen vollständig partitioniert. c 2 c 3 Es gilt: c 1 c 4 Normalverteilungsannahme Und wegen der Disjunktheit:

Methoden der Psychologie Likelihoods Bayesian Classifier Klassifikation Da (Def. der bedingten Wahrscheinlichkeit), folgt Satz

Methoden der Psychologie Likelihoods Bayesian Classifier Klassifikation Da (Def. der bedingten Wahrscheinlichkeit), folgt Satz der totalen WK Und damit Satz von Bayes der Satz von Bayes für die A-posteriori WK der Gruppe ci, gegeben die multivariate Beobachtung Normalverteilungsannahme Die approximative Gültigkkeit der multivariaten NV kann durch Q-Q-Plot Methoden überprüft werden.