Die Clusteranalyse Zielsetzung Datenreduktion Zusammenfassung einer Vielzahl von

  • Slides: 8
Download presentation
Die Clusteranalyse • Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen

Die Clusteranalyse • Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt Ø O- und V-Analyse, wobei die O-Analyse die verbreitetere Anwendung ist • Grundlegende Idee Bildung von Gruppen, die in sich möglichst homogen sind, während die Unähnlichkeit zwischen den Gruppen möglichst groß sein soll Dipl. -Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

Grundsätzliches Vorgehen bei der Clusteranalyse 1) Berechnung von Ähnlichkeits-, Distanzmaßen für alle möglichen Fallpaare

Grundsätzliches Vorgehen bei der Clusteranalyse 1) Berechnung von Ähnlichkeits-, Distanzmaßen für alle möglichen Fallpaare 2) Ähnlichstes Paar wird zum ersten Cluster zusammengefasst 3) Erneute Berechnung der Ähnlichkeitsmaße für alle nun noch n-1 Elemente 4) Erneute Zusammenfassung des ähnlichsten Paars 1. entweder durch Bildung eines neuen Clusters 2. oder schon bestehenden Clustern wird ein weiteres Element zugeschlagen Ø maximal n-1 mal wiederholt Ø Abbruch der Clusterbildung, wenn gewünschte Clusterzahl erreicht Dipl. -Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

Gängige Distanz- und Ähnlichkeitsmaße 1) Euklidische Distanz – „Luftlinie“ 2) Quadrierte Euklidische Distanz 3)

Gängige Distanz- und Ähnlichkeitsmaße 1) Euklidische Distanz – „Luftlinie“ 2) Quadrierte Euklidische Distanz 3) Manhattan-Distanz – „US-Taxifahrer“ 4) Minkowski-Distanz 5) Tschebyscheff 6) Cosinus, Pearson Korrelation -> Ähnlichkeitsmaße 7) weitere Maße für andere Skalenniveaus Ø Maße haben jeweils Eigenarten, die das Ergebnis beeinflussen Dipl. -Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

Zu beachten bei der Clusteranalyse Grundvoraussetzung: Anwendung der Distanzmaße erfordert unkorrelierte Variablen Ø Mögliche

Zu beachten bei der Clusteranalyse Grundvoraussetzung: Anwendung der Distanzmaße erfordert unkorrelierte Variablen Ø Mögliche Lösung: Generierung orthogonalisierter Variablen mittels Faktorenanalyse Bei stark unterschiedlichen Wertebereichen: Variablen mit großen Wertebereichen dominieren das Ergebnis Ø Lösung: Standardisierung der Variablen zur Vermeidung von Skaleneffekten Dipl. -Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

Bestimmung der Distanz von Clustern 1) Nächstgelegener Nachbar 2) Entferntester Nachbar 3) Linkage zwischen

Bestimmung der Distanz von Clustern 1) Nächstgelegener Nachbar 2) Entferntester Nachbar 3) Linkage zwischen den Gruppen 4) Linkage innerhalb der Gruppen 5) Zentroid-, Median-Clustering 6) Ward Ø Methoden haben ebenfalls jeweils Eigenarten, die das Ergebnis beeinflussen Dipl. -Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

Darstellung der Ergebnisse erfolgt mittels • Zuordnungsübersicht • Dendrogramm • Eiszapfendiagramm Dipl. -Vw. Lutz

Darstellung der Ergebnisse erfolgt mittels • Zuordnungsübersicht • Dendrogramm • Eiszapfendiagramm Dipl. -Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

Zu beantwortende Fragen und Probleme der Clusteranalyse • Angemessene Anzahl der Cluster: Anhaltspunkt Distanzmaß

Zu beantwortende Fragen und Probleme der Clusteranalyse • Angemessene Anzahl der Cluster: Anhaltspunkt Distanzmaß • Stark unterschiedliche Clustergrößen, nur einfach besetzte Cluster • Ausreißer Ø sinnvoll: iteratives Verfahren, Testen verschiedener Varianten und Auswahl der überzeugendsten, interpretierbaren Lösung • „hierarchischer“ Ansatz der Clusteranalyse Ø Durchführung einer Diskriminanzanalyse • Rechenbarkeit Dipl. -Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

Anwendung der Clusteranalyse • klassisches Verfahren der Datenreduktion • Zusammenfassung von Objekten Empirische Regionalforschung:

Anwendung der Clusteranalyse • klassisches Verfahren der Datenreduktion • Zusammenfassung von Objekten Empirische Regionalforschung: Objekte sind i. d. R. Regionen Ø Identifizierung „ähnlicher“ Regionen Ø Instrument der Regionsabgrenzung und -typisierung • Zusammenfassung von Variablen Ø Identifizierung „ähnlicher“ Variablen, die sich gegenseitig beeinflussen oder auf gemeinsame Hintergrundfaktoren zurückzuführen sind; Ø Zielsetzung ähnlich der Faktorenanalyse, Haupteinsatzgebiet dann Konstruktion von Indikatoren Dipl. -Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie