Die Clusteranalyse Zielsetzung Datenreduktion Zusammenfassung einer Vielzahl von
- Slides: 8
Die Clusteranalyse • Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt Ø O- und V-Analyse, wobei die O-Analyse die verbreitetere Anwendung ist • Grundlegende Idee Bildung von Gruppen, die in sich möglichst homogen sind, während die Unähnlichkeit zwischen den Gruppen möglichst groß sein soll Dipl. -Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie
Grundsätzliches Vorgehen bei der Clusteranalyse 1) Berechnung von Ähnlichkeits-, Distanzmaßen für alle möglichen Fallpaare 2) Ähnlichstes Paar wird zum ersten Cluster zusammengefasst 3) Erneute Berechnung der Ähnlichkeitsmaße für alle nun noch n-1 Elemente 4) Erneute Zusammenfassung des ähnlichsten Paars 1. entweder durch Bildung eines neuen Clusters 2. oder schon bestehenden Clustern wird ein weiteres Element zugeschlagen Ø maximal n-1 mal wiederholt Ø Abbruch der Clusterbildung, wenn gewünschte Clusterzahl erreicht Dipl. -Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie
Gängige Distanz- und Ähnlichkeitsmaße 1) Euklidische Distanz – „Luftlinie“ 2) Quadrierte Euklidische Distanz 3) Manhattan-Distanz – „US-Taxifahrer“ 4) Minkowski-Distanz 5) Tschebyscheff 6) Cosinus, Pearson Korrelation -> Ähnlichkeitsmaße 7) weitere Maße für andere Skalenniveaus Ø Maße haben jeweils Eigenarten, die das Ergebnis beeinflussen Dipl. -Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie
Zu beachten bei der Clusteranalyse Grundvoraussetzung: Anwendung der Distanzmaße erfordert unkorrelierte Variablen Ø Mögliche Lösung: Generierung orthogonalisierter Variablen mittels Faktorenanalyse Bei stark unterschiedlichen Wertebereichen: Variablen mit großen Wertebereichen dominieren das Ergebnis Ø Lösung: Standardisierung der Variablen zur Vermeidung von Skaleneffekten Dipl. -Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie
Bestimmung der Distanz von Clustern 1) Nächstgelegener Nachbar 2) Entferntester Nachbar 3) Linkage zwischen den Gruppen 4) Linkage innerhalb der Gruppen 5) Zentroid-, Median-Clustering 6) Ward Ø Methoden haben ebenfalls jeweils Eigenarten, die das Ergebnis beeinflussen Dipl. -Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie
Darstellung der Ergebnisse erfolgt mittels • Zuordnungsübersicht • Dendrogramm • Eiszapfendiagramm Dipl. -Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie
Zu beantwortende Fragen und Probleme der Clusteranalyse • Angemessene Anzahl der Cluster: Anhaltspunkt Distanzmaß • Stark unterschiedliche Clustergrößen, nur einfach besetzte Cluster • Ausreißer Ø sinnvoll: iteratives Verfahren, Testen verschiedener Varianten und Auswahl der überzeugendsten, interpretierbaren Lösung • „hierarchischer“ Ansatz der Clusteranalyse Ø Durchführung einer Diskriminanzanalyse • Rechenbarkeit Dipl. -Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie
Anwendung der Clusteranalyse • klassisches Verfahren der Datenreduktion • Zusammenfassung von Objekten Empirische Regionalforschung: Objekte sind i. d. R. Regionen Ø Identifizierung „ähnlicher“ Regionen Ø Instrument der Regionsabgrenzung und -typisierung • Zusammenfassung von Variablen Ø Identifizierung „ähnlicher“ Variablen, die sich gegenseitig beeinflussen oder auf gemeinsame Hintergrundfaktoren zurückzuführen sind; Ø Zielsetzung ähnlich der Faktorenanalyse, Haupteinsatzgebiet dann Konstruktion von Indikatoren Dipl. -Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie