Tbbvltozs adatelemzs 4 elads Klaszterelemzs Nem irnytott szegmentls
Többváltozós adatelemzés 4. előadás
Klaszterelemzés • • • Nem irányított szegmentálás Nincs ‘eredményváltozó’ A változók egyenrangúak Osztályozó nélküli osztályozás Nem irányított tanulás
Mi a cél? • Nem jól definiált (saját meglátás) • „Clustering is the classification of objects into different groups, or more precisely, the partitioning of a data set into subsets (clusters), so that the data in each subset (ideally) share some common trait - often proximity according to some defined distance measure. ” • Heterogén sokaság homogén részsokaságokra történő felbontása (saját definíció)
Előnyök • Nem szükséges az eloszlást ismerni • Gyakorlatilag bármilyen adatállományon lehet klaszterelemzést végezni
Hátrányok • Erős szubjektivitás • Nincsenek támpontok az ‘illeszkedés’ jóságának méréséhez • Sok választási lehetőség, orientáció nélkül • Tapasztalat
Elvárások a klaszterezéssel szemben • Folytonosság: kis változásokra az adatokban kis változások történjenek a klaszterekben) • Nincs jól definiálva, hogy mit jelent a kis változás
Elvárások a klaszterezéssel szemben -2 • Stabilitás: egy-egy adat jelentősége csekély (egy új pont elvétele vagy hozzáadása elenyésző hatású) • Időbeli (keresztmetszeti) stabilitás: különböző időpontokban (helyeken) elvégzett klaszterezés azonos eredményt adjon
Elvárások a klaszterezéssel szemben -3 • Invariancia: a klaszterelemzés invariáns legyen a változók monoton transzformációjára • Skálafüggetlenség (pl. : sztenderdizálás) • Adatok sorrendjétől való függetlenség
Elvárások a klaszterezéssel szemben -4 • Validitás: • Külső validitás: ismert csoportokba tartozó egyedekből veszünk mintát • Belső validitás: eredeti és származtatott távolságok • Megismételhetőség • Különböző eljárások összevetése
Elvárások a klaszterezéssel szemben -5 • Robosztusság: kilógó pontok hatásának csökkentése
Klaszterelmzés két fő iránya • Nemhierarchikus klaszterelmzés – K-középpontú algoritmus (K-means cluster) – Partícionáló klaszterelemzés • Hierarchikus klaszterelmzés • Természetesen ezen két fő irányon kívül léteznek még más eljárások is. – Egyik legismertebb az ún. Kohonen-map ami neurális hálón alapszik
K középpontú algoritmus • Algoritmus leírása • Klaszterközepek kijelölése • Adatpontok hozzárendelése a középpontokohoz • Klaszterközepek újraszámolás • Ha a klaszterközepek változtak, akkor újabb iteráció
Kezdőpontok hatása • A kleszterelmzést megismételjük úgy, hogy induláskor másik kezdőpontot választunk
Kezdőpontok választása • Az előbbi példán is láttuk, milyen nagy a kezdőpontok választásának jelentősége • Az SPSS programcsomag egy viszonylag bonyolult algoritmussal választ kezdőpontot, amivel eléri, hogy az esetek nagy részében nem függ az adatok sorrendjétől a választás, de bizonyos esetekben más eredményt kapunk az adatok sorrendjétől függően
K középpontú algoritmus • Az algoritmus meglehetősen gyors • Lokális optimum problémája • Az eljárás függhet a kezdőpontok megválasztásától • Kis elemszámú klaszterek • Klaszterek számára nincs iránymutatás (hüvelykujj szabály: könyökpont keresése) • Változók jelentősége (ANOVA tábla)
Változók mértékegysége • A nagyobb szórású változók nagyobb hatással vannak a klaszterezésre • Ha a változók mértékegysége különbözik, akkor a változókat sztenderdizáljuk • A sztenderdizálás hatására az eredmény érzéketlen a lineáris transzformációra
K középpontú klaszterelemzés
Extrém értékek nélkül
ANOVA
Hány klaszter legyen?
Könyökpont keresése • Egy heurisztikus megközelítés: • Tekintsük a klasztereket csoportképző változónak. • Számoljuk minden klaszterszám esetén a külső szórásnégyzet és a teljes szórásnégyzet arányát. • Válasszuk azt a klaszterszámot, ahol törés mutatkozik a görbében
Könyökpont keresése
Százalékos megoszlás • Ha az abszolút értékek alapján végezzük el a klaszterelemzést (még ha sztenderdizálva vannak is a változók) olyan klaszterek keletkeznek, hogy vannak nagy költségvetésű intézmények és vannak kicsik • Százalékos megoszlás esetén nem alkalmazok sztenderdizálást
Százalékos megoszlás
Százalékos megoszlás -szűrés után-
Százalékos megoszlás -szűrés után-
- Slides: 41