Statistick analza klastrov analza Shlukov analza 4 Shlukov

  • Slides: 45
Download presentation
Statistická analýza - klastrová analýza

Statistická analýza - klastrová analýza

Shluková analýza 4 Shluková analýza - cluster analysis – úvod - definice – princip

Shluková analýza 4 Shluková analýza - cluster analysis – úvod - definice – princip – algoritmy – výsledky

Shluková analýza 4 Úvod 4 DEFINICE -zavedení pojmu è Cluster analysis classifies a set

Shluková analýza 4 Úvod 4 DEFINICE -zavedení pojmu è Cluster analysis classifies a set of two observations into mutually exclusive unknown groups based on combinations of interval variables. 4 Multivariate Statistics: Concepts, Models, and Applications David W. Stockburger, 1996

Shluková analýza 4 DEFINICE - zavedení pojmu èCluster analysis is a technique for grouping

Shluková analýza 4 DEFINICE - zavedení pojmu èCluster analysis is a technique for grouping data and finding structures in data. The most common application of clustering methods is to partition a data set into clusters or classes, where similar data are assigned to the same cluster whereas dissimilar data should belong to different clusters.

Shluková analýza 4 DEFINICE - zavedení pojmu èThe term cluster analysis (first used by

Shluková analýza 4 DEFINICE - zavedení pojmu èThe term cluster analysis (first used by Tryon, 1939) actually encompasses a number of different classification algorithms. A general question facing researchers in many areas of inquiry is how to organize observed data into meaningful structures, that is, to develop taxonomies.

DEFINICE - zavedení pojmu è Cluster Analysis is a multivariate analysis technique that seeks

DEFINICE - zavedení pojmu è Cluster Analysis is a multivariate analysis technique that seeks to organize information about variables so that relatively homogenenous groups, or "clusters, " can be formed. The clusters formed with this family of methods should be highly internally homogenous (members are similar to one another) and highly externally heterogenous

Shluková analýza 4 Princip - postup è shromáždění dat è výběr proměnných è volba

Shluková analýza 4 Princip - postup è shromáždění dat è výběr proměnných è volba metody pro vytvoření distanční matice (matice podobnosti) /distance matrix, similarity matrix, proximities matrix/

Shluková analýza 4 Princip - postup è volba metody pro tvorbu dendrogramu /“dendrogram“/, hierarchické

Shluková analýza 4 Princip - postup è volba metody pro tvorbu dendrogramu /“dendrogram“/, hierarchické struktury /“hierarchical structure“/, stromového diagramu /“tree diagram“/

Shluková analýza 4 Princip - postup è volba výstupu / grafický dendrogram / textová

Shluková analýza 4 Princip - postup è volba výstupu / grafický dendrogram / textová diagnostika tříd / histogram vzdáleností dat (statistická distribuce vzdáleností)

Shluková analýza 4 shromáždění dat è data vhodná k třídění dle podobnosti / kompatibilita

Shluková analýza 4 shromáždění dat è data vhodná k třídění dle podobnosti / kompatibilita dat - rozsah nezávisle proměnné - hodnoty nezávisle proměnné - typ závisle proměnné (proměnných)

Shluková analýza 4 výběr rozsahu nezávisle proměnné - výběr jednoho intervalu - výběr více

Shluková analýza 4 výběr rozsahu nezávisle proměnné - výběr jednoho intervalu - výběr více oddělených intervalů nezávisle proměnné - výběr diskrétních hodnot nezávisle proměnné 4 výběr závisle proměnné (proměnných) užitých pro klasifikaci dat

Shluková analýza 4 Výpočet distanční matice è volba metody výpočtu / standardní - Eukleidovské

Shluková analýza 4 Výpočet distanční matice è volba metody výpočtu / standardní - Eukleidovské vzdálenosti (příp. jejich kvadráty) / Chebychev / City-block (Manhattan)

Shluková analýza 4 Výpočet distanční matice è volba metody výpočtu / Pearsonova korelace /

Shluková analýza 4 Výpočet distanční matice è volba metody výpočtu / Pearsonova korelace / škálovací s Pearsonovou korelací (pro více dílčích rozsahů nezávisle proměnné) / s faktorem hladiny opakovatelnosti měření

Shluková analýza 4 Výpočet distanční matice è volba metody výpočtu / Minkowski - více

Shluková analýza 4 Výpočet distanční matice è volba metody výpočtu / Minkowski - více subvariant / mocninný algoritmus („power distance“) / procenta nesouhlasu (nesouladu) („percent disagreement“)

Distanční matice 4 Eukleidovské vzdálenosti è geometrické vzdálenosti v multidimenzionálním prostoru / distance(a, b)

Distanční matice 4 Eukleidovské vzdálenosti è geometrické vzdálenosti v multidimenzionálním prostoru / distance(a, b) = { (ai - bi)2 }½ / používá se pro experimentální (neupravovaná) data / vzdálenosti mezi dvojicemi objektů nejsou ovlivněny dalšími objekty (přidáním objektů)

Distanční matice 4 kvadráty Eukleidovských vzdáleností è kvadáty geometrických vzdáleností v multidimenzionálním prostoru /

Distanční matice 4 kvadráty Eukleidovských vzdáleností è kvadáty geometrických vzdáleností v multidimenzionálním prostoru / distance(a, b) = { (ai - bi)2 } / používá se pro experimentální (neupravovaná) data / progresivně se zvyšuje vliv (význam) velkých Eukleidovských vzdáleností

Distanční matice 4 City-block (Manhattan) è sumace absolutních hodnot rozdílů v multidimenzionálním prostoru /

Distanční matice 4 City-block (Manhattan) è sumace absolutních hodnot rozdílů v multidimenzionálním prostoru / distance(a, b) = { |ai - bi | } / obvykle obdobné výsledky jako pro Eukleidovské vzdálenosti / menší vliv JEDNOTLIVÝCH odlehlých bodů

Distanční matice 4 Chebychev è maximalizace vlivu rozdílu v jednom bodě / distance(a, b)

Distanční matice 4 Chebychev è maximalizace vlivu rozdílu v jednom bodě / distance(a, b) = Maximum |ai - bi | / dva objekty odlišné, liší-li se v jednom bodě (dimenzi) - zásadní vliv odlehlých bodů testování odlehlých bodů

Distanční matice 4 Mocninný algoritmus è zobecněné Eukleidovské vzdálenosti / distance(a, b) = {

Distanční matice 4 Mocninný algoritmus è zobecněné Eukleidovské vzdálenosti / distance(a, b) = { |ai - bi |p}1/r / p, r - volitelné koeficienty pro p = r = 2 jde o Eukleidovské vzdálenosti p - progresivita vlivu jednotlivých velkých vzdáleností bodů

Distanční matice 4 procenta nesouhlasu è počty odlišných bodů / distance(a, b) = {Počet

Distanční matice 4 procenta nesouhlasu è počty odlišných bodů / distance(a, b) = {Počet ai bi } / i / vhodné pro porovnávání souborů diskrétních bodů

Distanční matice 4 Pearsonova korelace è využití Pearsonova korelačního koeficientu r r = (ai

Distanční matice 4 Pearsonova korelace è využití Pearsonova korelačního koeficientu r r = (ai * bi) / distance(a, b) = (1 - r) * 1000 / provádí se pro vektorově normalizovaná data, rozsah vzdáleností pak je od 0 (identická data) do 2000 (maximálně odlišná)

Distanční matice 4 škálovací s Pearsonovou korelací è normalizace škály distancí pro sadu jednotlivých

Distanční matice 4 škálovací s Pearsonovou korelací è normalizace škály distancí pro sadu jednotlivých intervalů nezávisle proměnných / docílí se stejného rozsahu vzdáleností (od minimální po maximální) pro všechny sledované oblasti

Příprava dendrogramu 4 metody přípravy dendrogramu è jednoduché propojení (single linkage, nearest neighbor) vliv

Příprava dendrogramu 4 metody přípravy dendrogramu è jednoduché propojení (single linkage, nearest neighbor) vliv nejbližších subobjektů ve dvou sousedních objektech D (r, i) = min [ D(p, i) , D (q, i)] kde r je nový objekt vzniklý z objektů p a q (objektem se rozumí buď “vstupní objekt”,

Příprava dendrogramu 4 metody přípravy dendrogramu è kompletní propojení (complete linkage, furthest neighbor) vliv

Příprava dendrogramu 4 metody přípravy dendrogramu è kompletní propojení (complete linkage, furthest neighbor) vliv nejvzdálenějších subobjektů ve dvou sousedních objektech D (r, i) = max [ D(p, i) , D (q, i)] kde r je nový objekt vzniklý z objektů p a q

Příprava dendrogramu 4 metody přípravy dendrogramu è průměrové propojení (unweighted pair-group average linkage UPGMA

Příprava dendrogramu 4 metody přípravy dendrogramu è průměrové propojení (unweighted pair-group average linkage UPGMA - unweighted pair-group method using arithmetic averages, Sneath and Sokal 1973) vzdálenost mezi dvěma objekty je aritmetickým průměrem vzdáleností

Příprava dendrogramu 4 metody přípravy dendrogramu è vážené průměrové propojení (weighted pair-group average linkage

Příprava dendrogramu 4 metody přípravy dendrogramu è vážené průměrové propojení (weighted pair-group average linkage WPGMA - weighted pair-group method using arithmetic averages, Sneath and Sokal 1973) vážen počet subobjektů obou objektů D(r, i) = [ n(p) * D(p, i) + n(q) * D(q, i) ] / [ n(p) + n(q)]

Příprava dendrogramu 4 metody přípravy dendrogramu è nevážené centroidové (těžišťové) propojení (unweighted pair-group centroid

Příprava dendrogramu 4 metody přípravy dendrogramu è nevážené centroidové (těžišťové) propojení (unweighted pair-group centroid UPGMC - unweighted pair-group method using the centroid averages, Sneath and Sokal 1973) porovnávána vzdálenost (poloha) těžišť

Příprava dendrogramu 4 metody přípravy dendrogramu è vážené centroidové (těžišťové) propojení - „median“ (weighted

Příprava dendrogramu 4 metody přípravy dendrogramu è vážené centroidové (těžišťové) propojení - „median“ (weighted pair-group centroid WPGMC weighted pair-group method using the centroid averages, Sneath and Sokal 1973) porovnávána vzdálenost (poloha) těžišť objektů v multidimenzionálním prostoru

Příprava dendrogramu 4 metody přípravy dendrogramu è Wardova metoda (Ward’s method, Ward 1963) místo

Příprava dendrogramu 4 metody přípravy dendrogramu è Wardova metoda (Ward’s method, Ward 1963) místo vzdáleností HETEROGENITA hledá homogenní skupiny analýza - minimalizace sumy čtverců odchylek pro všechny možné (i hypotetické) dvojice subobjektů v každém kroku

Grafický dendrogram

Grafický dendrogram

Grafický dendrogram

Grafický dendrogram

Grafický dendrogram 4 problém znázornění è možnost převrácení větví ve stromu („volná otáčivost“ v

Grafický dendrogram 4 problém znázornění è možnost převrácení větví ve stromu („volná otáčivost“ v bodech větvení) 2 n-2 možností zobrazení dendrogramu pro n vstupních objektů vylepšení - seřazovací algoritmy („seriation“) (přeuspořádání distanční matice - snaha

Znázornění matice vzdáleností

Znázornění matice vzdáleností

Znázornění matice vzdáleností optimalizované

Znázornění matice vzdáleností optimalizované

Textový klasifikační výstup

Textový klasifikační výstup

Kombinované znázornění

Kombinované znázornění

FUZZY klastrová analýza 4 FUZZY Shluková analýza - fuzzy clustering – bez ostrých hranic

FUZZY klastrová analýza 4 FUZZY Shluková analýza - fuzzy clustering – bez ostrých hranic shluků – částečné členství objektu ve shluku charakterizace číslem 0 ; 1

2 D - shlukování 4 DVOJITÉ SPOJOVÁNÍ - two way joining – klastrování sady

2 D - shlukování 4 DVOJITÉ SPOJOVÁNÍ - two way joining – klastrování sady dat s dvěma nezávisle proměnnými

„K-means“ shlukování 4 PŘEDEM HYPOTÉZA O POČTU KLASTRŮ - zvolený počet klastrů - K

„K-means“ shlukování 4 PŘEDEM HYPOTÉZA O POČTU KLASTRŮ - zvolený počet klastrů - K è algoritmus - vygenerováno K náhodných klastrů - výměna prvků mezi klastry s cílem minimalizovat vnitřní variabilitu klastrů a maximalizovat variabilitu mezi klastry

„K-means“ shlukování 4 dvou stupňová „K-means“ strategie è algoritmus - tvorba K klastrů a

„K-means“ shlukování 4 dvou stupňová „K-means“ strategie è algoritmus - tvorba K klastrů a eliminace odlehlých dat - opětovné testování odlehlých dat a kalibrace modelu

Validace řešení 4 vyhodnocení počtu tříd - opakování analýzy na subsetech dat ä stabilita

Validace řešení 4 vyhodnocení počtu tříd - opakování analýzy na subsetech dat ä stabilita distancí ä opakovatelnost struktury dendrogramů pro různé metody tvorby hierarchické struktury

Exemplární příklady 4 vyhledávání typických představitelů každé třídy - maximální podobnost průměru (těžišti) třídy

Exemplární příklady 4 vyhledávání typických představitelů každé třídy - maximální podobnost průměru (těžišti) třídy - korelační algoritmy atp. è redukce dendrogramu na strukturu exemplárních příkladů pro rozsáhlé sady dat

Aplikační příklad

Aplikační příklad

Aplikační příklad

Aplikační příklad

Aplikační příklad

Aplikační příklad