vod do shlukov analzy Shlukov analza I Vcerozmrn

  • Slides: 46
Download presentation
Úvod do shlukové analýzy

Úvod do shlukové analýzy

Shluková analýza I. Vícerozměrná statistická metoda Především pro deskriptivní úlohy dataminingu Vyhledává a utváří

Shluková analýza I. Vícerozměrná statistická metoda Především pro deskriptivní úlohy dataminingu Vyhledává a utváří shluky ve vstupních datech Obecně je cílem maximální podobnost objektů uvnitř shluků a minimální podobnost objektů mezi shluky Pokud cílové shluky nejsou dané – nemáme učitele Pokud klastry – shluky jsou vztahové – jsou určeny vztahem k cílové proměnné – máme učitele V závěru je třeba najít interpretaci shluků SHLUKOVÁ ANALÝZA

Shluková analýza II. Nejedná se o jeden algoritmus Rozdílnost spočívá už v tom, jaké

Shluková analýza II. Nejedná se o jeden algoritmus Rozdílnost spočívá už v tom, jaké shluky tvoří Zásadní je volba vhodného algoritmu pro daná data a požadovaný výsledek Iterativní proces zahrnující postup Pokus - Omyl SHLUKOVÁ ANALÝZA

Využití SA v DM • Marketing - Dělení zákazníků do tržních segmentů - segmentace

Využití SA v DM • Marketing - Dělení zákazníků do tržních segmentů - segmentace • Eshopy - „Ostatní si k tomuto produktu koupili rovněž“ – alternativně asociační pravidla Shluková analýza je nástrojem pro segmentaci. • Sociální sítě – rozpoznávání Segmentace historicky je marketingová úloha, není typicky DM komunit úloha, ale výsledky mohou být vstupem pro predikci chování v dalších„horkých úlohách • Analýza kriminality – hledání míst“ SHLUKOVÁ ANALÝZA

Další využití SA v DM V přípravě dat Identifikace chybných hodnot Vzdálené málo četné

Další využití SA v DM V přípravě dat Identifikace chybných hodnot Vzdálené málo četné klastry Redukce počtu proměnných ve fázi přípravy dat První krok modelování - závěry z obvykle nesupervizovaného modelu jsou vstupem pro následné supervizované modelování Např. metoda nejbližších K sousedů Identifikace podezřelých případů Fraud, AML

Předzpracování dat SHLUKOVÁ ANALÝZA

Předzpracování dat SHLUKOVÁ ANALÝZA

Předzpracování dat „Společné“ metody předzpracování dat Standardizace hodnot atributů Normalizace hodnot atributů Proprietární předzpracování

Předzpracování dat „Společné“ metody předzpracování dat Standardizace hodnot atributů Normalizace hodnot atributů Proprietární předzpracování dat (vzhledem k algoritmům) Řešení null hodnot Řešení odlehlých prvků (outlinerů) Transformace z jednoho typu atributu na druhý … SHLUKOVÁ ANALÝZA

Vstupní data v surové podobě Výše příjmu (Kč) Typ nového vozidla Cena nového vozidla

Vstupní data v surové podobě Výše příjmu (Kč) Typ nového vozidla Cena nového vozidla (Kč) Věk Počet dětí Pohlaví Svobodný 18 0 Muž Ano 17000 sportovní 80000 40 2 Muž Ne 38000 rodinné 550000 28 1 Žena Ne 25000 rodinné 370000 35 2 Muž Ne 42000 SUV 650000 22 0 Muž Ano 30000 sportovní 500000 SHLUKOVÁ ANALÝZA

Podíváme-li se opět na Vstupní data v surové podobě a budeme-li si všímat údajů

Podíváme-li se opět na Vstupní data v surové podobě a budeme-li si všímat údajů výše příjmu a cena nového vozidla, pak pozorujeme rozdíl jednoho řádu napříč všemi hodnotami. Vezmeme-li v potaz, že pokud bychom mezi sledované atributy přidali ještě jeden, jehož rozptyl by byl v řádu desetin jednotek, pak bychom se ještě výrazněji setkali se situací, kdy by atribut s většími hodnotami lehce dominoval nad ostatními atributy, čímž by výrazně zkreslil vyhodnocování podobnosti. Proto je potřeba hodnoty všech atributů, které budeme brát v úvahu transformovat „na stejný rozsah“

Příklady standardizace atributů Transformuje hodnoty na kladné i záporné například na: Z-skóre Rozpětí –

Příklady standardizace atributů Transformuje hodnoty na kladné i záporné například na: Z-skóre Rozpětí – 1; 1 Rozpětí 0; 1 Logistická funkce Arc. Tg …… a jiné speciální transformace SHLUKOVÁ ANALÝZA

Normalizace atributů – speciální standardizace ● Transformuje hodnoty do intervalu <0, 1> ● Nevýhoda:

Normalizace atributů – speciální standardizace ● Transformuje hodnoty do intervalu <0, 1> ● Nevýhoda: Postihnut outlinery SHLUKOVÁ ANALÝZA

Normalizovaná data Cena nového vozidla Počet dětí 0, 00 Muž Ano 0 sportovní 0

Normalizovaná data Cena nového vozidla Počet dětí 0, 00 Muž Ano 0 sportovní 0 1, 00 Muž Ne 0, 84 rodinné 0, 84 0, 45 0, 50 Žena Ne 0, 32 rodinné 0, 56 0, 77 1, 00 Muž Ne 1 SUV 1 0, 18 0, 00 Muž Ano 0, 52 sportovní 0, 77 SHLUKOVÁ ANALÝZA Pohlaví Svobodný Výše příjmu Typ nového vozidla Věk

Normální rozdělení hodnot (atributu) Tímto rozdělením pravděpodobnosti se sice neřídí velké množství veličin, ale

Normální rozdělení hodnot (atributu) Tímto rozdělením pravděpodobnosti se sice neřídí velké množství veličin, ale jeho význam spočívá v tom, že za určitých podmínek dobře aproximuje řadu jiných pravděpodobnostních rozdělení (spojitých i diskrétních). Pravidlo třech sigma (68. 3%, 95. 5%, 99. 7%) SHLUKOVÁ ANALÝZA

Standardizovaná data jinak Cena nového vozidla Počet dětí 1, 41 1, 12 Muž Ano

Standardizovaná data jinak Cena nového vozidla Počet dětí 1, 41 1, 12 Muž Ano -1, 50 sportovní -1, 83 -0, 07 0, 00 Muž Ne 0, 85 rodinné 0, 6 0, 79 1, 12 Žena Ne -0, 60 rodinné -0, 2 -0, 82 -1, 12 Muž Ne 1, 29 SUV 1, 05 -3, 54 -1, 12 Muž Ano -0, 04 sportovní 0, 38 SHLUKOVÁ ANALÝZA Pohlaví Svobodný Výše příjmu Typ nového vozidla Věk

Jak určit podobnost objektů aneb Hodíme se k sobě, miláčku? SHLUKOVÁ ANALÝZA

Jak určit podobnost objektů aneb Hodíme se k sobě, miláčku? SHLUKOVÁ ANALÝZA

Hodnocení podobnosti objektů Metriky Koeficienty (ne)podobnosti objektů Pravděpodobnostní přístup SHLUKOVÁ ANALÝZA

Hodnocení podobnosti objektů Metriky Koeficienty (ne)podobnosti objektů Pravděpodobnostní přístup SHLUKOVÁ ANALÝZA

METRIKA – tak ji známe VZDÁLENOST Metrika d na X je funkce d: X

METRIKA – tak ji známe VZDÁLENOST Metrika d na X je funkce d: X × X R, kde R je množina reálných čísel, taková, že: 0 d(x, y) x, y X d(x, x) = 0, x X a d(x, y) = d(y, x), x, y X. (symetrie) d(x, z) d(x, y) + d(y, z), x, y, z X. (Δ nerovnost) Prostor X, ve kterém metrika d definována, nazýváme metrickým prostorem. Vzdálenost je hodnota určená podle metriky.

EUKLIDOVA METRIKA v n-rozměrném prostoru n d. E (x 1, x 2 ) (

EUKLIDOVA METRIKA v n-rozměrném prostoru n d. E (x 1, x 2 ) ( (x 1 i x 2 i )2 ) 1/ 2 i 1 geometrickým místem bodů s toutéž Euklidovou vzdáleností od daného bodu je hyperkoule (kruh ve dvourozměrném prostoru); dává větší důraz na větší rozdíly mezi souřadnicemi (žádoucí nebo nežádoucí – volba i podle toho, jak chceme zdůrazňovat rozdíly mezi jednotlivými souřadnicemi) Euklidova metrika má patrně nejnázornější geometrickou interpretaci v E 2 X 1 a X 2 jsou body v E 2 resp. dva vektory o dvou souřadnicích tedy n=2 © Institut biostatistiky a analýz

HAMMINGOVA METRIKA (metrika Manhattan) n d. H (x 1, x 2 ) Abs(x 1

HAMMINGOVA METRIKA (metrika Manhattan) n d. H (x 1, x 2 ) Abs(x 1 i x 2 i ) i 1 ČEBYŠEVOVA METRIKA - supremální dČ(x 1 , x 2) max Abs(x 1 i x 2 i) používá se ve výpočetně kriticky náročných případech, kdy je pracnost výpočtu dle euklidovsky orientovaných metrik nepřijatelná;

Co když nemáme data číselná? 1. kategoriální (nominální, či ordinální) 2. speciálně data dichotomická,

Co když nemáme data číselná? 1. kategoriální (nominální, či ordinální) 2. speciálně data dichotomická, všechny atributy s hodnotou 0 nebo 1

Koeficienty asociace objektů ● ● ● ● Rozdílné od statistického pojetí koeficientů asociace Pro

Koeficienty asociace objektů ● ● ● ● Rozdílné od statistického pojetí koeficientů asociace Pro objekty reprezentované výhradně dichotomickými atributy Využívá se asociační tabulky, se kterými koeficienty pracují Počet atributů, kde oba mají 1 -> a Počet atributů, kde oba mají 0 -> d Počet atributů, kde první má 0 a druhý 1 -> b Počet atributů, kde první má 1 a druhý 0 -> c SHLUKOVÁ ANALÝZA

Některé příklady koeficientů ● Jaccardův S J= ● Sokalův a Michenerův koeficient S SM

Některé příklady koeficientů ● Jaccardův S J= ● Sokalův a Michenerův koeficient S SM = ● Diceův S D= SHLUKOVÁ ANALÝZA a a+ b+c a+d a +b+ c+d 2 a 2 a +b+c

Co s atributy, které jsou nominální Cena nového vozidla Počet dětí 0, 00 Muž

Co s atributy, které jsou nominální Cena nového vozidla Počet dětí 0, 00 Muž Ano 0 sportovní 0 1, 00 Muž Ne 0, 84 rodinné 0, 84 0, 45 0, 50 Žena Ne 0, 32 rodinné 0, 56 0, 77 1, 00 Muž Ne 1 SUV 1 0, 18 0, 00 Muž Ano 0, 52 sportovní 0, 77 Pohlaví Svobodný Výše příjmu Typ nového vozidla Věk Připomínám indikátorové proměnné

Dělení metod shlukové analýzy ● Hierarchi ckéAglomerativní ● ● ● Divizivní Nehierarch ické Optimalizační

Dělení metod shlukové analýzy ● Hierarchi ckéAglomerativní ● ● ● Divizivní Nehierarch ické Optimalizační ● ● SHLUKOVÁ ANALÝZA Analýzy modů

Hierarchické aglomerativní metody shlukování Zpočátku každý objekt ve vstupních datech tvoří samostatný shluk V

Hierarchické aglomerativní metody shlukování Zpočátku každý objekt ve vstupních datech tvoří samostatný shluk V iteracích se slučují vždy dva „nejpodobnější“ shluky V poslední iteraci jsou všechny objekty sloučeny v jeden shluk SHLUKOVÁ ANALÝZA

Koeficienty (ne)podobnosti shluků ● ● ● Určují podobnost shluků Několik metod, uvedeny jsou 3

Koeficienty (ne)podobnosti shluků ● ● ● Určují podobnost shluků Několik metod, uvedeny jsou 3 nejintuitivnější Příklady: ● ● ● SHLUKOVÁ ANALÝZA Nejbližší soused Nejvzdálenější soused Centroidní

Metoda nejbližšího souseda SHLUKOVÁ ANALÝZA

Metoda nejbližšího souseda SHLUKOVÁ ANALÝZA

Metoda nejvzdálenějšího souseda SHLUKOVÁ ANALÝZA

Metoda nejvzdálenějšího souseda SHLUKOVÁ ANALÝZA

Metoda centroidní SHLUKOVÁ ANALÝZA

Metoda centroidní SHLUKOVÁ ANALÝZA

Dendrogram l Diagram zobrazující kroky shlukování SHLUKOVÁ ANALÝZA

Dendrogram l Diagram zobrazující kroky shlukování SHLUKOVÁ ANALÝZA

Hierarchické divizivní metody shlukování Zpočátku všechny objekty vstupních dat tvoří jeden shluk V iteracích

Hierarchické divizivní metody shlukování Zpočátku všechny objekty vstupních dat tvoří jeden shluk V iteracích se rozdělují vždy dva nejméně „podobné“ shluky V poslední iteraci všechny objekty tvoří samostatný shluk SHLUKOVÁ ANALÝZA

Hierarchické dělení do shluků podobné budování stromů Poznámka: hierarchické metody mohou k při vytváření

Hierarchické dělení do shluků podobné budování stromů Poznámka: hierarchické metody mohou k při vytváření shluků používat všechny atributy (jinak řečeno - proměnné objektů, které tvoří naše data), potom mluvíme o metodach polytetických nebo budou používat jeden atribut, ten musí algoritmus vyhledat na základě vytipovaných statistik a pak mluvíme o monotetických metodách shlukování Síla diskriminace do shluků se odvodí z speciálních koeficientů, Entropie, gini indexu, chí kvadrátu apod. algoritmus MONA

Nehierarchické metody shlukování I. Neuplatňuje se hierarchická struktura Pro dobré rozložení se musí hodnotit

Nehierarchické metody shlukování I. Neuplatňuje se hierarchická struktura Pro dobré rozložení se musí hodnotit kvalita vznikajících shluků a případně jejich složení modifikovat Kvalita je hodnocena „funkcionálem kvality rozkladu“, který může být reprezentován: ● Průměrná vzdálenost objektů shluku od těžiště ● Vnitroshlukový rozptyl ● Podobnost objektů v shluku ● Míra separace shluku ● Rovnoměrnost rozložení objektů v shluku Metody mají dvě fáze: určit ideální počet shluků a provést samotné shlukování SHLUKOVÁ ANALÝZA

Nehierarchické metody shlukování II. ● ● ● Počet shluků je volen buď analytikem, a

Nehierarchické metody shlukování II. ● ● ● Počet shluků je volen buď analytikem, a nebo je výsledkem sledování hodnot zmíněného funkcionálu Metody zachovávající počet shluků: pouze přiřazují objekty do shluků Metody optimalizující počet shluků: optimalizace počtu shluků, pro kterou je potřeba poskytnout kriteria, za kterých má dojít ke sloučení/rozdělení shluků Optimalizační metody, které hledají nejlepší rozklad přeřazováním objektů ze shluku do shluku, čímž minimalizují nebo maximalizují nějaké kriterium rozkladu. Analýzy modů, jež berou shluky jako místa s větší koncentrací objektů v n-rozměrném prostoru proměnných. SHLUKOVÁ ANALÝZA

K-Means algoritmus Nehierarchický algoritmus zachovávající počet shluků Používá eukleidovskou metriku a reprezentaci shluků pomocí

K-Means algoritmus Nehierarchický algoritmus zachovávající počet shluků Používá eukleidovskou metriku a reprezentaci shluků pomocí jejich centroidů Spočívá v přiřazení objektu k tomu shluku, který je mu nejblíž, po přiřazení se přepočítá těžiště (centroid) a objekty se znovu přiřazují novým těžištím. Konec nastává například v momentě kdy žádný objekt nebyl přeřazen SHLUKOVÁ ANALÝZA

K-Means algoritmus nyní v ilustracích 1) Volba počátečních reprezentativních bodů SHLUKOVÁ ANALÝZA

K-Means algoritmus nyní v ilustracích 1) Volba počátečních reprezentativních bodů SHLUKOVÁ ANALÝZA

K-Means algoritmus nyní v ilustracích 2) Přiřazení objektů k nejbližším reprezentativním bodům toho daného

K-Means algoritmus nyní v ilustracích 2) Přiřazení objektů k nejbližším reprezentativním bodům toho daného shluku SHLUKOVÁ ANALÝZA

K-Means algoritmus nyní v ilustracích 3) Vypočítání nového těžiště SHLUKOVÁ ANALÝZA

K-Means algoritmus nyní v ilustracích 3) Vypočítání nového těžiště SHLUKOVÁ ANALÝZA

K-Means algoritmus nyní v ilustracích 4) Opakovat krok ze 2) 5) pokud není žádná

K-Means algoritmus nyní v ilustracích 4) Opakovat krok ze 2) 5) pokud není žádná „výrazná“ změna, konec SHLUKOVÁ ANALÝZA

Co si z přednášky odnést? -Kdy nastupuje na scénu shluková analýza -Nutnost znát svá

Co si z přednášky odnést? -Kdy nastupuje na scénu shluková analýza -Nutnost znát svá data. (outliners, null hodnoty, typy atributů) -Metody pokus / omyl jsou „denní chleba“ -Je potřeba data upravit do požadované formy, pokud to algoritmus nedělá sám -Data jsou zde alfou a omegou. Určují nám vhodný druh shlukování a algoritmus -Rozličnost všemožných kriterií -Samotné utvoření shluku nic neznamená, je třeba zjistit jeho validitu (interpretovatelnost) SHLUKOVÁ ANALÝZA

Connectivity based clustering SHLUKOVÁ ANALÝZA

Connectivity based clustering SHLUKOVÁ ANALÝZA

Názorné ukázky SHLUKOVÁ ANALÝZA

Názorné ukázky SHLUKOVÁ ANALÝZA

Centroid based clustering SHLUKOVÁ ANALÝZA

Centroid based clustering SHLUKOVÁ ANALÝZA

Distribution based clustering SHLUKOVÁ ANALÝZA

Distribution based clustering SHLUKOVÁ ANALÝZA

Distribution based clustering SHLUKOVÁ ANALÝZA

Distribution based clustering SHLUKOVÁ ANALÝZA

Density based clustering SHLUKOVÁ ANALÝZA

Density based clustering SHLUKOVÁ ANALÝZA