ANALIZA SKUPINA 1 Analiza skupina Za razliku od

  • Slides: 20
Download presentation
ANALIZA SKUPINA 1

ANALIZA SKUPINA 1

Analiza skupina • Za razliku od diskriminacione analize ovde broj grupa i njihove karakteristike

Analiza skupina • Za razliku od diskriminacione analize ovde broj grupa i njihove karakteristike nisu unapred poznate. • Cilj je otkriti prirodne grupe medju jedinicama posmatranja u odnosu na posmatrane karakteristike (npr. dohodak i zaduženost) 2

3

3

 • Prema čemu se grupišu opservacije u skupine? • Prema nekoj meri sličnosti.

• Prema čemu se grupišu opservacije u skupine? • Prema nekoj meri sličnosti. Najsličnije opservacije treba da budu u istoj skupini • Koje mere sličnosti se koriste u analizi skupina? 1. Euklidsko odstojanje – mera različitosti 2. Koeficijenti korelacije – mera bliskosti 3. Koeficijenti povezanosti – mera bliskosti (za binarne atribute) 4

Euklidsko odstojanje – mera različitosti proizvodi/varijable Zadovoljstvo ukusom Zadovoljstvo ambalažom proizvod A 1 2

Euklidsko odstojanje – mera različitosti proizvodi/varijable Zadovoljstvo ukusom Zadovoljstvo ambalažom proizvod A 1 2 proizvod B 2 2 proizvod C 6 7 Koji proizvodi su najsličniji? AB Koji proizvodi su najrazličitiji? AC 5

6

6

Koeficijent povezanosti – mera bliskosti • Izračunati koeficijent sličnosti između televizora marke Samsung i

Koeficijent povezanosti – mera bliskosti • Izračunati koeficijent sličnosti između televizora marke Samsung i Neo (1 poseduje karakteristiku, 0 -ne poseduje datu karakteristiku) a-broj karakteristika koje poseduju oba brenda b-broj karakteristika koje poseduje samo prvi brend c-broj karakteristika koje poseduje samo drugi d-broj karakteristika koje ne poseduje ni jedan brend Karakteristika Samsung Neo LG Garancija 2 godine 1 1 0 Servis 1 0 1 Mogućnost prikazivanja digitalne televizije 0 0 1 LCD 1 0 1 Sličnost SAMSUNG-NEO= =(a+d)/(a+b+c+d)=2/4=0. 5 7

Koeficijent korelacije – mera sličnosti • Posmatramo dinamiku gledanosti po nedeljama tri televizijske stanice

Koeficijent korelacije – mera sličnosti • Posmatramo dinamiku gledanosti po nedeljama tri televizijske stanice (PINK, FOX, RTS) 8

Korelacija gledanosti PINK FOX RTS 1 PINK 1 0, 97 0, 32 FOX 0,

Korelacija gledanosti PINK FOX RTS 1 PINK 1 0, 97 0, 32 FOX 0, 97 1 0, 12 RTS 1 0, 32 0, 12 1 Ko ima najsličniju dinamiku gledanosti? PINK i FOX 9

Analiza skupina • Koje procedure grupisanja postoje? 1. Hijerarhijska – nema unapred definisan broj

Analiza skupina • Koje procedure grupisanja postoje? 1. Hijerarhijska – nema unapred definisan broj skupina. Polazi se od toga da je svaka jedinica zasebna skupina pa se na osnovu mera sličnosti povezuju u sve manji broj skupina dok ne postanu jedna (može i obratno) 2. Nehijerarhijska – unapred definisan broj skupina. Preporučuje se primena obe procedure prvo hijerarhijske pa nehijerarhijske. 10

Analiza skupina • • Kod hijerarhijske analize u svakoj iteraciji spajaju se najsličnije grupe

Analiza skupina • • Kod hijerarhijske analize u svakoj iteraciji spajaju se najsličnije grupe Kako merimo udaljenost (sličnost) izmedju GRUPA? 1. Jednostruko povezivanje 2. Potpuno povezivanje 3. Prosečno povezivanje 4. Metod centroida 5. Vordov metod 11

Jednostruko povezivanje • Metod najbližih suseda (euklidsko-mera sličnosti) Koja je udaljenost ove dve skupine

Jednostruko povezivanje • Metod najbližih suseda (euklidsko-mera sličnosti) Koja je udaljenost ove dve skupine po metodu najbližij suseda? Ono je jednako euklidskom odstojanju proizvoda. E i C 12

13

13

Potpuno povezivanje • Naziva se još i metod najudaljenijih suseda 14

Potpuno povezivanje • Naziva se još i metod najudaljenijih suseda 14

Metod prosečnog povezivanja • Uzima se prosek distanci jedinica iz obe skupine. Primer: neka

Metod prosečnog povezivanja • Uzima se prosek distanci jedinica iz obe skupine. Primer: neka jednu skupinu čine jedinice Ai. B, a drugu skupinu neka čini samo C • Udaljenost prema ovom metodu (7, 07+6, 4)/2=6, 735 15

(AC + BC)/2 = 6, 735 16

(AC + BC)/2 = 6, 735 16

Analiza skupina – hijerarhijski metod 17

Analiza skupina – hijerarhijski metod 17

Analiza skupina • Uzimajući u obzir sledeće mere bliskosti odrediti koji proizvodi pripadaju kojim

Analiza skupina • Uzimajući u obzir sledeće mere bliskosti odrediti koji proizvodi pripadaju kojim skupinama po metodu najbližih suseda koristeći DENDROGRAM • • AB i D jedna skupina EC druga skupina A B C D E A - . 85 . 15 . 25 . 16 B . 85 - . 08 . 86 . 23 C . 15 . 08 - . 1 . 62 D . 25 . 86 . 1 - . 27 E . 16 . 23 . 62 . 27 18

Analiza skupina • Uzimajući u obzir sledeće mere različitosti odrediti koji proizvodi pripadaju kojim

Analiza skupina • Uzimajući u obzir sledeće mere različitosti odrediti koji proizvodi pripadaju kojim skupinama po metodu najbližih suseda koristeći DENDROGRAM • • B, C i D jedna skupina E i A druga skupina A B C D E A - . 85 . 45 . 25 . 14 B . 85 - . 08 . 86 . 23 C . 45 . 08 - . 1 . 62 D . 25 . 86 . 1 - . 27 E. 14 . 23 . 62 . 27 - 19

Zadatak Karakteristika Samsung Neo Garancija 2 godine 1 1 A-broj karakteristika koje poseduju oba

Zadatak Karakteristika Samsung Neo Garancija 2 godine 1 1 A-broj karakteristika koje poseduju oba brenda B-broj karakteristika koje poseduje samo Samsung C-broj karakteristika koje poseduje samo Neo D-broj karakteristika koje ne poseduje ni jedan brend Servis 1 0 Mogućnost 0 prikazivanja digitalne televizije 0 LCD 1 0 Plazma 0 1 Crna boja 1 1 s=(a+d)/(a+b+c+d) =4/8=0. 5 Srebrna boja 1 0 Držač za TV gratis 1 1 • Izračunati koeficijent sličnosti između televizora marke Samsung i Neo (1 postoji karakteristika, 0 -ne postoji karakteristika) 20