ANALISI DEI GRUPPI I La Cluster analysis uno

  • Slides: 29
Download presentation
ANALISI DEI GRUPPI I

ANALISI DEI GRUPPI I

La Cluster analysisè uno strumento di classificazione capace di scomporre una realtà complessa di

La Cluster analysisè uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie specifiche.

Impieghi della. Cluster Analysis Ü segmentazione del mercato Ü analisi della concorrenza

Impieghi della. Cluster Analysis Ü segmentazione del mercato Ü analisi della concorrenza

La Cluster Analysisèuna tecnica di tipo esplorativo e pertanto, a differenza di quanto si

La Cluster Analysisèuna tecnica di tipo esplorativo e pertanto, a differenza di quanto si verifica con altre tecniche statistiche multivariate, non è necessaria alcuna assunzione a priori sulle tipologie fondamentali esistenti nell'insieme delle unità esaminate

Punto di partenza di ogni applicazione di. Cluster Analysis è la disponibilità di un

Punto di partenza di ogni applicazione di. Cluster Analysis è la disponibilità di un collettivo statistico (anche campionario) di n elementi, ciascuno rappresentato dap variabili

La matrice dei dati X= x 11 x 12 … x 1 p x

La matrice dei dati X= x 11 x 12 … x 1 p x 21 x 22 … x 2 p . . . … xn 1 xn 2 … . . . xnp

Ad ogni unità statistica è associato un vettore di p osservazioni, i cui valori

Ad ogni unità statistica è associato un vettore di p osservazioni, i cui valori sono configurabili come coordinate dell'unità considerata in uno spazio ap dimensioni.

Fasi del processo di segmentazione

Fasi del processo di segmentazione

è selezione degli elementi del collettivo è scelta delle variabili ed eventuale trasformazione è

è selezione degli elementi del collettivo è scelta delle variabili ed eventuale trasformazione è scelta del criterio di valutazione della dissomiglianza è scelta dell'algoritmo di raggruppamento è determinazione del numero di gruppi

Scale di misurazione delle variabili: è nominale è ordinale è ad intervallo è a

Scale di misurazione delle variabili: è nominale è ordinale è ad intervallo è a rapporti

Contributo informativo delle variabili

Contributo informativo delle variabili

è variabili quantitative : coefficiente di correlazione di Bravais- Pearson è variabili qualitative :

è variabili quantitative : coefficiente di correlazione di Bravais- Pearson è variabili qualitative : correlazione tra ranghi di Spearman o coefficiente di cograduazione di Gini è variabili miste : coefficiente di cograduazione di Gini, previa sostituzione dei valori delle variabili quantitative con i rispettivi ranghi

Trattamento preliminare delle variabili

Trattamento preliminare delle variabili

Ricondurre tutti i caratteri alla stessa scala, ovvero a quella contraddistinta dai minori requisiti

Ricondurre tutti i caratteri alla stessa scala, ovvero a quella contraddistinta dai minori requisiti La scelta delle variabili di input condiziona anche la necessità di una loro eventuale standardizzazione: è infatti opportuno che le variabili siano rese indipendenti dal loro ordine di grandezza

Standardizzazione (variabili quantitative)

Standardizzazione (variabili quantitative)

zi = xi - m sx dove zi è il valore della variabile standardizzata

zi = xi - m sx dove zi è il valore della variabile standardizzata per l'unità i-ma, xi è il valore originario della variabile per l'unitài-ma, m è la media aritmetica del carattere sx è lo scarto quadratico medio

Coefficienti di associazione misurano la somiglianza tra unità quando i caratteri sono espressi su

Coefficienti di associazione misurano la somiglianza tra unità quando i caratteri sono espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completa

Tabella tetracorica individuoj individuoi 1 0 1 a b 0 c d

Tabella tetracorica individuoj individuoi 1 0 1 a b 0 c d

Misure di associazione: A coefficiente di Jaccard Js B ij a = a+b+c coefficiente

Misure di associazione: A coefficiente di Jaccard Js B ij a = a+b+c coefficiente di Dice Ds ij 2 a = 2 a + b + c

Quando i caratteri sono sia qualitativi che quantitativi si ricorre al coefficiente di Gower:

Quando i caratteri sono sia qualitativi che quantitativi si ricorre al coefficiente di Gower: p G s ij = Πwkskij k=1 p Πk=1 wk

dove skij è un indicatore di somiglianza tra le unitài e j rispetto alla

dove skij è un indicatore di somiglianza tra le unitài e j rispetto alla variabile k che vale uno se l variabile è di tipo nominale o ordinale e vi è concomitanza di presenza o assenza per iej zero se la variabile è di tipo nominale o ordinale e non vi è concomitanza di presenza o assenza per iej

1 - xik - xjk Rk con Rk che è il campo di variazione

1 - xik - xjk Rk con Rk che è il campo di variazione della variabile k wk è un peso arbitrario

Esempio di calcolo dei coefficienti di associazione Variabili 1 2 3 4 5 Unità

Esempio di calcolo dei coefficienti di associazione Variabili 1 2 3 4 5 Unità i 1 0 0 1 1 Unità j 1 1 0

Tabella tetracorica individuoj individuoi 1 0 1 2 1 0 1 1

Tabella tetracorica individuoj individuoi 1 0 1 2 1 0 1 1

Coefficiente di Jaccard = 1/2 Coefficiente di Dice =2/3 Coefficiente di associazione semplice =3/5

Coefficiente di Jaccard = 1/2 Coefficiente di Dice =2/3 Coefficiente di associazione semplice =3/5

Per i dati di tipo quantitativosi ricorre alle distanze

Per i dati di tipo quantitativosi ricorre alle distanze

Una distanza possiede le seguenti proprietà: identità simmetria non negatività dii = 0 dij

Una distanza possiede le seguenti proprietà: identità simmetria non negatività dii = 0 dij = dji dij ≥ = 0 disuguaglianza triangolare dil + dlj ≤ = dij

Distanza di Minkowski p rd ij = r 1/r xik - xjk k=1 Per

Distanza di Minkowski p rd ij = r 1/r xik - xjk k=1 Per r = 2 si ha la distanza euclidea p 2 d ij = k=1 2 xik - xjk 1/r

Distanza di Mahalanobis p dij = p 1/2 shk (xik - xjk) (xih -

Distanza di Mahalanobis p dij = p 1/2 shk (xik - xjk) (xih - xjh) k=1 h=1 in cui shk indica il generico elemento della matrice inversa delle varianzecovarianze tra lep variabili