LAnalisi delle Corrispondenze LAnalyse des Correpondence J P

  • Slides: 20
Download presentation
L’Analisi delle Corrispondenze

L’Analisi delle Corrispondenze

L’Analyse des Correpondence (J. P. Benzécri, 1973) Obiettivi: • Rappresentazione grafica • Sintesi della

L’Analyse des Correpondence (J. P. Benzécri, 1973) Obiettivi: • Rappresentazione grafica • Sintesi della struttura di associazione tra due (o più) variabili qualitative Struttura dei dati: La tabella di contingenza

Rappresentazioni grafiche per tabelle di contingenza (M. Greenacre, 1984) Profili dei Prodotti per Classe

Rappresentazioni grafiche per tabelle di contingenza (M. Greenacre, 1984) Profili dei Prodotti per Classe di Età Profili delle Classi di Età per Prodotto

I PROFILI • L’analisi delle corrispondenze lavora sulle distribuzioni condizionate (di riga e di

I PROFILI • L’analisi delle corrispondenze lavora sulle distribuzioni condizionate (di riga e di colonna) all’interno di una tabella di contingenza. Queste distribuzioni sono chiamate profili (rispettivamente di riga e di colonna) G A V A G A V C D B G A V E Profili del prodotto per classi di età (G=giovani; A=adulti; V=anziani) A BC D E G A B C D E A A B C D E V Profili delle classi di età per prodotto (G=giovani; A=adulti; V=anziani)

Rappresentazione dei profili nel simplesso ANZIANO [1 0 0] A GIOVANE E ANZIANO [0

Rappresentazione dei profili nel simplesso ANZIANO [1 0 0] A GIOVANE E ANZIANO [0 0 1] C media B 0, 1 0, 2 D [0 1 0] ADULTO GIOVANE E 0, 7 ADULTO Triangolo equilatero (simplesso) • I p profili di m elementi sono rappresentati da punti in uno spazio mdimensionale. Poiché la somma degli elementi è 1, i punti giacciono in uno spazio (m-1)-dimensionale, detto simplesso, ottenuto congiungendo a coppie gli m vertici dei vettori unitari sugli m assi perpendicolari • I punti unitari sono i vertici del simplesso • Il sistema di coordinate nel simplesso è detto baricentrico • Caso particolare è quando le coordinate sono 3: il simpesso è un triangolo equilatero. Il sistema è detto di coordinate triangolari

Lettura di una rappresentazione in coordinate triangolari ANZIANO 0, 1 0, 2 GIOVANE •

Lettura di una rappresentazione in coordinate triangolari ANZIANO 0, 1 0, 2 GIOVANE • E 0, 7 ADULTO La posizione dei punti profilo dipende dai valori del profilo, in relazione ai vertici • All’interno del triangolo equilatero, un punto profilo si troverà più vicino ai vertici il cui elemento corrispondente è grande • La posizione dei punti profilo può essere vista come una media ponderata della posizione dei vertici profilo [a b c] con a+b+c=1 posizione del profilo = (a vertice 1) + (b vertice 2) + (c vertice 3) Esempio: prodotto E posizione di E = (0, 7 giovane) + (0, 1 adulto) + (0, 2 anziano) Esempio: prodotto medio (distribuzione marginale) medio = (0, 45 giovane) + (0, 4 adulto) + (0, 15 anziano)

Il profilo riga medio non è solo il centroide dei 3 vertici del simplesso

Il profilo riga medio non è solo il centroide dei 3 vertici del simplesso ma è anche il centroide dei 5 profili stessi, pesati proporzionalmente al numero di rispondenti che rispondono a quel profilo-riga. Il sistema di pesi è quindi costituito dal vettore medio (distribuzione marginale) dei profili-colonna.

Inerzia e distanza del 2 • L’inerzia di una tabella di contingenza è 2=

Inerzia e distanza del 2 • L’inerzia di una tabella di contingenza è 2= 2/n • La statistica 2= i j(fij - fi. f. j)2/fi. f. j misura la discrepanza tra le frequenze osservate e attese sotto l’ipotesi di indipendenza in una tabella di contingenza • il 2 misura anche la lontananza di un profilo (riga o colonna) dal suo profilo medio 2= ifi. j 1/f. j (fij/fi. - f. j)2= j f. j i 1/fi. (fij/fi. - fi. )2 • la nozione di lontananza suggerisce la definizione di una distanza fra profili: Distanza del 2

Distanza del 2 - 1 • la distanza euclidea è quella che si assume

Distanza del 2 - 1 • la distanza euclidea è quella che si assume implicitamente fra due punti i e i’: d 22(i, i’)= j(xij - xi’j)2 • la distanza del 2 differisce da quella euclidea poiché ciascuna distanza è divisa per la radice quadrata del corrispondente elemento del profilo medio: d 2(i, i’)= j(1/ f. j)(fij/fi. - fi’j /fi’. )2 poiché f. j 1, la trasformazione ingrandisce il valore delle coordinate, in particolare di quelle coordinate relative a modalità rare

Distanza del 2 - 2 • L’inerzia ( 2 = 2/n ) può essere

Distanza del 2 - 2 • L’inerzia ( 2 = 2/n ) può essere riscritta come la media ponderata delle distanze del 2 fra profili (riga o colonna) e il profilo medio • Inerzia (e 2) possono essere rappresentati geometricamente come il grado di dispersione dell’insieme di punti profilo (riga o colonna), intorno alla loro media, utilizzando l’appropriato sistema di pesi

Rappresentazione in coordinate triangolari e inerzia ( 2= 2/n) (da Greenacre, 1990) V A

Rappresentazione in coordinate triangolari e inerzia ( 2= 2/n) (da Greenacre, 1990) V A G V V 2=0, 0076 2=0, 1101 ac bd e c a e d b A A G V 2=0, 5923 G a c 2=1, 5715 c V A G V a e A b e d G A b d G

Riduzione di dimensionalità In genere i profili sono rappresentati da una nube di punti

Riduzione di dimensionalità In genere i profili sono rappresentati da una nube di punti in uno spazio multidimensionale Per rappresentarli graficamente occorre identificare un sottospazio prossimo ai punti profilo cosicché la loro proiezione sia la migliore approssimazione (nel senso dei minimi quadrati) della nube osservata Individuare l’asse corrispondente alla direttrice di massima inerzia della nube dei punti e poi il secondo (ortogonale) e così via

Decomposizione in valori singolari di una matrice X (n, p; n>p) ECKART&YOUNG(1936) X =

Decomposizione in valori singolari di una matrice X (n, p; n>p) ECKART&YOUNG(1936) X = 1 v 1 u 1 +. . . + p v p up

Ricostruzione approssimata di X Ricostruzione approssimata mediante una matrice di rango ridotto • L’accuratezza

Ricostruzione approssimata di X Ricostruzione approssimata mediante una matrice di rango ridotto • L’accuratezza dell’approssimazione di un sottospazio fattoriale Q-dimensionale è misurata dal tasso di inerzia:

Le coordinate fattoriali Si dimostra che, per rappresentare gli n punti-riga: è la migliore

Le coordinate fattoriali Si dimostra che, per rappresentare gli n punti-riga: è la migliore approssimazione della nube di su una retta E così via per sottospazi di dimensioni maggiori. Analogamente, per i punti colonna:

Le matrici dell’AC N (I, J) tabella di contingenza [nij] (i= 1, …, I;

Le matrici dell’AC N (I, J) tabella di contingenza [nij] (i= 1, …, I; j=1, …, J) F (I, J) matrice delle frequenze relative [fij= nij/n ], con DI (I, I) matrice diagonale [fi. ], marginale di riga DJ (J, J) matrice diagonale [f. j], marginale di colonna DI-1 F (I, J) matrice dei profili riga F DJ-1 (I, J) matrice dei profili colonna

L’AC • La matrice da analizzare è la matrice dei profili riga DI-1 F

L’AC • La matrice da analizzare è la matrice dei profili riga DI-1 F • L’uso della distanza del 2 si esprime nel vincolo di normalizzazione U’ DJ-1 U=I • Analogamente, considerando la matrice dei profili colonna FDJ-1, con il vincolo V’DI-1 V=I • L’AC dal punto di vista dei profili-riga (rispetto ai vertici-colonna) e quella dei profili-colonna (rispetto ai vertici-riga) sono equivalenti dal punto di vista dell’inerzia, della dimensionalità e della perdita di informazione

LA TRASFORMAZIONE : LE COORDINATE FATTORIALI Le coordinate sull’ -esimo asse nei due spazi:

LA TRASFORMAZIONE : LE COORDINATE FATTORIALI Le coordinate sull’ -esimo asse nei due spazi: Da cui derivano le cosiddette formule di transizione che consentono di rappresentare i punti dello spazio delle righe nello spazio delle colonne e viceversa:

Contributi ad un asse fattoriale • L’inerzia totale di una tabella misura la disomogeneità

Contributi ad un asse fattoriale • L’inerzia totale di una tabella misura la disomogeneità dei profili riga e dei profili colonna. Ogni riga e ogni colonna contribuiscono in relazione al loro allontanarsi dalla situazione di indipendenza, espressa dai marginali • Il contributo ai singoli assi esprime l’importanza di una modalità nei confronti di del fattore. Si interpreta più facilmente in relazione all’importanza ( ) del fattore. E’ molto importante per interpretare gli assi. Per l’i-esima riga è dato da: • analogamente per la j-esima colonna:

Qualche ulteriore aiuto alla lettura • I contributi relativi (o coseni quadrati) esprimono quanto

Qualche ulteriore aiuto alla lettura • I contributi relativi (o coseni quadrati) esprimono quanto un punto è deformato dalla proiezione sull’asse fattoriale. Misurano la qualità della rappresentazione e variano fra 0 e 1 l L* • I punti supplementari sono righe (colonne) aggiuntive, proiettate nel sottospazio identificato dagli elementi attivi, per facilitarne l’interpretazione. • I contributi relativi si calcolano anche per i punti supplementari, quelli assoluti solo per gli attivi