Statistic multivariat prezentat de Valentin Clocotici Analiza factorial

  • Slides: 38
Download presentation
Statistică multivariată prezentată de Valentin Clocotici

Statistică multivariată prezentată de Valentin Clocotici

Analiza factorială (3) Cursul nr. 12 04 -Nov-20 2

Analiza factorială (3) Cursul nr. 12 04 -Nov-20 2

Analiza covarianţelor/corelaţiilor parţiale • Structura unei mulţimi de variabile (aşa cum este evidenţiată, de

Analiza covarianţelor/corelaţiilor parţiale • Structura unei mulţimi de variabile (aşa cum este evidenţiată, de exemplu, în ACP/ACPN) poate fi deformată în situaţia când există un grup de variabile exogene (externe, de control) care influenţează neuniform variabilele studiate. • In aceste cazuri, trebuie să se elimine mai întâi influenţa variabilelor de control, astfel încât analiza reziduurilor care rămân să poată evidenţia structura variabilelor în ipoteza că “toate celelalte lucruri sunt egale, aceleaşi peste tot”. • Presupunând că X 1, X 2, …, Xp sunt variabilele studiate, iar Z 1, Z 2, …, Zq sunt variabilele de control, pasul iniţial este acela determina reziduurile unde, cel mai adesea, funcţiile fi sunt funcţii liniare, determinate prin tehnica regresiei multiple. • Matricele implicate în analiza factorială sunt, în acest caz, matricele de covarianţă (corelaţie) dintre variabilele noi e 1, …, ep. Matricele sunt notate, respectiv, Cov(X|Z), Cor(X|Z), de unde titlul prelucrărilor de acest gen. 04 -Nov-20 3

Regresia ortogonală • Regresia liniară (modelul liniar) tratează variabilele în mod asimetric: o variabilă

Regresia ortogonală • Regresia liniară (modelul liniar) tratează variabilele în mod asimetric: o variabilă este cea dependentă, celelalte fiind considerate independente. • Această fixare a rolurilor are ca efect principal faptul că doar variabila dependentă este afectată de erori. • In practică, însă, sunt situaţii în care toate variabilele sunt afectate de erori (sunt variabile aleatorii), ca şi situaţii în care se doreşte o tratare simetrică a variabilelor. • Modelul adecvat este, în asemenea cazuri, regresia ortogonală. 04 -Nov-20 4

Regresia ortogonală • In acest model, eroarea de estimare nu se măsoară de-a lungul

Regresia ortogonală • In acest model, eroarea de estimare nu se măsoară de-a lungul unei axe (ca la modelul liniar), ci este măsurată perpendicular pe planul de regresie (distanţa euclidiană de la un punct la un plan). • Regresia ortogonală este o metodă prin care se determină o relaţie liniară între p variabile care au, a priori, roluri identice (nu se distinge între variabile dependente şi independente). • Mai precis, se va determina acea combinaţie liniară care cea mai mică dispersie. • Fie u vectorul coeficienţilor şi X matricea de tip (n, p) a observaţiilor centrate pe coloane (media fiecărei coloane este zero). 04 -Nov-20 5

Regresia ortogonală • Fie S matricea de covarianţă a celor p variabile; din centrarea

Regresia ortogonală • Fie S matricea de covarianţă a celor p variabile; din centrarea variabilelor rezultă • Varianţa combinaţiei liniare definită de u este atunci • Analiza în componente principale ar determina combinaţia liniară u 1 având varianţa maximă l 1, unde l 1 este cea mai mare valoare proprie a lui S iar u 1 este vectorul propriu unitar asociat (u’ 1 u 1 = 1). • Acelaşi raţionament, dar căutând combinaţia liniară de varianţă minimă, conduce la acceptarea vectorului propriu up a lui S, asociat celei mai mici valorii proprii lp (valorile proprii ordonate descrescător). • Valoarea proprie lp este, totodată, varianţa minimă: 04 -Nov-20 6

Regresia ortogonală Interpretarea geometrică în R p • Dat vectorul u (presupus unitar) cu

Regresia ortogonală Interpretarea geometrică în R p • Dat vectorul u (presupus unitar) cu p componente, se defineşte în R p hiperplanul P al punctelor x ortogonale cu u, de ecuaţie u’x = 0. • Dacă xi este o linie din matricea de observaţii X, distanţa lui xi la planul P este măsurată prin proiecţia lui xi pe u, deci este u’xi. 04 -Nov-20 =d(xi, P) u xi d(xi, P) P 7

Regresia ortogonală Interpretarea geometrică în R p • Prin urmare, suma pătratelor distanţelor ortogonale

Regresia ortogonală Interpretarea geometrică în R p • Prin urmare, suma pătratelor distanţelor ortogonale tuturor celor n puncte definite de liniile lui X este: • Astfel, coeficienţii de regresie ortogonală, componente ale vectorului propriu up, caracterizează în R p planul de proiecţie care ajustează cel mai bine, în sensul celor mai mici pătrate, norul de puncte (observaţii). • Acest plan se numeşte plan de regresie ortogonală (în R p este un hiperplan cu p-1 dimensiuni). 04 -Nov-20 8

Regresia ortogonală • Dacă cea mai mică valoare proprie este nulă, cele n puncte

Regresia ortogonală • Dacă cea mai mică valoare proprie este nulă, cele n puncte xi sunt conţinute în planul de regresie ortogonală, care constituie suport al norului de puncte din R p : • Se poate generaliza problema prin căutarea subspaţiului de regresie ortogonală, de dimensiune p-q. Acesta va fi caracterizat de ortogonalitatea celor q vectori proprii asociaţi celor mai mici q valori proprii ale matricei S. • Aceşti vectori proprii succesivi vor defini q combinaţii liniare de variabile, necorelate şi având varianţe minime. 04 -Nov-20 9

Regresia ortogonală • Considerăm cazul a două variabile, fie acestea X şi Y, pentru

Regresia ortogonală • Considerăm cazul a două variabile, fie acestea X şi Y, pentru care sunt disponibile n observaţii, (Xi, Yi). • Dacă X şi Y sunt afectate de erori, atunci este adecvată regresia ortogonală. • Metoda revine la a determina o dreaptă y=a+bx astfel încât suma pătratelor distanţelor celor n puncte observate la dreaptă să fie minimă. • Distanţele sunt distanţele euclidiene de la puncte la dreaptă, măsurate pe perpendicularele la dreaptă. (Vezi figura din slide-ul următor. ) 04 -Nov-20 10

Regresia ortogonală 04 -Nov-20 11

Regresia ortogonală 04 -Nov-20 11

Regresia ortogonală • Matematic, se caută minimul expresiei cu restricţiile • Necunoscutele sunt a,

Regresia ortogonală • Matematic, se caută minimul expresiei cu restricţiile • Necunoscutele sunt a, b, xi, yi, i=1…n. • Se observă că metoda utilizată este tot metoda celor mai mici pătrate. 04 -Nov-20 12

Regresia ortogonală • Rezolvarea se obţine prin metoda multiplicatorilor lui Lagrange. • Se consideră

Regresia ortogonală • Rezolvarea se obţine prin metoda multiplicatorilor lui Lagrange. • Se consideră astfel F = E + l 1 f 1 + l 2 f 2 + … + ln fn pentru care se determină extremele anulând derivatele parţiale 04 -Nov-20 13

Regresia ortogonală • Introducem notaţiile • Se demonstrează că soluţiile sistemului normal, pentru a

Regresia ortogonală • Introducem notaţiile • Se demonstrează că soluţiile sistemului normal, pentru a şi b, sunt • Se va alege valoarea lui b care minimizează pe E, cealaltă valoare va realiza maximul expresiei E şi va produce o dreaptă perpendiculară pe prima. 04 -Nov-20 14

Regresia după componente principale • Scopul regresiei după componentele principale (PCR - principal component

Regresia după componente principale • Scopul regresiei după componentele principale (PCR - principal component regression) este să esti-meze valorile unei variabile dependente considerând componentele principale ca variabile independente. • Există două situaţii principale pentru a utiliza acest tip de regresie: – coliniaritatea variabilelor independente iniţiale; existenţa variabilelor puternic corelate (coliniaritatea) duce la o matrice rău condiţionată, cu mari erori la inversare şi, astfel, se ajunge la estimari eronate ale coeficienţilor de regresie. Reamintim proprietatea componentelor principale de a fi necorelate. – existenţa unui număr mare de variabile independente; prin analiza în componente principale are loc reducerea dimensiunii problemei. 04 -Nov-20 15

Regresia după componente principale • Notăm cu y vectorul valorilor variabilei dependente, cu X

Regresia după componente principale • Notăm cu y vectorul valorilor variabilei dependente, cu X matricea n p a valorilor independente observate şi presupunem că valorile sunt centrate (atât pentru y, cât şi pentru X, pe coloane). • Presupunem că se reţin q valori proprii ale matricei X’X, celelalte fiind aproape nule. • Notăm cu u 1, …, uq vectorii proprii asociaţi şi cu za vectorul coordonatelor punctelor pe axa ua. Reamintim că 04 -Nov-20 16

Regresia după componente principale • Modelul având drept variabile independente pe u 1, …,

Regresia după componente principale • Modelul având drept variabile independente pe u 1, …, uq este y = Zc + e unde Z este tabloul n p al vectorilor unitari şi ortogonali za, iar c este vectorul celor q noi coeficienţi căutaţi. • Deoarece Z’Z este matricea unitate, calculul lui c se reduce la c = (Z’Z)-1 Z’y = Z’y • Dispersia comună a reziduurilor modelului este • Matricea de covarianţă a coeficienţilor este Var(c) = s 2(Z’Z)-1 = s 2 I coeficienţii sunt necorelaţi, au aceeaşi dispersie, estimată de s 2. 04 -Nov-20 17

Analiza canonică • Prin analiza canonică se sintetizează relaţiile care există între două grupuri

Analiza canonică • Prin analiza canonică se sintetizează relaţiile care există între două grupuri de variabile. • Analiza canonică oferă un cadru teoretic general, care include drept cazuri particulare: – regresia multiplă (unul dintre grupuri conţine o singură variabilă), – analiza discriminantă (variabilele unui grup sunt variabile discrete indicatoare ale unei partiţii a mulţimii observaţiilor şi care conţine, la rândul său, drept caz particular, analiza corespondenţelor). • Este totuşi de menţionat că, deşi interesantă pe plan teoretic, analiza canonică are o utilizare practică mai redusă din cauza dificultăţilor de interpretare concretă a rezultatelor obţinute; interpretarea celor două grupuri de variabile drept input şi output pentru un proces a impulsionat, în ultimii ani, studiul şi aplicarea metodelor analizei canonice. 04 -Nov-20 18

Analiza canonică • In matematică, o formă canonică este, în general vorbind, cea mai

Analiza canonică • In matematică, o formă canonică este, în general vorbind, cea mai simplă şi mai cuprinzătoare formă la care se pot reduce funcţii, relaţii, expresii fără a pierde nimic din generalitatea obiectului respectiv. • De exemplu, forma canonică a matricei de covarianţă este matricea diagonală a valorilor proprii. • In general, cele mai multe metode din analiza canonică utilizează analiza vectorilor şi valorilor proprii. • Ca şi celelalte metode prezentate până acum în cadrul analizelor factoriale, analiza canonică produce axe ortogonale care permit reprezentări grafice prin intermediul cărora se pot studia structuri. 04 -Nov-20 19

Analiza canonică • Tabloul de date este structurat astfel n linii X p coloane

Analiza canonică • Tabloul de date este structurat astfel n linii X p coloane Z q coloane • Liniile reprezintă indivizi (observaţii), subtabloul X are p coloane reprezentând primul grup de variabile, al doilea subtablou Z reprezintă cele q variabile din al doilea grup. • Un individ i este caracterizat deci de linia de date 04 -Nov-20 20

Analiza canonică • Fie doi vectori, a şi b, cu p şi, respectiv, q

Analiza canonică • Fie doi vectori, a şi b, cu p şi, respectiv, q componente. Se definesc astfel combinaţii liniare ale elementelor fiecărei linii din X şi Z prin • Cele n valori a(i) sunt deci componentele lui Xa, analog b(i) sunt componentele lui Zb. • Vectorii Xa şi Zb reprezintă, de asemenea, două puncte din R n, aparţinând, respectiv, la subspaţiile R X şi R Z generate de coloanele lui X şi ale lui Z. • Ne va interesa unghiul minimal dintre subspaţiile R X şi R Z. 04 -Nov-20 21

Analiza canonică • Mai precis, se vor determina vectorii a şi b astfel încât

Analiza canonică • Mai precis, se vor determina vectorii a şi b astfel încât cosinusul unghiului dintre Xa şi Zb să fie maxim (unghiul va fi atunci minim). RZ Zb Xa RX • In termenii produsului scalar al celor doi vectori 04 -Nov-20 22

Analiza canonică • Expresia care dă cosinusul unghiului este omogenă de grad 0 în

Analiza canonică • Expresia care dă cosinusul unghiului este omogenă de grad 0 în a şi b, astfel încât impunând condiţiile (care fixează laturile unghiului la unitate) problema se reduce la determinarea vectorilor a şi b care produc maximul expresiei 04 -Nov-20 23

Analiza canonică • Dacă datele sunt centrate pe coloane, atunci cos(Xa, Zb) este egal

Analiza canonică • Dacă datele sunt centrate pe coloane, atunci cos(Xa, Zb) este egal cu coeficientul de corelaţie dintre combinaţiile liniare respective, astfel încât problema devine – Să se determine a şi b astfel încât combinaţiile liniare Xa şi Zb să aibă corelaţia maximă. • In cazul datelor necentrate, problema revine la covarianţa maximă a combinaţiilor liniare Xa şi Zb. • Se numesc variabile canonice vectorul a (cu p componente) şi vectorul b (cu q componente). Componentele vectorilor se mai numesc ponderi canonice. 04 -Nov-20 24

Analiza canonică • Calculul variabilelor canonice, datorită condiţiilor de normare a vectorilor, se efectuează

Analiza canonică • Calculul variabilelor canonice, datorită condiţiilor de normare a vectorilor, se efectuează prin metoda multiplicatorilor lui Lagrange, maximizând expresia (forma particulară a multiplicatorilor este aleasă pentru simplificarea calculelor) • Anulând derivatele parţiale în raport cu a şi b: (1) 04 -Nov-20 25

Analiza canonică • De unde, utilizând normarea lui Xa şi Zb, • Astfel şi,

Analiza canonică • De unde, utilizând normarea lui Xa şi Zb, • Astfel şi, din expresia cos(Xa, Zb), rezultă că aceasta este valoarea maximă căutată. 04 -Nov-20 26

Analiza canonică • Dacă X’X este inversabilă, atunci prima relaţie (1) (vezi slide-ul 25)

Analiza canonică • Dacă X’X este inversabilă, atunci prima relaţie (1) (vezi slide-ul 25) conduce la (2) • A doua relaţie (1) devine şi, dacă Z’Z este nesingulară, se deduce că b este vector propriu al matricei relativ la cea mai mare valoare proprie, l 2, pătratul cosinusului unghiului maxim dintre subspaţiile R X şi R Z. • Valoarea l 2 este numită prima rădăcină canonică. 04 -Nov-20 27

Analiza canonică • Vectorul a se calculează atunci din relaţia (2) (vezi slide-ul precedent)

Analiza canonică • Vectorul a se calculează atunci din relaţia (2) (vezi slide-ul precedent) sau ca vector propriu al matricei • Vectorii proprii succesivi, în ordinea descrescătoare a valorilor proprii, produc şirul variabilelor canonice (a 1, a 2, …, ap), (b 1, b 2, …, bq). De notat faptul că aceste variabile sunt normate, prin condiţiile • Matricea M nu este simetrică. Forma sa implică faptul că pentru la lb, variabilele canonice asociate sunt ortogonale pentru metrica X’X, respectiv Z’Z, adică aa’X’Xab=0, 04 -Nov-20 ba’Z’Zbb=0. 28

Analiza canonică • Deoarece l poate fi interpretat ca un coeficient de corelaţie (potrivit

Analiza canonică • Deoarece l poate fi interpretat ca un coeficient de corelaţie (potrivit unei observaţii anterioare) şi cum l 2 este valoare proprie, se definesc corelaţiile canonice drept rădăcinile pătrate ale valorilor proprii calculate în analiza canonică. • Cum valorile proprii se ordonează descrescător, prima corelaţie canonică este considerată ca fiind un indice global de asociere a celor două grupuri de variabile. • Există însă interpretări şi pentru celelalte variabile canonice. • Semnificaţia statistică a corelaţiilor canonice poate fi testată. 04 -Nov-20 29

Analiza canonică • Pornind de la faptul că un coeficient de corelaţie canonică este

Analiza canonică • Pornind de la faptul că un coeficient de corelaţie canonică este asociat, prin definiţie, cu două combinaţii liniare de variabile (câte una pentru fiecare grup), se poate evalua contribuţia unei variabile la corelaţia respectivă prin mărimea absolută a ponderii canonice corespunzătoare. • Altfel spus, dacă ai 1, …, aik, bi 1, …, bim sunt cele mai mari componente (în valoare absolută) ale variabilelor canonice, se poate considera că l apare datorită variabilelor corespunzătoare din cele două grupuri {xi 1, …, xik; zi 1, …, zim} • Pentru a facilita compararea, ponderile sunt raportate de obicei pentru variabile standardizate, similar coeficienţilor standardizaţi de regresie. 04 -Nov-20 30

Analiza discriminantă • Prin analiza discriminantă se desemnează o serie de tehnici destinate clasificării

Analiza discriminantă • Prin analiza discriminantă se desemnează o serie de tehnici destinate clasificării unor indivizi (observaţii) caracterizaţi de un număr important de variabile. • Funcţiile liniare discriminante (calculate în analiză) sunt combinaţii liniare ale variabilelor iniţiale; valorile acestor funcţii, pentru un individ, vor stabili clasa la care aparţine individul. • Clasele sunt cunoscute a priori. Astfel, clasificarea unui individ ia în considerare cunoaşterea prealabilă. • Un exemplu clasic este din medicină: problema este de a stabili diagnosticul cel mai probabil pentru un pacient nou, ale cărui analize şi examene au fost efectuate, luând în considerare cazuistica existentă. • Analiza discriminantă este caz particular al analizei canonice (variabilele Z sunt variabile indicatoare ale celor q clase). 04 -Nov-20 31

Analiza discriminantă • Fie X = (xij) tabloul de date experimentale, n linii (indivizi

Analiza discriminantă • Fie X = (xij) tabloul de date experimentale, n linii (indivizi sau observaţii) şi p coloane (variabile). • Cele n linii sunt partiţionate în q clase. • Fie vectorul u cu componentele u 1, …, up şi notăm prin u(i), pentru fiecare individ i, combinaţia liniară a celor p variabile centrate • Vectorul U cu componentele u(1), …, u(n) este centrat ( u(i)=0) şi varianţa lui se calculează prin 04 -Nov-20 32

Analiza discriminantă • Notăm astfel încât u este vectorul coeficienţilor combinaţiei liniare considerate, iar

Analiza discriminantă • Notăm astfel încât u este vectorul coeficienţilor combinaţiei liniare considerate, iar T este matricea de covarianţă a celor p variabile. • Se arată, similar analizei dispersionale, că varianţa Var(U) se descompune în varianţă din interiorul claselor şi varianţă dintre clase. • Problema analizei discriminante se poate atunci formula: – Dintre toate combinaţiile liniare de variabile, să se determine acelea care au o varianţă externă maximală (pentru a accentua diferenţele dintre clase) şi o varianţă internă minimală (pentru a estompa diferenţele dintre elementele unei clase). • Aceste combinaţii liniare se numesc funcţii discriminante. 04 -Nov-20 33

Analiza discriminantă • Notăm cu nm numărul de observaţii din clasa m, deci cu

Analiza discriminantă • Notăm cu nm numărul de observaţii din clasa m, deci cu Im mulţimea de indici pentru observaţiile din clasa m şi definim media variabilei j în clasa m prin • Pentru orice variabilă j există egalitatea 04 -Nov-20 34

Analiza discriminantă • Pornind de la egalitatea se demonstrează formula (de descompunere a lui

Analiza discriminantă • Pornind de la egalitatea se demonstrează formula (de descompunere a lui Huygens, ecuaţia analizei dispersionale) unde • Notăm matricial T = D + E, de unde descompunerea anunţată 04 -Nov-20 35

Analiza discriminantă • Matricea D reprezintă varianţa din interiorul claselor, în timp ce E

Analiza discriminantă • Matricea D reprezintă varianţa din interiorul claselor, în timp ce E reprezintă varianţa dintre clase. • Notând problema analizei discriminante revine la a determina acel vector u astfel încât să se atingă maximul funcţiei f. • Deoarece f este omogenă de grad 0 în u (invariantă dacă u este transformat în gu, g fiind un scalar), este suficient să determinăm u încât max u’Eu u’Tu = 1 04 -Nov-20 36

Analiza discriminantă • Prin metoda multiplicatorilor lui Lagrange, se obţine, dacă matricea T este

Analiza discriminantă • Prin metoda multiplicatorilor lui Lagrange, se obţine, dacă matricea T este nesingulară, că u este vectorul propriu al matricei T-1 E relativ la cea mai mare valoare proprie l. • In plus, l = u’Eu, deci l este şi maximul căutat. • Din faptul că l este câtul dintre varianţa externă şi varianţa totală, rezultă că l < 1. • Pentru l se utilizează uneori denumirea de puterea discriminantă a lui u. 04 -Nov-20 37

Analiza discriminantă • Considerând cele mai mari valori proprii se determină astfel funcţiile discriminante

Analiza discriminantă • Considerând cele mai mari valori proprii se determină astfel funcţiile discriminante importante. • Prin analizarea coeficienţilor acestor funcţii se pot identifica variabilele care au un rol major în departajarea grupurilor. • Din fiecare funcţie discriminantă se pot calcula scorurile discriminante, adică valorile funcţiei pentru fiecare individ (observaţie). • Reprezentarea bidimensională a indivizilor, considerând drept coordonate scorurile produse de două funcţii discriminante oferă imaginea grupurilor (departajate prin însăşi logica analizei discriminante) şi oferă totodată informaţii despre funcţiile care departajează mai mult anumite grupuri. 04 -Nov-20 38