Tbbvltozs adatelemzs 10 elads Fkomponens elemzs Adatokban rejl
Többváltozós adatelemzés 10. előadás
Főkomponens elemzés • Adatokban rejlő belső összefüggések feltárására használják • Információsűrítésre alkalmas módszer • Különbséget kell tenni a főkomponens és az ún. főfaktor modellek között, mi csak a főkomponens modellekkel foglalkozun
Főkomponens modell • Adva van x 1, x 2, …, xn változó. Szeretnék lineáris kombináció segítségével olyan új mesterséges (látens) változót készíteni, aminek a varianciája maximális. y 1=a 1*x 1+a 2*x 2+…+an*xn
Főkomponens elemzés • A maximális variancia feladatot valamilyen korlát mellett kell elvégezni. A szokásos korlát az, hogy a lineáris transzformáció vektora egységnyi hosszúságú legyen: a 12+a 22+…+an 2=1 • Ok: Független változók esetén az összeg variancája a négyzetes súlyokkal péződij var(a 1*x 1+a 2*x 2)=a 12*var(x 1)+a 22*var(x 2)
Főkomponens elemzés • A továbbiakban feltételezzük, hogy x 1, x 2, …, xn változók ‘centrálva’ vannak (0 a várható értékük). Ha ez nem így lenne, akkor levonjuk belőlük az átlagot var(y 1)=y 1 Ty 1= =a 12 var(x 1)+a 22 var(x 2)+…+an 2 var(xn)+ +2 a 1 a 2 kovar(x 1, x 2)+2 a 1 a 3 kovar(x 1, x 3)+ +…. +2 an-1 ankovar(xn-1, xn)
Főkomponens elemzés • Var(y 1)=y 1 Ty 1=a. TCa, ahol ‘C’ a varianciakovariancia mátrix. • max(a. TCa), feltéve, hogy a. Ta=1 • L=a. TCa-λ(a. Ta-1) -> max • Deriváltat tegyük egyenlővé 0 -val: • Ca- λa=0 -> (C- λE)a=0 • Sajátérték feladat
Főkomponens elemzés • A variancia-kovariancia mátrix sajátértékei keressük. • A sajátértékekhez tartozó sajátvektorok adják a keresett lineáris kombinációt • A variancia-koariancia mátrix szimmetrikus és pozitív definit, ezért a sajátértékek pozitívok lesznek
Főkomponens elemzés • Amennyiben a kovariancia mátrixot elemezzük, az eredmény függ a változók skálájától, ha ez nem kívánatos, akkor sztenderdizálni kell a változókat, ami azt jelenti a gyakorlatban, hogy nem a kovariancia mátrixot, hanem a korrelációs mátrixot elemezzük.
Főkomponens elemzés • Sajátértékek összege megegyezik a diagonálisban lévő elemek összegével. Korrelációs mátrix esetén a diagonálisban végig 1 -esek szerepelnek, ezért a diagonálisban szereplő elemek összege (a mátrix nyoma) megegyezik a változók számával. Kovariancia mátrix esetén nincs ilyen összefüggés
Főkomponens elemzés Kiadások
Főkomponens elemzés
Főkomponens elemzés • Az SPSS (és általában a statisztikai csomagok) nem a sajátvektorok értékét adják meg, hanem az ún. ‘komponens’ mátrixot közli, ami kapcsolatban áll a sajátvektorokkal, de nem egyezik meg vele. • Az ún. ‘component loading’ megadja a főkomponensek és az eredeti változók közötti korrelációt
Főkomponens elemzés • Az x változók és a főkomponensek közötti korreláció: • kovar(X, Y)=XTY= XT(XA)=(XTX)A=ΛA, mivel A sajátvektorok mátrixa. • Amennyiben X mátrix sztenderdizált változókat tartalmaz, a ‘C’ kovariancia mátrix helyett R korrelációs mátrix szerepel • korrel(xi, yj)=kovar(xi, yj)/sqrt[var(xi)var(yj)]= =kovar(xi, yj)/sqrt[var(xi)*λj]
Főkomponens elemzés • Sztenderdizált x változók esetén: • korrel(xi, yj)=kovar(xi, yj)/sqrt[var(xi)*λj]= = λj*aj /sqrt[λj]=sqrt[λj]*aj • Tehát a komponens mátrixban szereplő értékek, nem egységnyi hosszúságú vektorok, hanem hosszuk a sajátérték gyöke
Főkomponens elemzés
Főkomponens elemzés • Főkomponens elemzés során tehát egy másik bázisban (a sajátvektorok alkotta bázisban) írjuk fel az adatokat. • A sajátvektorokat (az eredeti változók lineáris kombinációit) látens változóknak hívjuk • A sajátvektorok (főkomponensek) merőleges egymásra
Főkomponensek értelmezése • A főkomponens elemzés akkor segít, ha a főkomponenseknek jelentést tudunk adni • A főkomponensek értelmezésénél a komponens mátrix alapján azt vizsgáljuk, hogy melyik főkomponens melyik eredeti változóval korrelál
Főkomponensek értelmezése 1. főkomponens: nagyság 2. főkomponens: fejlesztés 3. (részben humán is) 3. Működtetési költségek 4. Pedagógus állomány
Főkomponensek értelmezése • A főkomponensek értelmezése nem mindig egyértelmű és nem mindig egyszerű feladat. • Akkor jó a főkomponensek értelmezhetősége ha az eredeti változók csak egy főkomponenssel korrelálnak erősen • Az előbbi példában nem ez a helyzet
Főkomponensek száma • Általában nem szoktuk az összes főkomponenset megtartani, csak a ‘jelentőseket’. • A főkomponensek jelentőségét a varianciájuk (sajátértékük) mutatja. • Alapbeállításként az 1 -nél nagyobb főkomponenseket tartjuk meg (1 eredeti változónyi információnál többet tartalmaznak)
Főkomponensek száma
Kommunalitás • Amennyiben nem tartjuk meg az összes főkomponenset, nem tudjuk az eredeti változók varanciáját teljes mértékben reprodukálni. • XTX=C=AΛA • Var(xi)=(ai*sqrt[λj])T*(ai*sqrt[λj]) • Ha csak r főkomponenst tartunk meg, a akkor a reprodukált variancia (a kommunalitás) a komponens mátrix első r elemének négyzetösszege
Kommunalitás 0, 846^2=0, 716
Kommunalitás 0, 846^2+(-0, 303)^2=0, 808
Kommunalitás • A kommunalitás értelmezhető R 2 mutatóként is. Valamelyik x változóra, mint eredményváltozóra regressziós modellt építünk a r db. Legnagyobb varianciájú főkomponens segítségével. A modell R 2 mutatója a kommunalitás.
Főkomponensek forgatása • Amennyiben nem tartjuk meg az összes főkomponenset, a jobb értelmezhetőség kedvéért a megoldást elrogathatjuk • Sokféle forgatás létezik, a legnépszerűbb a varimax forgatás, amely esetén a főkomponensek merőlegesek maradnak
Varimax forgatás • A komponens mátrix elemeit úgy forgatjuk, hogy az oszlopokban a variancia maximális legyen, feltéve, hogy a főkomponensek továbbra is merőlegesek. • A forgatás numerikusan egy iteratív folyamat végeredménye
Varimax forgatás
Főkomponens elemzés tulajdonságai • Amennyiben a korrelációs mátrixot elemezzük nem érzékeny a skálatranszformációra • A főkomponens elemzés érzékeny a változók közötti lineáris transzformációra
Főkomponens elemzés tulajdonságai
Főkomponens elemzés tulajdonságai • Nem ‘csoportosítható’: ha van 3 változónk, és mind a 3 változóra készítünk főkomponens elemzést, vagy először 2 -re készítünk főkomponens elemzést, és az elmentett főkomponensekkel és a 3. változóval készítünk újabb főkomponens elemzést különböző végeredményt kapunk
Főkomponens elemzés tulajdonságai
Előfeltételek • Egy adatbázison akkor érdemes főkomponens elemzést alkalmazni, ha megfelelő nagyságú összefüggőség áll fenn az adatok között. • Korrelációs mátrix determinánsa. Ha a magyarázó változók korrelálatlanok, akkor a determináns 1. Minél nagyobb az összefüggés az adatok között, annál közelebb van 1 -hez
Előfeltételek • KMO (Kaiser-Meyer-Olkin) mutató: a változók közötti korrelációs együttható és parciális korrelációs együtthatókat vizsgálja. Ha a mutató értéke 0, 5 felett van jelentős az összefüggés az adatokban. • Bartlett teszt: nullhipotézis: az elemzésbe bevont változók korrelálatlanok. A teszt előfeltétele a többdimenziós normális eloszlás.
További segítségek • Korrelációs mátrix inverze: parciális korrelációk kiszámításához nyújt segítséget • Anti-Image korrelációs mátrix: főátlójában a változónként számolt KMO értékek szerepelnek, főátlóján kívül a parciális korrelációk • Reprodukált korrelációs mátrix: ennek fődiagonálisában vannak a kommunalitások
Elemzés • Milyen összefüggések vannak a különböző tancsoportok számai között
Elemzés
Elemzés
Elemzés
Elemzés
Elemzés
Elemzés
Elemzés
Elemzés
- Slides: 44