Analza hlavnch komponentov PCA Principal Component Analysis Viacrozmern

  • Slides: 30
Download presentation
Analýza hlavných komponentov (PCA – Principal Component Analysis)

Analýza hlavných komponentov (PCA – Principal Component Analysis)

Viacrozmerné metódy X 1 X 2 X 3 X 4 X 5 X 6

Viacrozmerné metódy X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 X 11 1 2 3 4 5 n n>p Xp

Metódy analýzy skrytých vzťahov

Metódy analýzy skrytých vzťahov

Často v praxi vzniká problém : začiatočný počet premenných, popisujúcich objekty (pozorovania) je vysoký

Často v praxi vzniká problém : začiatočný počet premenných, popisujúcich objekty (pozorovania) je vysoký a naviac premenné sú vzájomne korelované (problém multikolinearity). zjednodušením môže byť vytvorenie menšieho počtu znakov (premenných) bez podstatnej straty informácie K riešeniu tohto problému boli vytvorené dve metódy: • Analýza hlavných komponentov – Principal Components. Analysis– PCS • Faktorováanalýza –Factor Analysis- FA PCA a FA patria do metód analýzy skrytých vzťahov a metód zníženia dimenzie

Metódy analýzy skrytých vzťahov • premenné nemožno logicky rozdeliť dodvoch skupín na závislé a

Metódy analýzy skrytých vzťahov • premenné nemožno logicky rozdeliť dodvoch skupín na závislé a nezávislé • cieľom je pochopiť alebo identifikovať prečo a ako sú premenné navzájom korelované t. j. ako sa navzájom ovplyvňujú • ak sú premenné navzájom prepojené –korelované, možno rovnaký objem informácií vystihnúť menším počtom premenných –zníženie dimenzie • Obe metódy vychádzajú z analýzykovariačnej resp, korelačnej matice pôvodných premenných a pokúšajú sa nájsť skryté – nemerateľné- latentné prememnné. Tieto premenné sa nedajú merať, ale majú schopnosť vecnej interpretácie.

Analýza hlavných komponentov, PCA Aplikácie PCA Finančný analytik - zistenie finančného zdravia firmy. Na

Analýza hlavných komponentov, PCA Aplikácie PCA Finančný analytik - zistenie finančného zdravia firmy. Na základe veľkého počtu ukazovateľov znakov(napr. 120), ktoré sú použiteľné a medzi ktorými je korelácia je nákladné, náročné a ťažko interpretovateľné hodnotenie finančného zdravia podniku). Úloha analytika: vytvorenie menšieho počtu ukazovateľov (3, viac), resp. indexov, ktoré sú lineárnymi kombináciami pôvodných 120 ukazovateľov (napr. DIJA) Marketingový manažér – vytvorenie regresného modelu predpoveď predaja – problém multikolinearity zvolených premenných (skreslenie štd. odchýlok). . snaha o vytvorenie nových premenných , ktoré sú lineárnymi kombináciami pôvodných premenných , ale už nebudú korelované. Pre regresný model bud použité nové premenné Kontrola kvality – snaha vytvoriť z dostupných ukazovateľov nové zložené ukazovatele (indexy ) o procese výroby – využitie pri kontrole kvality

Analýza hlavných komponentov • Charakteristika • predmetom analýzy je skupina kvantitatívnych premenných • je

Analýza hlavných komponentov • Charakteristika • predmetom analýzy je skupina kvantitatívnych premenných • je metóda, ktorá umožňuje vytváraťnové premenné, ktoré sú lineárnou kombináciou pôvodných premenných • nové premenné sa nazývajú hlavné komponenty(HK) • Cieľ • Identifikácia odľahlých pozorovaní, resp. vplyvných pozorovaní (outliers) • Zníženie dimenzie (premenných) viacrozmernej analýzy • Odstránenie závislosti medzi premennými, následné použitie HK v zhlukovej analýze, pri tvorbe regresných modelov na odstránenie multikolinearity

Matematické a geometrické vyjadrenie hlavných komponentov premenné X 1 X 2 X 3 X

Matematické a geometrické vyjadrenie hlavných komponentov premenné X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 X 11 1 2 3 4 5 n XP

Analýza hlavných komponentov • Každá štatistická jednotka je charakterizovaná viacerými ukazovateľmi (premenné, znaky), predstavuje

Analýza hlavných komponentov • Každá štatistická jednotka je charakterizovaná viacerými ukazovateľmi (premenné, znaky), predstavuje body v prozmernom priestore • Každá z pôvodných premenných má v súbore nejakú variabilitu, meranú rozptylom. Rozptyl je nositeľom informácie. • Pozn. Ak premenná nemá pre dané pozorovania žiadnu variabilitu • všetky pozorovania majú rovnakú hodnotu, • nemôže na základe tejto premennej pozorovania odlíšiť a teda nám nedáva žiadnu informáciu o ich charaktere • Celkový objem informácie získame súčtom rozptylov jednotlivých premenných

Analýza hlavných komponentov • PCA je ordinálna metóda, ktorá umožňuje redukovať počet dimenzií v

Analýza hlavných komponentov • PCA je ordinálna metóda, ktorá umožňuje redukovať počet dimenzií v euklidovskom priestore (definovanom korelovanými premennými ) tak, aby nedošlo k strate informácií • Pôvodných p vzájomne korelovaných (pozorovaných) premenných je nahradených novými q vzájomne nekorelovanými (ortogonálnymi) nemerateľnými „syntetickými“ premennými tak, že prvá nová súradnicová os (prvý HK) je vedená v smere maximálnej variability medzi objektmi (štatist. jednotkami). Druhá os (druhý HK) je kolmá na prvú os a je vedená v smere druhej najväčšej variability medzi objektmi, atď. • Relatívna pozícia objektov v pôvodnom priestore a v novom priestore (danom HK) je rovnaká. T. zn. pôvodný súradnicový systém sa natáča do smeru max. variability medzi objektmi, pričom euklidovské vzdialenosti medzi objektmi sa zachovávajú.

PCA - hlavné komponenty v základnom súbore Cieľ PCA: nájdenie skutočného (nového) rozmeru, v

PCA - hlavné komponenty v základnom súbore Cieľ PCA: nájdenie skutočného (nového) rozmeru, v ktorom sa údaje nachádzajú. Pre splnenie tejto úlohy je výhodné určiť nové súradnicové osi tak, aby platili podmienky V 1 až V 5 • V 1 Vzájomná poloha bodov v p-rozmernom priestore (pozorovaní) sa nemení. Nové osi predstavujú nové umelé premenné - hlavné komponenty, HK. Nové hodnoty premenných na štatistických jednotkách (pozorovaniach) nazývame komponentové body (komponentové skóre). • V 2 Každá z nových premenných je lineárnou kombináciou pôvodných ppremenných • V 3 Nové premenné – HK, ktorých počet je max. p sú navzájom (po dvojociach) nekorelované. • V 4. Prvý HK vysvetľuje najväčšiu časť variability údajov, preto je najdôležitejší. Myslí sa tým naväčšiu časť zo súčtu rozptylov všetkých p pôvodných premenných. • V 5 Každý ďalší HK vysvetľuje čo najväčšiu časť zo zostávajúcej variability údajov tak, že na posledný komponent ostane len nepatrný zvyšok

PCA predpokladajme, že súbor pôvodných p – premenných X 1, X 2, . .

PCA predpokladajme, že súbor pôvodných p – premenných X 1, X 2, . . . , Xp transformujeme na nové premenné Y 1, Y 2, . . . , Yp – hlavné komponenty premenné hlavné komponenty X 1 X 2 X 3 X 4 X 5 X 6 1 2 3 4 5 Xp Y 1 Y 2 Y 3 PCA p q n Y 1 = a 11 x 1 + a 12 x 2 + a 13 x 3 + …. + a 1 p xp Y 2 = a 21 x 1 + a 22 x 2 + a 23 x 3 + …. + a 2 p xp. . . Yq

Analýza hlavných komponentov • Hlavné komponenty sú lineárnou kombináciou pôvodných premenných hlavné komponenty aij

Analýza hlavných komponentov • Hlavné komponenty sú lineárnou kombináciou pôvodných premenných hlavné komponenty aij koeficienty saturácie, váhy Y 1 = a 11 x 1 + a 12 x 2 + a 13 x 3 + …. + a 1 p xp Y 2 = a 21 x 1 + a 22 x 2 + a 23 x 3 + …. + a 2 p xp Y 3 = a 31 x 1 + a 32 x 2 + a 33 x 3 + …. + a 3 p xp …. Yp = ap 1 x 1 + ap 2 x 2 + ap 3 x 3 + …. + app xp Hlavné komponenty Yi • maximálne možno vytvoriť rovnaký počet HK ako pôvodných premenných, • každý HK je lineárnou kombináciou pôvodných premenných, • nové premenné sú navzájom nekorelované (nezávislé)

Analýza hlavných komponentov HK sú odhadnuté tak, že • 1. HK vystihuje maximálny objem

Analýza hlavných komponentov HK sú odhadnuté tak, že • 1. HK vystihuje maximálny objem informácií pôvodných premenných (max. podiel rozptylu) • 2. HK vystihuje maximálny objem z informácií pôvodných premenných, ktoré neboli vystihnuté 1. HK • 3. HK vystihuje maximálny objem z informácií pôvodných premenných, ktoré neboli vystihnuté 1. a 2. HK • atď.

Analýza hlavných komponentov Koeficienty, váhy HK, saturácie aij sú odhadované tak, že • •

Analýza hlavných komponentov Koeficienty, váhy HK, saturácie aij sú odhadované tak, že • • sú splnené podmienky V 1 až V 5. celková variabilita sa nezmení , t. j. rozptyl nových a pôvodných premenných sa rovná 1, t. j. • aij 2 = 1 ai 12 + ai 22 +. . + aip 2 = 1, pre každé i=1, 2, . . . p (zabezpečuje, aby sa nezmenila variabilita HK oproti pôvodným premenným Xi) • ai 1 aj 1 + ai 2 aj 2 + …. + aipajp = 0 pre i j i, j =1, 2, . . . , p • (zabezpečuje nezávislosť nových premenných, čiže HK)

PCA – úprava údajov Pred odhadom je potrebné rozhodnúť, z akých údajov sa bude

PCA – úprava údajov Pred odhadom je potrebné rozhodnúť, z akých údajov sa bude vychádzať, upraviť pôvodné pňremenné: ak majú rovnakú mernú jednotku • je potrebné brať do úvahy centrované hodnoty, aby sme odstránili posun v strednej hodnote: Kovariačná matica ak majú rôzne merné jednotky • je potrebné brať do úvahy normované (štandardizované) hodnoty, aby sme ich previedli na spoločný základ: Väčšinou sa pracuje s korelačnou maticou

Podľa vstupných údajov: • Centrovaná PCA – vychádzame z kovariančnej matice, centrovanie znakov •

Podľa vstupných údajov: • Centrovaná PCA – vychádzame z kovariančnej matice, centrovanie znakov • Štandardizovaná PCA – vychádzame z korelačnej matice, Centrovanie a preškálovanie premenných, normovanie premenných • Necentrovaná PCA – vychádzame z pôvodných premenných.

Analýza hlavných komponentov • vlastnosti hlavných komponentov • • E(Yi)= 0 D(Yi) = i

Analýza hlavných komponentov • vlastnosti hlavných komponentov • • E(Yi)= 0 D(Yi) = i D(Y 1) D(Y 2) D(Y 3) …. D(Yp) = 1 2 3. . . p cov (Yi, Yj) = 0 , pre i ≠ j • odhad hlavných komponentov • | S - I | = 0, kde S je výberová kovariančná matica výsledkom výpočtu sú vlastnéčísla matice 1 i, i=1, 2, . . . p • vlastné čísla matice sú odhadom variability HK • D(Yh)=s 2(Yh) = h • | S - h. I | Ah = 0 výsledkom sú saturácie preh-tý HK, váhy aij pôvodných premenných Xj pri tvorbe i-tého komponentu.

Analýza hlavných komponentov • podiel variability vysvetlený q-tým HK • celkový rozptyl (variabilita) s

Analýza hlavných komponentov • podiel variability vysvetlený q-tým HK • celkový rozptyl (variabilita) s 2(Yh) = h • podiel variability vysvetlenýh-tým komponentom h / h

PCA – určenie počtu HK • aký počet komponentov uvažovať • podľa vlastnej úvahy

PCA – určenie počtu HK • aký počet komponentov uvažovať • podľa vlastnej úvahy • o potrebe zachovania informácií (90%) • Kaiserovo kritérium • ak h > priemer( ), potom h-tý HK je štatisticky významný, • kde priemer( pr. ) = (1/p) h

Analýza hlavných komponentov • aký počet komponentov uvažovať • Testom sféričnosti (Anderson). . ,

Analýza hlavných komponentov • aký počet komponentov uvažovať • Testom sféričnosti (Anderson). . , že len prvých q HK je významných • H 0 : q+1= q+2= …. = p = 0 • H 1 : neplatí H 0 • začneme q=0 => ak platí H 1 => HK 1 je štat. významný • pokračujeme, kým sa nepotvrdí H 0 Testovacie krotérium V má CHÍ- kvadrát rozdelenie

Interpretácia výsledkov • Komponentové skóre (component scores)- predstavuje súradnice objektu v novom priestore definovanom

Interpretácia výsledkov • Komponentové skóre (component scores)- predstavuje súradnice objektu v novom priestore definovanom HK-ami. Jeho hodnotu pre j-tú štatist. jednotku (j=1, 2, . . . , n) v i-tom komponente vypočítame podľa: yij= aij(x. J –xpr. ) • Vlastné vektory – kosínusy (eigen vectors) - vyjadrujú smer vektorov, ktoré charakterizujú vplyv pôvodných znakov na komponenty. Čísla (prvky) vlastných vektorov predstavujú komponentové váhy (saturácie) jednotlivých premenných pri tvorbe príslušného komponentu. Čím je hodnota aij vyššia, tým viac informácie o pôvodnej premennej Xj vysvetľuje komponent Yi. Dôležité je zistiť, všetky prememenné s vysokými váhami pre daný komponent. Komponent je potom tým javom (latentným znakom), ktorý stojí v pozadí premenných a snažíme sa ho vhodne interpretovať. Aká vysoká má byť váha? Obvykle sa ako vysoká váha považuje, ak I(aij )I>0, 5.

PCA – Komponentové skóre Table of Principal Components Component Row Label 1 2 1

PCA – Komponentové skóre Table of Principal Components Component Row Label 1 2 1 Integra -1. 49203 0. 00673575 2 Legend 2. 37408 -0. 247278 3 90 0. 165636 -0. 261873 4 100 2. 23212 1. 01524 5 535 i 1. 52815 -2. 15174 6 Century 0. 723227 1. 39817 7 Le. Sabre 3. 46805 0. 778351 8 Roadmaster 6. 6603 0. 133406 9 Riviera -1. 07736 2. 24466 STATGRAPHICS

Komponentové váhy - saturácie Table of Component Weights Component 1 2 Engine Size 0.

Komponentové váhy - saturácie Table of Component Weights Component 1 2 Engine Size 0. 332726 -0. 133891 Horsepower 0. 268123 -0. 442852 Fueltank 0. 311244 -0. 210124 Passengers 0. 238683 0. 530291 Length 0. 335379 0. 02122 Wheelbase 0. 335386 . 0610323 Width 0, 324896 -0, 134248 U Turn Space 0, 299218 . 0830471 Rear seat 0, 231256 0, 3351 Luggage 0, 276494 0, 322776 Weight 0, 337017 0. 206599 The weights

PCA - Interpretácia výsledkov • Vlastné čísla h (eigenvalue) - vyjadrujú objem variability ,

PCA - Interpretácia výsledkov • Vlastné čísla h (eigenvalue) - vyjadrujú objem variability , ktorá je zachytená príslušným komponentom. Z hľadiska interpretácie nie sú dôležité konkrétne hodnoty , ale vyjadrenie ich podielu na celkovom rozptyle h / h • Koeficienty korelácie - koeficient korelácie vyjadruje na koľko daná pôvodná Xi ovplyvňuje nový HK Yi • čím je koeficient vyšší, o to viac vplýva pôvodná premenná na nový HK • možno interpretovať v zmysle nových premenných r(xj, Yh)= ajh. h/sj • Ordinačné grafy objektov (pozorovaní ) - zobrazujú štatistické jednotky – objekty v súradnicovom systéme pôvodných premenných

Vlastné čísla Principal Components Analysis Component Percent of Cumulative Number Eigenvalue Variance Percentage 1

Vlastné čísla Principal Components Analysis Component Percent of Cumulative Number Eigenvalue Variance Percentage 1 7. 92395 72. 036 2 1. 32354 12. 032 84. 068 3 0. 47071 4. 279 88. 347 4 0. 353248 3. 211 91. 559 5 0. 269048 2. 446 94. 004 6 0. 190242 1. 729 95. 734 7 0. 172892 1. 572 97. 306 8 0. 107148 0. 974 98. 280 9 0. 0824071 0. 749 99. 029 10 0. 0694689 0. 632 99. 660 11 0. 0373497 0. 340 00. 00

Výstupy – scree plot

Výstupy – scree plot

PCA – interpretácia výsledkov • Ordinačné grafy znakov (premenných) zobrazujú pôvodné premenné v novom

PCA – interpretácia výsledkov • Ordinačné grafy znakov (premenných) zobrazujú pôvodné premenné v novom súradnicovom systéme HK. Vplyv znaku na HK sa interpretuje tak, , že sa porovnávajú vektory jednotlivých znakov (spájajú nulový bod súradnicovej sústavy s príslušným znakom). Čím je vektor dlhší, tým je pôsobenie znaku silnejšie a čím je uhol medzi vektorom a príslušnou komponentovou osou menší, tým je vplyv znaku silnejší na daný komponent. • Biploty – zobrazujú pozorovania aj znaky ma jednom grafe, ktorého súradnicové osi tvoria zvolené komponenty. Umožňujú tak lepšiu interpretáciu podielu pôvodných znakov na komponenty. • Detekcia odľahlých pozorovaní v údajoch je možná na základe zobrazenia pozorovaní na priemete hlavného komponentu

PCA –nauč sa: úlohy metódy podmienky použitia Princíp metódy , jej podstata Výsledky, interpretácia

PCA –nauč sa: úlohy metódy podmienky použitia Princíp metódy , jej podstata Výsledky, interpretácia numerických a grafických výstupov aplikácie