Ekonometrija 6 Ekonometrija Osnovne studije Predava Aleksandra Nojkovi

  • Slides: 31
Download presentation
Ekonometrija 6 Ekonometrija, Osnovne studije Predavač: Aleksandra Nojković

Ekonometrija 6 Ekonometrija, Osnovne studije Predavač: Aleksandra Nojković

Struktura predavanja • Klasični višestruki linearni regresioni model-posebne teme: • Multikolinearnost - pojam i

Struktura predavanja • Klasični višestruki linearni regresioni model-posebne teme: • Multikolinearnost - pojam i posledice - metodi otkrivanja i otklanjanja - metod glavnih komponenata • Veštačke promenljive • Testiranje stabilnosti parametara

Pretpostavke KLRM (višestrukog) 1. 2. 3. 4. 5. 6. E(εi)=0, za svako i. Var

Pretpostavke KLRM (višestrukog) 1. 2. 3. 4. 5. 6. E(εi)=0, za svako i. Var (εi)=E(εi 2)=σ2, za svako i. Cov(εi, εj)=E(εiεj)=0, za svako i, j, tako da i≠j. E(εi. Xi)=0, za svako i. εi ~ N(0, σ2). Ne postoji tačna linearna zavisnost izmedu objašnjavajućih promenljivih ( tj. jedna objašnjavajuća promenljiva nije linearna funkcija druge).

Multikolinearnost ¡ Jedna od pretpostavki KLRM: odsustvo linearne zavisnosti između objašnjavajućih promenljivih. ¡ U

Multikolinearnost ¡ Jedna od pretpostavki KLRM: odsustvo linearne zavisnosti između objašnjavajućih promenljivih. ¡ U slučaju perfektne linearne zavisnosti nije moguće dobiti ocene parametara metodom ONK. Ako posmatramo populacionu regresionu jednačinu: E(Y)=β 0+β 1 X 1+β 2 X 2, koja se ocenjuje na bazi uzorka u kome važi: X 1 i=l 0 + l 1 X 2 i za svako i. ¡ ¡ Ocene parametara β 0, β 1 i β 2 nisu jednoznačne (dobija se sistem od dve jednačine sa tri nepoznata parametra, pokazati. . . ).

Dvostruki KLRM U modelu sa dve objašnjavajuće promenljive: Y =β 0+β 1 X 1+β

Dvostruki KLRM U modelu sa dve objašnjavajuće promenljive: Y =β 0+β 1 X 1+β 2 X 2 + ε, osnovni pokazatelj korelisanosti između objašnjavajućih promenljivih je koeficijent korelacije: ¡ ¡ Efekat dve ekstremne vrednosti za r (0 ili 1) se jasno uočava iz izraza za ocenu b 1:

Ocene ONK u dvostrukom KLRM ¡ Na primeru modela sa dve objašnjavajuće prom. (k=3),

Ocene ONK u dvostrukom KLRM ¡ Na primeru modela sa dve objašnjavajuće prom. (k=3), moguće je ocene dobijene metodom ONK izraziti preko koeficijenata korelacije kao:

Podsećanje: alternativno je moguće izraziti R 2 ¡ Zamenom ovako izraženih ocena u izraz

Podsećanje: alternativno je moguće izraziti R 2 ¡ Zamenom ovako izraženih ocena u izraz za izračunavanje R 2, dolazimo do veze sa tri jednostavna koeficijenta korelacije za model sa dve objaš. prom. : ¡ Daljim sređivanjem ovaj izraz postaje: odnosno

Dvostruki KLRM: visoka multikolinearnost ¡ Ako je |r| blizu vrednosti 1, smatra se da

Dvostruki KLRM: visoka multikolinearnost ¡ Ako je |r| blizu vrednosti 1, smatra se da je multikolinearnost visoka. ¡ Ocene ONK se mogu dobiti, ali se dovodi u pitanje njihova preciznost: ¡ Posledice: povećanje standardnih greški ocena, proširenje intervala poverenja (neprecizne ocene), smanjuju se t-odonosi (neopravdano prihvatanje H 0).

Multikolinearnost: dve ekstremna slučaja Perfektna multikolinearnost u višestrukom KLRM Y = XB + e,

Multikolinearnost: dve ekstremna slučaja Perfektna multikolinearnost u višestrukom KLRM Y = XB + e, znači da je rang matrice X ( dim. n x k) manji od k, odnosno matrica (X’X) postaje singularna, tako da nije moguće odrediti njenu inverznu matricu, a time ni vektor ocena B (B=(X’X)-1 X’Y). ¡ U suprotnom slučaju, kada su sve objašnjavajuće promenljive u regresionoj jednačini međusobno ortognalne (linearno nezavisne), ocene regresionih parametara u višestrukom modelu se svode na ocene iz jednostavnih regresija Y na svaki regresor posebno. ¡

Visoka multikolinearnost ¡ ¡ ¡ - - U praksi se gotovo nikad ne sreću

Visoka multikolinearnost ¡ ¡ ¡ - - U praksi se gotovo nikad ne sreću dva pomenuta ekstrema, odnosno izvestan stepen korelisanosti između objašnjavajućih promenljivih uvek postoji. Problem nastaje onda kada je korelisanost značajno izražena (nedostatak nezavisnih varijacija promenljivih na desnoj strani jednačine). Postoji više razloga za pojavu multikolinearnosti: U ekonomskim podacima, posebno podacima VS, može se očekivati visoka međuzavisnost promenljivih, budući da pokazuju tendenciju da svojom dinamikom prate opšte stanje privrede. Korišćenje promenljivih sa docnjom paralelno sa tekućim vrednostima u istom modelu. U modelu su prisutni regresori koji mere različite, ali međusobno zavisne aspekte ekonomskih performansi.

Neke od činjenica vezane za prisustvo multikolinearnosti ¡ ¡ ¡ Ocene ONK ostaju NLNO,

Neke od činjenica vezane za prisustvo multikolinearnosti ¡ ¡ ¡ Ocene ONK ostaju NLNO, ali značajnost ocenjenih parametara značajno opada. Nema jasnih kriterijuma koji nivo linearne zavisnosti je štetan za preciznost ocena regresionih korficijenata. Pitanje stepena, a ne postojanja (ne pravi se razlika između prisustva i odsustva multikolinearnosti). Isti nivo multikolinearnosti može imati različite efekte na rezultate ocenjivanja, u zavisnosti od opšte valjanosti modela. Odnosi se na stanje objašnjavajućih promenljivih, koje se u opštem slučaju smatraju nestohastičkim; karakteristika je uzorka, a ne populacije (meri se u svakom posebnom uzorku).

Problem multikolinearnosti? Nije pitanje „ima ili nema“ multikolinearnosti. ¡ Greene: Više pitanje stepena, tj.

Problem multikolinearnosti? Nije pitanje „ima ili nema“ multikolinearnosti. ¡ Greene: Više pitanje stepena, tj. „crvenila“ ¡ ¡ Podaci u uzorku su uvek manje ili više lin. zavisni, pa je pitanje „nijansi“.

Posledice visoke multikolinearnosti ¡ ¡ ¡ Ocene regresionih parametara mogu biti neprecizne, u smislu

Posledice visoke multikolinearnosti ¡ ¡ ¡ Ocene regresionih parametara mogu biti neprecizne, u smislu većih standardnih greški i širih intervala poverenja. Niže vrednosti t-statistika (pogrešan zaključak o potrebi izostavljanja pojedinih promenljivih iz modela). Visoka vrednost F-statistike je praćena niskim vrednostima t-statistika (uticaj regresora se ne može precizno razdvojiti). Ocene vrlo nestabilne, osetljive na promenu uzorka, moguće je dobiti i pogrešan znak regresionog koeficijenta (široki inter. poverenja). Ocene su vrlo osetljive na isključivanje pojedinih promenljivih (zbog visokih kovarijansi ocena).

Utvrđivanje postojanja multikolinearnosti Nije posledica svojstava osnovnog skupa, tako da ne postoje formalni testovi

Utvrđivanje postojanja multikolinearnosti Nije posledica svojstava osnovnog skupa, tako da ne postoje formalni testovi za njeno utvrđivanje (statistički testovi se zasnivaju na hipotezama o određenim vrednostima parametara osnovnog skupa). 1) Vrednost koeficijenta korelacije a) U dvostrukoj regresiji: - veće vrednosti koeficijenta korelacije r (0, 8 ili 0, 9) - korisno je poređenje r 2 i R 2 (izražena je multikolinearnost za r 2 veće od R 2 , odnosno r veće od ryx 1 i ryx 2. b) U višestrukoj regresiji (r nije pouzdan pokazatelj): - statistička značajnost pomoćnih regresija jedne objašnjavajuće promenljive na ostale u modelu (Kleinovo pravilo, kor. R 2≥ kor. Rj 2). ¡

Utvrđivanje postojanja multikolinearnosti (nastavak) 2) Faktor rasta varijanse (FRV; eng. Variance-Inflation Factor, VIF). a)

Utvrđivanje postojanja multikolinearnosti (nastavak) 2) Faktor rasta varijanse (FRV; eng. Variance-Inflation Factor, VIF). a) Za dvostruki linearni regresioni model (pokazati: prirast varijanse zbog pojave (1 -r 2) u brojiocu za varijansu ocene dvostruke u poređenju sa jednostavnom regresiji): b) Za višestruki regresioni model (slično, prisrast se javlja zbog pojave (1 -Rj 2) u brojiocu izraza za varijansu ocene višestruke u poređenju sa jednostavnom regresiom): gde je R 2 j koeficijent determinacije u modelu u kome je objašnjavajuća promenljiva Xj regresirana na ostale objašnjavajuće promenljive.

i odgovarajuće vrednosti FRVj 0 0. 5 0. 8 0. 95 0. 975 0.

i odgovarajuće vrednosti FRVj 0 0. 5 0. 8 0. 95 0. 975 0. 995 0. 999 1 2 5 10 20 40 100 200 1000

Tumačenje izračunatih vrednosti za FRV ¡ Za r=1 (odnosno Rj 2=1) vrednost nije moguće

Tumačenje izračunatih vrednosti za FRV ¡ Za r=1 (odnosno Rj 2=1) vrednost nije moguće odrediti. ¡ FRV je jednak 1 za objašnjavajuće promenljive koje su ortogonalne (za r=0, odnosno Rj 2=0). ¡ Vrednost FRV je veća za izraženiju multikolinearnost (visoka za vrednosti preko 10).

Šta raditi? U otklanjanju visoke mulikolinearnosti treba voditi računa o cilju istraživanja. - ništa

Šta raditi? U otklanjanju visoke mulikolinearnosti treba voditi računa o cilju istraživanja. - ništa ne preduzimati ako su t-odnosi veći od 2. - ako je cilj istraživanja previđanje: važnije je minimizirati s, od preciznog ocenjivanja parametara. Moguća rešenja: ¡ Povećanje obima uzorka (raste vrednost ∑x 1 i 2). ¡ Korišćenje spoljnih ocena (opravdanih eksternih ograničenja). ¡ Transformacija polaznih promenljivih. ¡ Izostavljanje iz modela one promenljive za koju se sumnja da je glavni uzrok visoke korelacije. ¡ Metod glavnih komponenata. ¡

Metod glavnih komponenata (engl. Principal Component Analysis, PCA) ¡ Predstavlja poseban slučaj faktorske analize.

Metod glavnih komponenata (engl. Principal Component Analysis, PCA) ¡ Predstavlja poseban slučaj faktorske analize. ¡ Omogućava otkrivanje i istovremeno otklanjanje nepoželjnih posledica multikolinearnosti. ¡ Konstruišu se nove promenljive, kao linearna kombinacija postojećih nezavisnih promenljivih. ¡ Nove promenljive (glavne komponente) se konstruišu tako da apsorbuju najveću moguću proporciju ukupnih varijacija nezavisnih promenljivih, a da su pri tome međusobno nezavisne (ortogonalne).

Metod glavnih komponenata (nastavak) ¡ Prva glavna komponenta apsorbuje maksimum proporcije ukupne varijacije u

Metod glavnih komponenata (nastavak) ¡ Prva glavna komponenta apsorbuje maksimum proporcije ukupne varijacije u skupu nezavisnih promenljivivh. ¡ Druga glavna komponenta apsorbuje maksimum od preostalih varijacija promenljivih nekorelisanih sa prvom komponentom, i tako dalje. ¡ Maksimalan broj glavnih komponenata jednak je broju nezavisnih promenljivih koje nisu međusobno potpuno linearno zavisne (otkriva se perfektna multikolinearnost).

Postupak izračunavanja glavnih komponenata ¡ Iz matrice podataka k (centriranih) objašnjavajućih promenljivih sa n

Postupak izračunavanja glavnih komponenata ¡ Iz matrice podataka k (centriranih) objašnjavajućih promenljivih sa n opservacija: gde svaki red predstavlja vrednosti svih objašnjavajućih prom. koje odgovaraju jednoj opservaciji, a svaka kolona predstavlja sve vrednosti jedne objašnjavajuće promenljive u uzorku. ¡ Potrebno je utvrditi koliki je broj nezavisnih promenljivih od ukupno k.

Postupak izračunavanja (nastavak) ¡ Ako je prva glavna komponenta predstavljena kao: l 1 i=

Postupak izračunavanja (nastavak) ¡ Ako je prva glavna komponenta predstavljena kao: l 1 i= a 11 x 1 i + a 12 x 2 i +. . . +a 1 kxki, (i=1, 2, …n) odnosno u matričnoj notaciji: l 1 = Xa 1, gde je l 1 vektor od n elemenata, a a 1 vektor od k elemenata. ¡ Suma kvadrata za l 1 je: l 1’ l 1 = a 1’X’Xa 1. ¡ Treba izabrati a 1 tako da se maksimizira suma varijacija regresora X (l 1’ l 1 ), uz uslov normalizacije (da ne bismo dobili beskonačnu vrednost): a 1‘a 1=1.

Izračunavanje prve glavne komponente Iz pomoćne funkcija Lagranžovih multiplikatora: L = a 1’X’Xa 1

Izračunavanje prve glavne komponente Iz pomoćne funkcija Lagranžovih multiplikatora: L = a 1’X’Xa 1 -λ 1(a 1’a 1 -1), uslov maksimuma se dobija izjednačavajući prvi izvod sa nulom: ¡ odakle proističe uslov: (X’X)a 1=λ 1 a 1. ¡ Dakle, a 1 je karakterističan vektor matrice X’X, koji odgovara korenu λ 1. ¡ Na taj način se dobija: l 1’ l 1 = a 1’X’Xa 1 = λ 1 a 1’a 1= λ 1, pa se λ 1 bira kao najveći karkteristični koren matrice X’X– prva glavna komponenta je upravo l 1. ¡ Ukoliko nema prefektne multikolinearnosti, matrica (X’X) će imati sve karakteristične korenove pozitivne, a njihova suma je jednaka k.

Izračunavanje druge glavne komponente ¡ Kod definisanja druge glavne komponente: l 2 = Xa

Izračunavanje druge glavne komponente ¡ Kod definisanja druge glavne komponente: l 2 = Xa 2, potrebno je izabrati pondere a 2 tako se maksimizira suma varijacija a 2’X’Xa 2, uz uslov normalizacije (a 2‘a 2=1), ali i dodatni uslov ortogonalnosti na prvu glavnu komponentu (a 1‘a 2=0). Iz Lagranžove funkcije: L = a 2’X’Xa 2 -λ 2(a 2’a 2 -1)-μ 2(a 1‘a 2), prvi izvod izjednačen sa nulom postaje: ¡ ¡ λ 2 biramo kao drugi po veličini karkteristični koren matrice X’X , a elementi odgovarajućeg karak. vektora su ponderi uz nezavisne prom. pri formiranju druge glavne komponente. ¡ Na sličan način izračunavamo pondere uz objašnjavajuće prom. treće glavne komponente, itd.

Postupak izračunavanja (nastavak) ¡ ¡ ¡ Ako matrica X’X ima k karakterističnih korenova većih

Postupak izračunavanja (nastavak) ¡ ¡ ¡ Ako matrica X’X ima k karakterističnih korenova većih od nule, moguće je karakteristične vektore izraziti kao ortogonalnu matricu: A=[a 1 a 2. . . ak], a k glavnih komponenata matrice X kao matricu (n x k): L=XA. Glavne komponente su međusobno ortogonalne, a njihove varijanse date su karakterističnim korenovima: Koliko je procenata varijacija svih regresora obuhvatila svaka glavna komponenta, meri se kao: λj/Σλj.

Broj izdvojenih glavnih komponenata ¡ Ako je rang matrice X’X manji od njenog reda,

Broj izdvojenih glavnih komponenata ¡ Ako je rang matrice X’X manji od njenog reda, r < k (u slučaju perfektne multikolinearnosti (k-r) od ukupno k karakterističnih korenova je jednako nuli), pa se ukupne nezavisne varijacije regresora mogu izraziti preko samo r nezavisnih komponenata. ¡ Maksimalan broj glavnih komponenata jednak je broju nezavisnih varijabli koje nisu međusobno perfektno linearno zavisne. ¡ Ako se u analizi zadrži svih k glavnih komponenata (koliko je nezavisnih promenljivih), rezultat ocenjivanja je identičan ocenama po metodi NK.

Zadržavanje glavnih komponenata u analizi ¡ ¡ 1) 2) 3) ¡ Kad postoji k

Zadržavanje glavnih komponenata u analizi ¡ ¡ 1) 2) 3) ¡ Kad postoji k karakterističnih korenova većih od nule (nema perfektne multikolinearnost), znatno manji broj glavnih komponenata se zadrži u analizi. Kriterijumi za odluku o zadržavanju glavnih komponenti: Procenat varijacija nezavisnih promenljivih koje glavne komponente obuhvataju (u parksi se npr. odredi najmanje 95% varijacija). Vrednost karakterističnih korenova (npr. prem Kajzerovom pravilu, samo korenovi veći od 1). Visina koeficijenata aij (npr. sugeriše se zadržavanje samo koeficijenata koji su u aposlutnoj vrednosti veći od 0. 3 za uzorke veće od 50 opservacija). Postoje razni testovi značajnosti karakterističnih korenova ili koeficijenata u glavnoj komponenti.

Osnovni prigovori metoda glavnih komponenata ¡ Prva glavna komponenta ne mora da bude i

Osnovni prigovori metoda glavnih komponenata ¡ Prva glavna komponenta ne mora da bude i najviše korelisana sa Y. ¡ Nove promenljive (linearna kombinacija različitih veličina) su veštačke – bez teorijskog značenja. ¡ Ne koriste se sve informacije sadržane u uzorku (po pravilu se zadržava manje objašnjavajućih promenljivih nego u originalnom modelu.

Primer: primena MGK (PCA)

Primer: primena MGK (PCA)

Promenjive kojima se mere inicijalni uslovi IC 1 GNPpc at PPP US$ 1989 IC

Promenjive kojima se mere inicijalni uslovi IC 1 GNPpc at PPP US$ 1989 IC 2 Urbanization (% of population) 1990 IC 3 Distribution of 1990 GDP cur prices industry IC 4 Distribution of 1990 GDP cur prices agriculture IC 5 Distribution of 1990 GDP cur prices services IC 6 Predicted share of industry IC 7 Average % growth 1985 -89 IC 8 Natural resources IC 9 Location IC 10 Repressed inflation 1987 -90 IC 11 Black market premium 1990 (%) IC 12 Trade dependence 1990 (% ) IC 13 Years under central planning IC 14 State IC 15 Exports to GDP 1990

Problemi primeni metode glavnih komponenata 1) 2) 3) Redosled izbora glavnih komponenata ne odgovara

Problemi primeni metode glavnih komponenata 1) 2) 3) Redosled izbora glavnih komponenata ne odgovara uvek redosledu njihove važnosti u pogledu determinisanja zavisne promenljive. Novodobjene veštačke promenljive (glavne komponente) su bez nekog teorijskog smisla. Metod ne koristi sve informacije iz uzorka, nego se obično svodi na manje nezavisno promenljivih veličina nego što ih je bilo u originalnoj funkciji.