Statistic multivariat prezentat de Valentin Clocotici Analiza dispersional

  • Slides: 37
Download presentation
Statistică multivariată prezentată de Valentin Clocotici

Statistică multivariată prezentată de Valentin Clocotici

Analiza dispersională (1) Cursul nr. 4 03 -Mar-21 2

Analiza dispersională (1) Cursul nr. 4 03 -Mar-21 2

Analiza multivariată • Statistica multivariată conţine o mulţime de tehnici dedicate analizării seturilor de

Analiza multivariată • Statistica multivariată conţine o mulţime de tehnici dedicate analizării seturilor de date care privesc mai mult variabile. • Aceste tehnici nu sunt întotdeauna unitare ca prezentare (fiecare constituie subiectul unui tratat de sute de pagini) şi alegerea tehnicii adecvate este de multe ori dificilă. • Dintre tehnicile utilizate, se vor discuta în acest curs: – – – Analiza dispersionala ANOVA/MANOVA, Analiza regresională multiplă, Analiza covarianţei, Analiza în componente principale, Analiza corespondenţelor, Probleme de clasificare. • Alte tehnici vor fi trecute în revistă la ultimul curs. 03 -Mar-21 3

 • O schemă de alegere a tehnicii adecvate datelor experimentale ( http: //www.

• O schemă de alegere a tehnicii adecvate datelor experimentale ( http: //www. colorado. edu ) 03 -Mar-21 4

ANALIZA DISPERSIONALĂ • Utilizând teste de comparare, putem să comparăm oricâte populaţii, considerându‑le două

ANALIZA DISPERSIONALĂ • Utilizând teste de comparare, putem să comparăm oricâte populaţii, considerându‑le două câte două. • Această metodă nu este satisfăcătoare deoarece, atunci când creşte numărul de comparaţii, probabilitatea detecta, în mod eronat, o diferenţă semnificativă este mai mare decât nivelul de semnificaţie a fixat pentru fiecare test individual. • Atunci când creşte numărul de comparaţii, se măreşte riscul unei erori de speţa a I‑a. • Din acest motiv s-au dezvoltat tehnici specifice pentru comparaţii multiple. 03 -Mar-21 5

ANALIZA DISPERSIONALĂ • • Să considerăm cazul în care se studiază un grup de

ANALIZA DISPERSIONALĂ • • Să considerăm cazul în care se studiază un grup de subiecţi, caracterizat de două variabile dihotomice: bărbat/femeie şi urban/rural. Apar patru subgrupuri: bărbat+urban, bărbat+rural etc. Sunt 6 comparaţii între aceste grupuri. Dacă la o comparaţie se alege ca nivel de semnificaţie a = 0, 05 şi se presupune că testele sunt independente între ele, atunci P(nu se respinge H 0 în nici un test | H 0 este adevărată) = = (0, 95)6 = 0, 7351. Prin urmare probabilitatea evenimentului complementar este P(se respinge H 0 în cel puţin un test | H 0 este adevărată) = = 1 – (0, 95)6 = 1 – 0, 7351 = 0, 2649. Se poate spune că există o şansă de 26% de respingere a ipotezei nule deşi ea este adevărată. Reamintim că prin alegerea lui a = 0, 05, şansa era de 5%. Se observă astfel că, dacă se consideră mai multe teste de comparare, creşte probabilitatea de a accepta o diferenţă semnificativă acolo unde ea nu există. 03 -Mar-21 6

ANALIZA DISPERSIONALĂ • Apare astfel necesitatea dezvolta proceduri noi, care să nu mărească riscul

ANALIZA DISPERSIONALĂ • Apare astfel necesitatea dezvolta proceduri noi, care să nu mărească riscul apariţiei unor erori de speţa a I‑a, pentru analiza situaţiilor care implică comparaţii multiple. • Analiza dispersională este denumirea generică pentru o clasă întreagă de astfel de tehnici, dezvoltate pentru situaţiile în care influenţele unor variabile (factori) se însumează, influenţa globală putând fi evidenţiată ca parte a variaţiei unei variabile dependente. • Alt termen pentru analiza dispersională este analiza varianţei. Este frecventă utilizarea prescurtării ANOVA (din ANalysis Of Variance). 03 -Mar-21 7

ANALIZA DISPERSIONALĂ Termeni specifici • Existenţa mai multor populaţii (grupuri) este determinată de una

ANALIZA DISPERSIONALĂ Termeni specifici • Existenţa mai multor populaţii (grupuri) este determinată de una sau mai multe variabile (discrete) care fac distincţia între populaţii. • O astfel de variabilă este numită variabilă independentă. • Variabila după care se compară grupurile este numită variabilă dependentă. • O variabilă independentă mai este numită factor pentru că se consideră a fi unul dintre factorii care influenţează comportarea variabilei dependente. 03 -Mar-21 8

ANALIZA DISPERSIONALĂ • Unii cercetători utilizează pentru o variabilă independentă şi denumirea de efect

ANALIZA DISPERSIONALĂ • Unii cercetători utilizează pentru o variabilă independentă şi denumirea de efect principal, deoarece se urmăreşte efectul variabilei independente asupra variabilei dependente. – Denumirea nu este foarte fericită deoarece conduce la ideea de cauzalitate, care nu poate fi detectată numai prin metode statistice. • După numărul variabilelor independente, a factorilor, se distinge analiza dispersională unifactorială, bifactorială etc. , fiecare cu probleme specifice. • În continuare sunt prezentate cazurile cu unul sau doi factori, mai ales pentru că analizele cu mai mult de doi factori, posibile teoretic, sunt foarte dificil de interpretat în termeni reali. 03 -Mar-21 9

Teste privind egalitatea dispersiilor 03 -Mar-21 10

Teste privind egalitatea dispersiilor 03 -Mar-21 10

Teste privind egalitatea dispersiilor 03 -Mar-21 11

Teste privind egalitatea dispersiilor 03 -Mar-21 11

Teste privind egalitatea dispersiilor 03 -Mar-21 12

Teste privind egalitatea dispersiilor 03 -Mar-21 12

Teste privind egalitatea dispersiilor 03 -Mar-21 13

Teste privind egalitatea dispersiilor 03 -Mar-21 13

Teste privind egalitatea dispersiilor 03 -Mar-21 14

Teste privind egalitatea dispersiilor 03 -Mar-21 14

Teste privind egalitatea dispersiilor 03 -Mar-21 15

Teste privind egalitatea dispersiilor 03 -Mar-21 15

Analiza dispersională unifactorială Structura datelor • Valorile unei caracteristici X, sunt măsurate în k

Analiza dispersională unifactorială Structura datelor • Valorile unei caracteristici X, sunt măsurate în k eşantioane independente, obţinute din k populaţii. Populaţiile se consideră repartizate normal, cu mediile m 1, m 2, . . . , mk şi dispersiile egale • Formal, dispunem de k grupuri de valori, de volume n 1, n 2, …, nk notate, respectiv, cu A 1, A 2, …, Ak. • În sensul discuţiei generale, se poate considera că A 1, A 2, … sunt categoriile unei variabile (de obicei nominale) care diferenţiază grupurile. Această variabilă este variabila independentă a analizei. • Variabila X este variabila dependentă, variabila după care se compară populaţiile. 03 -Mar-21 16

Analiza dispersională unifactorială • Pentru verificarea ipotezei de egalitate a dispersiilor se va utiliza

Analiza dispersională unifactorială • Pentru verificarea ipotezei de egalitate a dispersiilor se va utiliza unul dintre testele prezentate anterior. • Problema care se cere rezolvată este să se stabilească dacă populaţiile pot fi considerate identice (omogene) din punctul de vedere al mediei caracteristicii X. • Observaţie. În cazul în care ipoteza normalităţii nu este îndeplinită (sau nu este verificată), erorile care se introduc nu sunt importante atunci când volumul eşantioanelor este suficient de mare (> 4) iar numărul grupurilor este relativ mic. 03 -Mar-21 17

Analiza dispersională unifactorială 03 -Mar-21 18

Analiza dispersională unifactorială 03 -Mar-21 18

Analiza dispersională unifactorială • Reamintim că baza oricărei aplicaţii statistice este variaţia valorilor unei

Analiza dispersională unifactorială • Reamintim că baza oricărei aplicaţii statistice este variaţia valorilor unei caracteristici (pentru un şir constant de valori nu este de interes nici o prelucrare). • În cazul structurării datelor într‑un tabel similar celui prezentat anterior se pune întrebarea cât din variaţia datelor poate fi atribuită apartenenţei la grupuri diferite – de exemplu: este de aşteptat ca x 12 să fie diferit de x 34 întrucât aparţin la grupuri diferite. • Acesta este variaţia sistematică a datelor, împărţirea în grupuri provenind de obicei din aceea că statisticianul se aşteaptă ca să apară diferenţe între grupuri – în caz contrar, dacă statisticianul nu s‑ar aştepta la asemenea diferenţe, nu ar avea sens să le marcheze la strângerea datelor. • Este evident atunci că o asemenea variaţie în date poate fi evidenţiată doar dacă nu este “acoperită” de sursele de variaţie neluate în considerare (cu alte cuvinte, dacă sursa de variaţie a împărţirii în grupuri este suficient de puternică). 03 -Mar-21 19

Analiza dispersională unifactorială • Prin metoda analizei dispersionale: – se evidenţiază variaţia datelor datorată

Analiza dispersională unifactorială • Prin metoda analizei dispersionale: – se evidenţiază variaţia datelor datorată împărţirii în grupuri; – se compară cu variaţia totală a datelor; – dacă se poate decide că sursa de variaţie a împărţirii în grupuri este suficient de puternică, atunci se consideră că populaţiile nu sunt omogene; – dacă sursa de variaţie respectivă este nesemnificativă, atunci se consideră că populaţiile sunt omogene. • Variaţia datorată diferenţelor dintre grupuri este definită ca variaţie explicată — partea din variaţia variabilei dependente explicată de variabila independentă. • Cu alte cuvinte, variaţia explicată este partea explicată de către împărţirea în grupuri. 03 -Mar-21 20

Analiza dispersională unifactorială • Variaţia, care rămâne după separarea variaţiei explicate, este definită drept

Analiza dispersională unifactorială • Variaţia, care rămâne după separarea variaţiei explicate, este definită drept variaţie reziduală (variaţia neexplicată) şi este datorată unor surse întâmplătoare de variaţie. • Variaţie explicată mai este denumită şi variaţie între grupuri (variaţia intergrupuri, exterioară), iar cea reziduală – variaţie în grupuri (variaţia intragrupuri, internă). • Rezumând, se poate considera că modelul de bază al analizei dispersionale afirmă că orice valoare a variabilei X este obţinută prin cumularea a două efecte, unul sistematic şi unul întâmpător: xij = efect sistematic (al nivelului Ai ) + + efect întâmplător (din nivelul Ai). 03 -Mar-21 21

Analiza dispersională unifactorială 03 -Mar-21 22

Analiza dispersională unifactorială 03 -Mar-21 22

Analiza dispersională unifactorială • Se demonstrează că are loc relaţia • Suma din partea

Analiza dispersională unifactorială • Se demonstrează că are loc relaţia • Suma din partea stângă reflectă variaţia globală a variabilei X (este suma pătratelor abaterilor întâlnită şi la calculul dispersiei). • Prima sumă din partea dreaptă a egalităţii reflectă variaţia valorilor în interiorul grupurilor (abaterea unei valori se calculează faţă de media grupului la care aparţine valoarea). • Ultima sumă reflectă variaţia dintre grupuri (este bazată pe abaterile de la media generală a mediilor grupurilor). 03 -Mar-21 23

Analiza dispersională unifactorială • Notăm: unde denumirile uzuale analizei dispersionale sunt: – SPg este

Analiza dispersională unifactorială • Notăm: unde denumirile uzuale analizei dispersionale sunt: – SPg este suma pătratelor globală, – SPexp este suma pătratelor explicată, iar – SPrez este suma pătratelor reziduală. Prin urmare cu interpretarea de descompunere a variaţiei globale în variaţia explicată şi variaţia reziduală. 03 -Mar-21 24

Analiza dispersională unifactorială • Cele trei sume de pătrate au, respectiv, următoarele grade de

Analiza dispersională unifactorială • Cele trei sume de pătrate au, respectiv, următoarele grade de libertate, notate corespunzător fiecărei sume: • Prin raportarea unei sume de pătrate la numărul ei de grade de libertate se obţine media pătratică. Astfel care, potrivit discuţiei de la introducerea dispersiei ca indicator al împrăştierii, caracterizează, respectiv, împrăştierile globală, explicată şi reziduală. 03 -Mar-21 25

Analiza dispersională unifactorială 03 -Mar-21 26

Analiza dispersională unifactorială 03 -Mar-21 26

Analiza dispersională unifactorială • Cu datele calculate potrivit formulelor prezentate se completează tabelul analizei

Analiza dispersională unifactorială • Cu datele calculate potrivit formulelor prezentate se completează tabelul analizei dispersionale unifactoriale, denumit frecvent tabelul ANOVA. • Deşi sunt interpretabile toate informaţiile din acest tabel, scopul principal este obţinerea valorii calculate F. 03 -Mar-21 27

Analiza dispersională unifactorială 03 -Mar-21 28

Analiza dispersională unifactorială 03 -Mar-21 28

Analiza dispersională unifactorială 03 -Mar-21 29

Analiza dispersională unifactorială 03 -Mar-21 29

Analiza dispersională unifactorială Modele analizei dispersionale unifactoriale • În funcţie de modul de stabilire

Analiza dispersională unifactorială Modele analizei dispersionale unifactoriale • În funcţie de modul de stabilire a grupurilor pot să apară două situaţii, după cum sunt considerate sau nu toate grupurile posibile de interes. – Grupurile corespund categoriilor unei scale nominale (ordinale), toate categoriile scalei fiind luate în considerare. În acest caz se spune că se studiază întreaga populaţie a surselor. Situaţia apare şi atunci când, prin convenţie, se consideră că se studiază întreaga populaţie a surselor. În acest caz se compară grupurile între ele, se obţin concluzii valabile pentru fiecare grup în parte. Acesta este modelul cu efecte sistematice (sau modelul 1). – Grupurile corespund unor surse alese întâmplător dintr‑o populaţie a surselor. In acest caz este important ca, pe lângă compararea grupurilor, să se obţină informaţii despre mulţimea tuturor surselor. Este ca şi cum, din multitudinea de categorii ale unei scale nominale (ordinale) se aleg la întâmplare câteva categorii, se obţin eşantioane din grupurile corespunzătoare categoriilor selectate, iar prelucrarea se efectuează asupra acestor eşantioane. Acesta este modelul cu efecte întâmpătoare (sau modelul 2). 03 -Mar-21 30

Analiza dispersională unifactorială • De exemplul, într‑o situaţie imaginată, să presupunem că într‑un birou

Analiza dispersională unifactorială • De exemplul, într‑o situaţie imaginată, să presupunem că într‑un birou sunt 5 operatoare şi sunt supuse toate unei investigaţii, cu înregistrarea valorilor la momente aleatorii de timp, pe parcursul unei săptămâni. Pentru a stabili omogenitatea celor cinci grupe de valori observate, cum s‑au considerat toate operatoarele, se va utiliza modelul cu efecte sistematice. • Dacă într‑o hală industrială sunt 100 de operatoare, dintre acestea se aleg 8 la întâmplare şi doar acestea sunt supuse investigării, atunci modelul adecvat este modelul cu efecte întâmplătoare, deoarece cele 8 grupe de valori s‑au obţinut aleator dintr‑o sută posibile, iar rezultatele trebuie să se refere la toate cele 100 de operatoare şi nu numai la cele 8 din grupul experimental. • Observatie. Indiferent de modelul aplicat, calculele care conduc la stabilirea tabelului ANOVA sunt aceleaşi. Diferenţele între modele apar la concluzii şi la obţinerea altor estimaţii. 03 -Mar-21 31

Analiza dispersională unifactorială Modelul cu efecte sistematice • • • În acest model, fiecare

Analiza dispersională unifactorială Modelul cu efecte sistematice • • • În acest model, fiecare grup (populaţie) este considerat separat, ca o entitate de interes în sine pentru cercetător, iar nu ca un element afectat de erori de sondaj, element extras aleator dintr‑o mulţime posibilă. Fiecare valoare de sondaj, xij, este obţinută atunci drept suma dintre valoarea medie a grupului (populaţiei) căruia îi aparţine, mi, şi o abatere (eroare) normal repartizată, eij, ceea ce este formalizat prin: Este de remarcat că erorile sunt proprii fiecărei observaţii, sunt independente între ele, dar au toate aceeaşi dispersie s 2. Aceste erori includ atât erorile sistematice, cât şi erorile aleatorii datorate surselor de variaţie care nu au fost considerate (sau sunt necunoscute). Considerarea unei aceleaşi dispersii exprimă matematic situaţia experimentală în care grupurile sunt subpopulaţii ale unei populaţii mai vaste. 03 -Mar-21 32

Analiza dispersională unifactorială 03 -Mar-21 33

Analiza dispersională unifactorială 03 -Mar-21 33

Analiza dispersională unifactorială 03 -Mar-21 34

Analiza dispersională unifactorială 03 -Mar-21 34

Analiza dispersională unifactorială 03 -Mar-21 35

Analiza dispersională unifactorială 03 -Mar-21 35

Analiza dispersională unifactorială 03 -Mar-21 36

Analiza dispersională unifactorială 03 -Mar-21 36

Analiza dispersională unifactorială 03 -Mar-21 37

Analiza dispersională unifactorială 03 -Mar-21 37