Statistic multivariat prezentat de Valentin Clocotici Noiuni introductive

  • Slides: 38
Download presentation
Statistică multivariată prezentată de Valentin Clocotici

Statistică multivariată prezentată de Valentin Clocotici

Noţiuni introductive (recapitulare - 1) Cursul nr. 1 31 -Oct-20 2

Noţiuni introductive (recapitulare - 1) Cursul nr. 1 31 -Oct-20 2

Ce este statistica? • Statistica este un corp de metode utilizate pentru a aduna,

Ce este statistica? • Statistica este un corp de metode utilizate pentru a aduna, a descrie şi a analiza date numerice. • Statistica se concentrează pe reprezentările numerice ale diferitelor aspecte ale realităţii, adică asupra a ceea ce poate fi numărat, măsurat sau cuantificat. • Nu toate aspectele unei realităţi care se studiază au caracter numeric; în aceste situaţii, posibilitatea de utilizare a unei codificări numerice asigură unele prelucrări statistice. 31 -Oct-20 3

Ce este statistica? • Metodele statisticii pot fi împărţite în două categorii: statistica descriptivă

Ce este statistica? • Metodele statisticii pot fi împărţite în două categorii: statistica descriptivă şi statistica inferenţială. • Clasificarea este mai mult teoretică; în practică, aceste aspecte se întrepătrund în majoritatea analizelor statistice. • Noţiunile centrale sunt: – populaţie statistică = mulţimea elementelor studiate, – eşantion = submulţime a unei populaţii statistice, – variabilă = fiecare faţetă de interes a realităţii studiate, fiecare atribut urmărit al unui element din populaţia statistică, – distribuţia (valorilor) unei variabile = “mulţimea” tuturor valorilor (nu neapărat distincte). 31 -Oct-20 4

Ce este statistica? • Statistica descriptivă constă în exact ceea ce spune numele: sunt

Ce este statistica? • Statistica descriptivă constă în exact ceea ce spune numele: sunt metode de descriere. • Necesitatea descrierii unei variabile este impusă de variaţia valorilor variabilei. • Descrierea este, de regulă, sub formă numerică. • Pentru a constitui informaţie utilizabilă, descrierea trebuie să fie succintă. De aici apariţia rezumatelor statistice (statistici) cum ar fi media, dispersia etc. • Orice descriere necesită cheltuieli şi din acest motiv, ca şi din altele, datele prelucrate sunt valoroase şi trebuie să fie tratate ca atare. • Orice descriere este afectată de erori. 31 -Oct-20 5

Ce este statistica? • Statistica inferenţială constă în tehnicile prin care se pot deduce

Ce este statistica? • Statistica inferenţială constă în tehnicile prin care se pot deduce (infera) caracteristicile unei populaţii din observaţiile efectuate asupra unui eşantion din acea populaţie. • Tehnicile statisticii inferenţiale sunt impuse de faptul că, în marea majoritate a cazurilor, este de interes descrierea populaţiei şi nu a eşantionului observat. • Generalizarea la nivelul populaţiei a unui rezultat propriu unui eşantion este, de multe ori, implicită: – în urma unui studiu pe 1000 de persoane s-a observat că 52% beau apă plată; este evident că rezultatul este comunicat ca fiind ataşat populaţiei şi nu celor 1000 de persoane. – Sondajul din data de … arată că 38% dintre alegători vor vota cu … (aceeaşi situaţie ca mai sus) – La alegerile din … 33% dintre voturi au fost pentru … (aici este o simplă comunicare descriptivă) 31 -Oct-20 6

Ce este statistica? • Atunci când sunt implicate eşantioane şi populaţii trebuie să se

Ce este statistica? • Atunci când sunt implicate eşantioane şi populaţii trebuie să se păstreze distincţia dintre rezumatele statistice de la nivelul eşantionului şi cele de la nivelul populaţiei, mai ales că formulele de calcul sunt similare (până la identitate). • Descrierile numerice (rezumatele statistice) de la nivelul populaţiei sunt parametrii populaţiei: media populaţiei, abaterea standard aa populaţiei etc. • Descrierile numerice (rezumatele statistice) de la nivelul eşantionului sunt denumite statistici. • In cadrul inferenţei statistice, statisticile sunt estimaţii (aproximări) ale parametrilor. • De menţionat că termenul “aproximare” nu are nuanţă de minimalizare, cel puţin atât timp cât însăşi descrierea este “aproximativă”. 31 -Oct-20 7

Calitatea informaţiei • Valoarea unei informaţii poate fi privită ca – valoare istorică, –

Calitatea informaţiei • Valoarea unei informaţii poate fi privită ca – valoare istorică, – valoare de comparaţie, – valoare de prognoză (predictivă). • Ordinea precizată la punctul anterior fixează şi gradul de complexitate, de utilitate a informaţiei. • Prelucrările statistice sunt necesare tocmai pentru a obţine informaţii cu valori mari, pentru a avea o valoare de comparaţie, o valoare de predicţie. • Valoarea istorică este dată de ataşarea la un anumit moment istoric. – De regulă, orice rezultat statistic are această valoare, chiar dacă se acceptă uzual unele compromisuri: în 1959 populaţia era de 16, 1 milioane iar în 1960 era de 16, 11 milioane; imaginaţi-vă că studiul din 1959 a fost în decembrie, cel din 1960 în ianuarie … 31 -Oct-20 8

Calitatea informaţiei • Valoarea de comparaţie este conferită de posibilitatea de a utiliza o

Calitatea informaţiei • Valoarea de comparaţie este conferită de posibilitatea de a utiliza o anumită informaţie pentru a compara situaţii diferite: momente de timp, locuri etc. – De exemplu, dacă în Iaşi sunt 15300 de absolvenţi de învăţământ superior iar în Paşcani sunt 1650, cele două numere se pot compara doar mecanic, fără a obţine nimic nou: cum populaţiile celor două oraşe sunt diferite ca număr, acelaşi lucru trebuie să se întâmple şi cu numărul absolvenţilor. – Dacă informaţia este dată sub forma: în Iaşi, 12, 5% dintre locuitori sunt absolvenţi de învăţământ superior iar în Paşcani 12, 2%, atunci informaţia are putere de comparaţie. 31 -Oct-20 9

Calitatea informaţiei • Valoarea de prognoză (predictivă) este conferită de posibilitatea utilizării informaţiei pentru

Calitatea informaţiei • Valoarea de prognoză (predictivă) este conferită de posibilitatea utilizării informaţiei pentru a prevedea comportări viitoare. • De exemplu, dacă se ştie că în Iaşi sunt 400 de mii de locuitori, această informaţie nu poate oferi indicii despre numărul de locuitori de peste 5 ani. • Dacă se cunoaşte tabelul următor, puterea de prognoză este mărită prin aceea că se poate studia ritmul de creştere, sensul modificării etc. 31 -Oct-20 Anul Locuitori (mii) 1960 290 1980 340 2000 390 10

Variabile • O variabilă reprezintă o caracteristică, un atribut al elementelor din populaţia statistică

Variabile • O variabilă reprezintă o caracteristică, un atribut al elementelor din populaţia statistică studiată: – dacă se studiază o colectivitate umană, înălţimea, greutatea, anii de studiu, culoarea ochilor, averea, vârsta etc. reprezintă variabile posibile. • Din punct de vedere matematic, putem considera că, fixat un atribut, există o funcţie care ataşează fiecărui element din populaţie valoarea pe care o are atributul pentru elementul respectiv. Această funcţie este, în statistică, variabila având numele atributului considerat. • Reamintim că existenţa statisticii se datorează faptului că variabilele nu sunt constante, ci au o variaţie (de origine cunoscută, sau nu) a valorilor. 31 -Oct-20 11

Variabile • Variabilitatea valorilor se datorează unor surse ce pot fi clasificate în previzibile

Variabile • Variabilitatea valorilor se datorează unor surse ce pot fi clasificate în previzibile (sistematice) şi imprevizibile (întâmplătoare, fortuite). • Clasificarea este realizată din punctul de vedere al cercetătorului: caracterul previzibil/imprevizibil nu este un dat, ci este relativ la cercetarea efectuată. • Metodele statistice vor căuta, de regulă, să stabilească, cel puţin relativ, importanţa surselor de variaţie previzibile în explicarea variabilităţii valorilor unei variabile. • Este de menţionat şi faptul că dacă sursa variaţiilor imprevizibile este foarte puternică, atunci este practic imposibil să se poată evalua corect ponderea variaţiilor previzibile. 31 -Oct-20 12

Variabile • Valorile unei variabile se obţin prin utilizarea unui instrument de măsură pentru

Variabile • Valorile unei variabile se obţin prin utilizarea unui instrument de măsură pentru toate elementele studiate (observate). Un asemenea instrument va fi numit în continuare scală de măsură. • O scală de măsură trebuie să fie – robustă – măsurători repetate ale aceluiaşi element produc acelaşi rezultat, – corectă (validă) – scala produce evaluarea dorită, – exhaustivă – scala poate evalua toate elementele ţintă, – mutual exclusivă – un element poate produce un singur rezultat. • S-au dezvoltat trei tipuri principale de scale: – nominală, – ordinală, – de intervale. 31 -Oct-20 13

Variabile • Alegerea unui tip de scală pentru determinarea valorilor unei variabile fixează a

Variabile • Alegerea unui tip de scală pentru determinarea valorilor unei variabile fixează a priori prelucrările posibile. • Nici o tratare statistică nu poate adăuga numerelor (valori ale variabilelor) proprietăţi pe care experimentatorul nu le-a dat prin operaţia de măsurare. • Intre tipurile enumerate există ordinea de la simplu (scale nominale) la complex (scale de intervale). • O variabilă are caracterul scalei de măsură utilizate: variabila nominală, variabilă ordinală, variabilă de interval. • Prin date nominale, date ordinale sau date de interval se va înţelege mulţimea valorilor unei variabile de tipul specificat. 31 -Oct-20 14

Variabile nominale • O scală nominală (calitativă, categorială) este formată din categorii pentru clasificarea

Variabile nominale • O scală nominală (calitativă, categorială) este formată din categorii pentru clasificarea obiectelor sau evenimentelor pe baza unei calităţi (atribut). • Pentru a construi o scală nominală este suficient să se poată repartiza observaţiile posibile într-un număr de clase, ansamblul acestor clase constituie “gradaţiile” scalei nominale astfel definite. • Intre gradaţiile scalei nu există ordine; enumerarea categoriilor scalei este arbitrară. • Este de menţionat că fixarea criteriilor de clasificare este subiectivă; criterii mai fine produc mai multe categorii cu riscul de a introduce criterii colaterale, străine intenţiei iniţiale. 31 -Oct-20 15

Variabile nominale • Prezentarea datelor nominale se efectuează sub forma tabelului următor: Categoria (clasa)

Variabile nominale • Prezentarea datelor nominale se efectuează sub forma tabelului următor: Categoria (clasa) Frecvenţa absolută Frecvenţa relativă c 1 c 2 … cm f 1 r 1 = f 1/n f 2 r 2 = f 2/n … … fm rm = fm/n Total n= fi 1 n este numit volumul observaţiilor. 31 -Oct-20 16

Variabile nominale • Este de remarcat că frecvenţele relative sunt utile pentru a compara

Variabile nominale • Este de remarcat că frecvenţele relative sunt utile pentru a compara o distribuţie cu alta; compararea frecvenţelor absolute este posibilă doar în cazul când sunt calculate pentru (aproximativ) acelaşi număr de observaţii. • De regulă, frecvenţele relative – se exprimă procentual – se raportează cu o zecimală (cel mult două) mai mult decât măsurătorile brute – se utilizează doar pentru n ≥ 50, deşi literatura cunoaşte şi alte situaţii … Pentru n < 50 se consideră că o mică modificare a lui n produce modificări prea mari ale procentajelor. • Exprimarea sub formă de procentaj este importantă deoarece asigură o percepţie mai bună a ordinului de mărime ( a se compara 0. 05 cu 0. 12 şi 5% cu 12%). 31 -Oct-20 17

Variabile nominale • Rezumatele statistice pentru datele nominale sunt: – Valoarea mod = categoria

Variabile nominale • Rezumatele statistice pentru datele nominale sunt: – Valoarea mod = categoria cu frecvenţa maximă. Este indicatorul statistic de tendinţă centrală (de localizare) a distribuţiei. – Indicele de variaţie calitativă (IQV), care arată procentual cât din variaţia maximă este prezentă în distribuţia observată. Este indicatorul statistic de împrăştiere a distribuţiei. • Calculul indicatorului IQV – Se consideră distribuţia cu gradul de împrăştiere maxim, având efectivele claselor cât mai egale. – Pentru distribuţia observată şi pentru cea cu împrăştierea maximă se calculează valoarea – Formula de calcul pentru IQV este 31 -Oct-20 18

Variabile nominale • Reprezentările grafice adecvate pentru datele nominale sunt (în variante 2 D

Variabile nominale • Reprezentările grafice adecvate pentru datele nominale sunt (în variante 2 D sau 3 D) – diagramele cu bare (bar chart) – diagramele de structură (pie chart, doughnut chart) • Se remarcă faptul că nu se introduce explicit ordinea între categoriile reprezentate. 31 -Oct-20 19

Variabile nominale • Dintre variabilele nominale se disting variabilele dihotomice. • Acestea au doar

Variabile nominale • Dintre variabilele nominale se disting variabilele dihotomice. • Acestea au doar două valori posibile: adevărat/fals, prezent/absent, bărbat/femeie etc. • Dacă valorile sunt codificate prin 0 şi 1, atunci cu aceste coduri se pot efectua calcule: de exemplu, suma codurilor arată frecvenţa categoriei codificate cu 1. • Asemenea calcule nu sunt posibile pentru o variabilă nominală generală. 31 -Oct-20 20

Variabile nominale • Utilitatea variabilelor nominale într-o cercetare statistică este dată de faptul că

Variabile nominale • Utilitatea variabilelor nominale într-o cercetare statistică este dată de faptul că determină, prin categoriile lor, grupuri de elemente, subpopulaţii. • Existenţa unor subpopulaţii, determinate de o variabilă nominală, constituie o sursă sistematică de variaţie, care poate fi verificată. • De exemplu, dacă un studiu privind rezultatele la învăţătură consideră drept variabilă mediul (rural, urban etc. ), înseamnă că acesta este, în viziunea cercetătorului, o sursă de variaţie a valorilor; ipoteza se poate, sau nu, verifica. • Verificarea menţionată este realizată uneori în mod transparent prin compararea, multiplă sau două câte două, a subpopulaţiilor. 31 -Oct-20 21

Variabile ordinale • O scală ordinală (de ranguri) este formată din categorii ordonate pentru

Variabile ordinale • O scală ordinală (de ranguri) este formată din categorii ordonate pentru clasificarea obiectelor sau evenimentelor pe baza unei calităţi (atribut). • Pentru a construi o scală ordinală este suficient să se poată defini o relaţie de ordine între observaţii. • Clasele formate din observaţii egale vor constitui gradaţiile scalei ordinale. • Intre gradaţiile scalei nu există distanţă; enumerarea categoriilor scalei este fixată de ordine. • Relaţia de ordine este de multe ori subiectivă, corespunzând la ceea ce în viaţa reală este “mai bun”, “mai mare”, “mai frumos” etc. • Se poate spune că o scală ordinală este utilizată pentru clasarea observaţiilor, fără pretenţia de a indica precis cantitatea prezentă de caracteristică. 31 -Oct-20 22

Variabile ordinale • Prezentarea datelor ordinale se efectuează sub forma tabelului următor: Categoria (clasa)

Variabile ordinale • Prezentarea datelor ordinale se efectuează sub forma tabelului următor: Categoria (clasa) Frecvenţa absolută Frecvenţa relativă Frecvenţa absolută cumulată Frecvenţa relativă cumulată c 1 f 1 r 1 = f 1/n f 1 r 1 c 2 f 2 r 2 = f 2/n f 1 + f 2 r 1 + r 2 … … … cm fm rm = fm/n f 1 +…+ fm r 1 +…+ rm Total n= fi 1 • Este de remarcat că se poate efectua şi o cumulare în sens invers. Coloanele cumulative răspund la întrebări de genul: câte elemente sunt mai mari/mai mici decât… 31 -Oct-20 23

Variabile ordinale • Scala ordinală este mai complexă decât scala nominală; prelucrările posibile sunt

Variabile ordinale • Scala ordinală este mai complexă decât scala nominală; prelucrările posibile sunt mai numeroase. • Rezumatele statistice definite la datele nominale se pot calcula şi aici: valoarea mod, IQV. • Datorită faptului că observaţiile sunt ordonate, se definesc noi rezumate statistice: mediana, quantile. • In calculul quantilelor, definiţia nu se poate aplica cu stricteţe, totuşi, decât în cazul datelor de interval. 31 -Oct-20 24

Variabile ordinale • Mediana este acea categorie a scalei care depăşeşte jumătate dintre elemente

Variabile ordinale • Mediana este acea categorie a scalei care depăşeşte jumătate dintre elemente (observaţii). • Mediana este utilizată ca indicator de tendinţă centrală. • Quantila de ordin p este acea categorie a scalei care depăşeşte o proporţie p, p < 1 de elemente (observaţii). • Mediana este deci quantila de ordin 0. 5. • Pentru facilitarea interpretării se exprimă uneori proporţiile sub formă procentuală, deci se poate vorbi de quantila de (ordin) 15%, sau quantila de (ordin) 75% etc. 31 -Oct-20 25

Variabile ordinale • Prin faptul că definesc jaloane sub care se găsesc proporţii ale

Variabile ordinale • Prin faptul că definesc jaloane sub care se găsesc proporţii ale numărului de observaţii, quantilele oferă o imagine a gradului de împrăştiere a observaţiilor şi sunt utilizate adesea pentru a fixa poziţia unei observaţii în raport cu mediana distribuţiei. • Sistemele de quantile (quartile, decile, centile) sunt utilizate pentru aprecierea împrăştierii şi pentru compararea unor valori determinate pe scale ordinale diferite. • De exemplu, sistemul determinat de quantilele de ordine 1/4, 2/4 = 1/2, 3/4 realizează (teoretic) o împărţire a observaţiilor în patru părţi egale. Aceste quantile se numesc quartile şi sunt notate, cel mai adesea, prin Q 1, Q 2 şi, respectiv, Q 3. • Doar pentru o repartiţie uniformă, quartilele sunt egal depărtate (ca număr de categorii) între ele. 31 -Oct-20 26

Variabile ordinale • Reprezentările grafice trebuie să reflecte atât ordinea, cât şi caracterul discret

Variabile ordinale • Reprezentările grafice trebuie să reflecte atât ordinea, cât şi caracterul discret al scalei ordinale. • Diagrama cu coloane este cea mai adecvată, reprezentarea fiind pentru frecvenţe absolute, relative sau cumulate. • Forma reprezentării frecvenţelor necumulate se apreciază după aplatizare şi simetrie, cu efect asupra calităţii unei prognoze. 31 -Oct-20 27

Variabile ordinale • Variabilele ordinale sunt utile pentru că: – ordonarea observaţiilor, pe lângă

Variabile ordinale • Variabilele ordinale sunt utile pentru că: – ordonarea observaţiilor, pe lângă interesul în sine, permite prelucrări mai complexe; – caracterul discret al scalei ordinale defineşte subpopulaţii care pot fi comparate în scopul de a verifica o sursă sistematică de variaţie. • Este de remarcat şi faptul că reprezentările grafice ale datelor ordinale au mai multă informaţie care se transmite receptorului. • Cazul cel mai frecvent de utilizare a unei variabile ordinale este cel al întrebărilor din sondaje de opinie cu răspuns de genul: foarte mult, indiferent etc. Deci întrebările care cer o ierarhizare. • Notele şcolare sunt, în esenţa lor, categorii ale unei scale ordinale: 8 la matematică nu este acelaşi lucru cu 8 la franceză etc. 31 -Oct-20 28

Variabile de interval • O scală de intervale se caracterizează prin aceea că între

Variabile de interval • O scală de intervale se caracterizează prin aceea că între categoriile ordonate ale scalei este definită o distanţă. • Se poate gândi că o asemenea scală de măsură este construită prin alăturarea de intervale egale, asemenea unei rigle. • O unitate a scalei reprezintă o aceeaşi cantitate de caracteristică măsurată, indiferent de poziţia pe scală. • La o scală de intervale nu există neapărat un punct “zero” adevărat. De exemplu, scala timpului este scală de intervale. 31 -Oct-20 29

Variabile de interval • O scală de intervale cu un punct de “zero” real

Variabile de interval • O scală de intervale cu un punct de “zero” real este denumită scală de rapoarte. Pe această scală valoarea 2 x este de două ori mare decât valoarea x (spre comparaţie, cineva care nota 6 nu ştie de două ori mai mult decât cineva cu nota 3). • Scalele de interval sunt scale continue, spre deosebire de scalele nominale şi ordinale, care sunt scale discrete. • Datele de interval (continue) sunt cele mai complexe şi majoritatea prelucrărilor statistice sunt dezvoltate pentru aceste date. • Se poate observa, de altfel, că există tendinţa de multiplicare a categoriilor unei scale ordinale, tocmai pentru a o putea considera scală de intervale (a se vedea sistemul de notare din învăţământ). 31 -Oct-20 30

Variabile de interval • Datele de interval se prezintă: – sub formă brută =

Variabile de interval • Datele de interval se prezintă: – sub formă brută = deoarece se măsoară cantitatea exactă de caracteristică prezentă (în anumite limite discutate anterior), observaţiile pot fi foarte diferite între ele şi nu doar în limitele unui număr finit de categorii de clasificare; este foarte dificil să se transmită sau să se obţină informaţii din mulţimea prezentată. – sub formă ordonată şi de frecvenţe = valorile sunt ordonate şi se raportează frecvenţele; este mai uşor să se perceapă repartiţia valorilor şi să apară valorile minime, maxime; – sub formă de date grupate (vezi slide-ul următor). • Modul de prezentare importanţă la calculul statisticilor. 31 -Oct-20 31

Variabile de interval • Pentru gruparea datelor se definesc intervale de grupare şi se

Variabile de interval • Pentru gruparea datelor se definesc intervale de grupare şi se raportează valorile sub forma de frecvenţe. Se obţine astfel un tabel de forma următoare. • Trebuie avut în vedere că s‑a pierdut o parte din informaţia iniţială (de exemplu, din tabel nu rezultă exact care sunt cele 8 valori din primul interval: mai aproape de 160, de 179 etc. ). Această pierdere se justifică totuşi prin avantajul oferit de simplificare, ca şi prin aceea că această uniformizare a datelor (în cadrul fiecărui interval) poate să reducă (să compenseze) unele erori posibile în cadrul operaţiunii tehnice de măsurare. 31 -Oct-20 Interval 160 -179 180 -199 200 -219 Frecvenţa 8 14 20 220 -239 240 -259 260 -279 280 -299 300 -319 320 -339 32 56 26 22 12 10 32

Variabile de interval • Deoarece gruparea datelor este impusă de necesitatea de concentrare a

Variabile de interval • Deoarece gruparea datelor este impusă de necesitatea de concentrare a informaţiei, ar trebui ca numărul intervalelor să fie mic. • Deoarece prin grupare se pierde informaţie (nu se mai ştie valoarea exactă observată), ar trebui ca numărul intervalelor să fie mare. • Din această contradicţie a criteriilor rezultă că nu există un număr teoretic optim de intervale. Sunt propuse diverse formule, calitatea lor principală fiind doar aceea de uniformizare. • O formulă acceptată de majoritatea statisticienilor este relaţia empirică a lui Sturges: unde k este numărul de intervale, N este numărul de observaţii (volumul eşantionului). 31 -Oct-20 33

Variabile de interval • În tehnica grupării se recomandă respectarea anumitor principii: – numerele

Variabile de interval • În tehnica grupării se recomandă respectarea anumitor principii: – numerele prin care se exprimă intervalele să fie pe cât posibil rotunde (sociologic acceptabile); – numărul de intervale să fie suficient de mare în scopul de a furniza informaţii cât mai analitice; – intervalele trebuie să permită regruparea datelor sau separarea lor; – frecvenţele mici trebuie să fie evitate, acestea având o semnificaţie statistică redusă. • De obicei se alege un număr impar de clase pentru o serie de avantaje (de exemplu se poate observa mai bine simetria distribuţiei, există o clasă centrală etc. ). Din punct de vedere teoretic nu există însă restricţii cu privire la alegerea unui număr par de intervale de grupare. • Prin gruparea datelor şi considerarea frecvenţelor de interval, valorile individuale sunt mascate şi cea mai bună aproximare a lor este oferită, pe baza principiului erorii minime, de centrul clasei la care aparţin, valoare care va apare în formulele de calcul pentru rezumatele statistice. 31 -Oct-20 34

Variabile de interval • Prezentarea grafică a datelor continue are loc după gruparea lor.

Variabile de interval • Prezentarea grafică a datelor continue are loc după gruparea lor. • Sunt utilizate, pentru date simple sau cumulate: – histograma, – poligonul frecvenţelor. 31 -Oct-20 35

Variabile de interval • Rezumate statistice de tendinţă centrală: – Valoarea mod, – Mediana,

Variabile de interval • Rezumate statistice de tendinţă centrală: – Valoarea mod, – Mediana, – Media aritmetică • Indicatori de măsură ai împrăştierii: – Amplitudinea este diferenţa dintre valoarea maximă şi cea minimă rezultând intervalul de variaţie a valorilor observate. Indicatorul tinde să supraestimeze intervalul de variaţie deoarece prin mărirea volumului eşantionului creşte şansa de a observa o amplitudine mai mare. – Quantile Noţiunea de quantilă se păstrează de la datele ordinale. Quantila de ordin p a unei liste de valori numerice (0 < p < 1) este cel mai mic număr q astfel încât o proporţie p de elemente ale listei sunt mai mici sau cel mult egale cu q. Adică, dacă lista conţine n elemente, quantila de ordin p este cel mai mic număr q astfel încât n×p elemente ale listei sunt mai mici sau egale cu q. 31 -Oct-20 36

Variabile de interval • Indicatori de măsură ai împrăştierii (continuare): – Abaterea quartilă Definită

Variabile de interval • Indicatori de măsură ai împrăştierii (continuare): – Abaterea quartilă Definită prin (Q 3 -Q 1)/2 unde Q 1 şi Q 3 sunt prima şi, respectiv, a treia quartilă; cantitatea (Q 3 -Q 1) este denumită amplitudinea interquartilă. Abaterea quartilă este utilizată pentru a defini un interval centrat pe mediană şi care conţine aproximativ jumătate dintre observaţii (evident că în intervalul definit de Q 1 şi de Q 3 există de asemenea 50% dintre observaţii, dar intervalul nu este centrat pe mediană decât în cazul distribuţiilor simetrice). Abaterea quartilă este astfel indicatorul de împrăştiere raportat împreună cu mediana (aceasta ca indicator de tendinţă centrală). – Abaterea medie absolută este definită drept 31 -Oct-20 37

Variabile de interval • Indicatori de măsură ai împrăştierii (continuare): – Dispersia de sondaj

Variabile de interval • Indicatori de măsură ai împrăştierii (continuare): – Dispersia de sondaj s 2 este un estimator al dispersiei populaţiei, bazat pe un eşantion aleatoriu. Ca statistică, măsoară gradul de împrăştiere a eşantionului în jurul mediei de sondaj. Relaţia de definiţie, în cazul datelor negrupate, este – Se observă că dispersia este calculată din toate datele de sondaj iar valorile mai depărtate de medie contribuie mai mult la valoarea finală, ceea ce este în concordanţă cu simţul comun în ceea ce priveşte împrăştierea unor valori. Dezavantajul este acela că nu se conservă unitatea de măsură a datelor iniţiale, ceea ce măreşte dificultatea interpretării. – Dispersia de sondaj definită prin formula de mai sus este un estimator nedeplasat al dispersiei populaţiei. – Abaterea standard. Pentru a simplifica interpretarea dispersiei, se defineşte abaterea standard ca fiind rădăcina pătrată din dispersie, adică dispersia este pătratul abaterii standard de sondaj, s. Abaterea standard este măsurată în aceleaşi unităţi de măsură cu datele iniţiale. 31 -Oct-20 38