Matematica e statistica Versione didascalica parte 6 Sito

  • Slides: 32
Download presentation
Matematica e statistica Versione didascalica: parte 6 • • • Sito web del corso

Matematica e statistica Versione didascalica: parte 6 • • • Sito web del corso http: //www. labmat. it Docente: Prof. Sergio Invernizzi, Università di Trieste e-mail: inverniz@units. it

1. 6. Variabili aleatorie finite • Esperimento E • Spazio campionario • In ogni

1. 6. Variabili aleatorie finite • Esperimento E • Spazio campionario • In ogni prova, osservata (misurata) una “variabile” X • Il valore osservato di X dipende da quale degli eventi elementari si verifica nella prova in questione: X è una “variabile aleatoria”. • Nel caso più semplice X assume un numero finito di valori : con corrispondenti probabilità

1. 6. Variabili aleatorie finite: esempio Nel caso dei due dadi X assume un

1. 6. Variabili aleatorie finite: esempio Nel caso dei due dadi X assume un numero finito di valori : con corrispondenti probabilità

1. 6. Variabili aleatorie finite: esempio • Esperimento E = lancio di due dadi

1. 6. Variabili aleatorie finite: esempio • Esperimento E = lancio di due dadi • Spazio campionario • La v. a. X in questione è null’altro che una applicazione reale X: R definita sulle coppie = (r, v) dalla formula X( ) = r + v.

Si noti che è possibile interpretare come “massa” della controimagine X -1({8}) = {

Si noti che è possibile interpretare come “massa” della controimagine X -1({8}) = { in tali che C( )=8} se si attribuisce la massa 1 = 100% a tutto lo spazio .

1. 6. 1. Valore atteso e varianza • 80 lanci di un dado truccato:

1. 6. 1. Valore atteso e varianza • 80 lanci di un dado truccato: x <- floor(1+6*runif(80)^2) x = {1, 1, 1, 2, 4, 1, 5, 3, 1, 2, 5, 1, 1, 2, 1, 5, 1, 2, 3, 4, 4, 2, 1, 1, 4, 1, 1, 6, 1, 1, 3, 2, 2, 6, 2, 1, 1, 2, 3, 1, 2, 1, 1, 6, 3, 6, 1, 1, 3, 6, 5, 4, 1, 2, 2, 4, 2, 2, 1, 3, 1, 5, 2, 1, 4, 4, 1, 2, 1, 5, 1, 2, 2, 5, 1, 3} • calcolo la media aritmetica: m = (1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 2 + 2 + 2 + 2 + 3 + 3 + 4 + 4 + 5 + 5 + 6 + 6 + 6)/80 = 196/80 = 2. 45

(continua) m = (1 + 1 + 1 + 2 + 4 + 6)

(continua) m = (1 + 1 + 1 + 2 + 4 + 6) / 80 1 1 2 2 4 + + + + + 1 1 2 3 5 + + + + + 1 1 2 3 5 + + + 1 1 2 3 6 + + + + + 1 1 2 4 6 = (33 1 + 18 2 + 8 3 + 8 4 + 7 5 + 6 6) / 80 = circa + + + 1 1 2 4 6 + + +

(continua) • In generale il valore atteso • Varianza (momento di inerzia) • Deviazione

(continua) • In generale il valore atteso • Varianza (momento di inerzia) • Deviazione standard (baricentro)

4. 1. Stime dei parametri • Popolazione: X • Numero di prove: n •

4. 1. Stime dei parametri • Popolazione: X • Numero di prove: n • Campione aleatorio: • Valori osservati: • Non confondere con i valori possibili • Media campionaria: • Il valore osservato della media campionaria viene usato come stimatore della media vera

(continua) • Stimatore Tn di un parametro Ø corretto (unbiased) : E[Tn] = Ø

(continua) • Stimatore Tn di un parametro Ø corretto (unbiased) : E[Tn] = Ø coerente (consistent): lim Var[Tn] = 0 • La media campionaria è uno stimatore corretto e coerente della media vera: vedremo che (è un teorema: cf. diapositiva 26) • Stimatore o consuntivo: statistic • Statistica come scienza: statistics

Stima della media di 2 dadi m = 7. Facciamo 8 osservazioni m della

Stima della media di 2 dadi m = 7. Facciamo 8 osservazioni m della media campionaria, con diverse dimensioni del campione: n = 5, 10, 50, 200 n=5 m osservati: 7. 60, 6. 00, 8. 00, 4. 60, 7. 80, 6. 40, 6. 80, 8. 20 n = 10 m osservati: 6. 60, 7. 70, 8. 70, 5. 60, 6. 40, 6. 80, 7. 40, 7. 00 n = 50 m osservati: 6. 68, 6. 42, 7. 28, 7. 40, 6. 96, 6. 86, 6. 96, 7. 48 n = 200 m osservati: 7. 15, 6. 80, 7. 23, 6. 98, 7. 08, 7. 07, 6. 88 n = 1000 m osservati: 6. 94, 6. 86, 7. 12, 7. 01, 6. 93, 7. 02, 7. 06

Qui invece rappresentiamo 250 osservazioni m della media campionaria Mn, con dimensioni del campione:

Qui invece rappresentiamo 250 osservazioni m della media campionaria Mn, con dimensioni del campione: n = 25 n = 50 n = 100 n = 200 I valori osservati m della media campionaria Mn sono centrati su m e tanto meno dispersi quanto più n è grande, …

I valori osservati m della media campionaria Mn sono centrati su m e tanto

I valori osservati m della media campionaria Mn sono centrati su m e tanto meno dispersi quanto più n è grande, … Quindi se n è “grande”, abbiamo una “buona probabilità” che un singolo valore osservato m della media campionaria Mn (ossia la media aritmetica dei valori osservati del campione) sia una “buona” stima per m. La stima è migliore tanto più grande è n (la dimensione del campione).

4. 2. 1 La varianza campionaria • Consuntivo varianza campionaria: La varianza campionaria è

4. 2. 1 La varianza campionaria • Consuntivo varianza campionaria: La varianza campionaria è uno stimatore corretto e coerente della varianza vera (è un teorema: cf. diapositive 27, 28, 29): • Se si dividesse per n si otterrebbe uno stimatore (biased = non corretto) in quanto distorto

Sulla calcolatrice • Stime sulla TI-82 • Popolazione X = -ln(rand) • n (max

Sulla calcolatrice • Stime sulla TI-82 • Popolazione X = -ln(rand) • n (max 99) valori osservati in L 1 • Comando 1 -Var Stats L 1 • = mn = stima della media • Sx = stima della deviazione standard non distorta • x = stima della deviazione standard distorta • min. X, Q 1 , Med, Q 3 , max. X = “riassunto a 5 numeri” [ box plot ] Ø minimo Ø primo quartile Ø mediana (almeno il 50%. . . e almeno il 50%. . ) Ø terzo quartile Ø massimo [ NB animazione delle schermate ]

> x <- -log(runif(99)) > x [1] [7] [13] [19] [25] [31] [37] [43]

> x <- -log(runif(99)) > x [1] [7] [13] [19] [25] [31] [37] [43] [49] [55] [61] [67] [73] [79] [85] [91] [97] 0. 442406779 0. 948137321 0. 439984155 0. 468903451 0. 237981589 3. 709382632 1. 010956427 1. 046182539 1. 356679765 1. 220112306 0. 586604401 1. 432247566 2. 223455853 0. 115486534 0. 718340727 0. 089948549 0. 756498358 1. 520114323 4. 632340154 0. 087883367 2. 481204484 0. 432601672 1. 710685905 1. 277979394 0. 991990006 0. 251157440 1. 397272292 0. 419796978 0. 241009211 0. 269832732 0. 255647427 0. 597733568 0. 452019811 1. 250687755 0. 359739819 0. 122841389 0. 327555402 0. 346950869 2. 591373233 0. 186195443 0. 047300276 0. 314767995 0. 137009917 1. 359575045 0. 586009376 0. 218992103 0. 060091875 0. 556714480 0. 603395773 0. 226443560 1. 910004276 Stesso esempio con R 1. 196004366 0. 725634687 1. 131393955 0. 073592979 0. 273996105 0. 915975775 1. 085035943 2. 068547432 0. 417083051 3. 397626651 1. 145115010 0. 876719352 0. 398964894 4. 165507832 0. 795164795 2. 096750485 1. 142232603 1. 002278314 0. 412639758 0. 549544999 0. 268526137 0. 065707763 0. 069276794 0. 120096882 0. 307458761 0. 270470772 0. 472123723 0. 281467705 1. 157393991 1. 140225430 0. 839431267 2. 878146447 0. 066834102 0. 731509306 1. 432809035 0. 796314267 0. 031064219 0. 097969750 1. 654436531 0. 478522417 0. 390503350 0. 303111629 0. 531094403 0. 492258877 2. 870695956 1. 054656225 0. 009448098 1. 253159978 > summary(x) Min. 1 st Qu. Median Mean 3 rd Qu. Max. 0. 009448 0. 272200 0. 586000 0. 898600 1. 177000 4. 632000

Box. Plot (riassunto a 5 numeri) Min 1 Quart. Mediana 3 Quart. “Max” dati

Box. Plot (riassunto a 5 numeri) Min 1 Quart. Mediana 3 Quart. “Max” dati “anomali”

Media vs Mediana • Centralità & Dispersione • Scale a rapporti: usare preferibilmente •

Media vs Mediana • Centralità & Dispersione • Scale a rapporti: usare preferibilmente • Media & Deviazione standard • Scale qualitative: usare preferibilmente • Mediana & Quartili (riassunto a 5 numeri) (nel Curriculum Vitae inserire boxplot dei voti)

1. 6. 2. Formule per E[X] e Var[X] • Valore atteso di a. X+b

1. 6. 2. Formule per E[X] e Var[X] • Valore atteso di a. X+b

1. 6. 2. Formule per E[X] e Var[X] • Varianza come valore atteso

1. 6. 2. Formule per E[X] e Var[X] • Varianza come valore atteso

1. 6. 2. Formule per E[X] e Var[X] • Varianza di a. X+b •

1. 6. 2. Formule per E[X] e Var[X] • Varianza di a. X+b • Poniamo a. X+b al posto di X nella formula precedente

1. 6. 2. Formule per E[X] e Var[X] • Valore atteso di X+Y •

1. 6. 2. Formule per E[X] e Var[X] • Valore atteso di X+Y • P{ {X = xk} {Y = yj } } = pkj •

1. 6. 2. Formule per E[X] e Var[X] • Valore atteso di XY per

1. 6. 2. Formule per E[X] e Var[X] • Valore atteso di XY per variabili indipendenti • P{ {X = xk} {Y = yj } } = pkj = P{X = xk} P{Y = yj } = pk qj •

1. 6. 2. Formule per E[X] e Var[X] • Varianza di X+Y • Per

1. 6. 2. Formule per E[X] e Var[X] • Varianza di X+Y • Per variabili indipendenti: Cov[X, Y] = 0 • Varianza di X+Y per variabili indipendenti

1. 6. 2. Formule per E[X] e Var[X] • Covarianza zero non implica indipendenza!

1. 6. 2. Formule per E[X] e Var[X] • Covarianza zero non implica indipendenza! • Lanciamo i due dadi R e V per 100 volte. Valutiamo : • La variabile doppia (R, V) • La variabile doppia (X, Y) = (R + V, R – V ):

1. 6. 2. Formule per E[X] e Var[X] • X = R + V

1. 6. 2. Formule per E[X] e Var[X] • X = R + V e Y = R – V sono evidentemente v. a. dipendenti (ad esempio se X=12 non puo' che essere Y=0, e se X=11 non puo' che essere Y=1 oppure Y=-1), ma la covarianza è nulla. In generale applicare funzioni X = f(R, V) e Y = g(R, V) a due variabili R e V indipendenti fornisce due variabili dipendenti X e Y con dipendenza di tipo talvolta inaspettato (cf. CD).

1. 6. 2. Formule per E[X] e Var[X] • . . . la covarianza

1. 6. 2. Formule per E[X] e Var[X] • . . . la covarianza è nulla:

Standardizzazione

Standardizzazione

Standardizzazione della media La media campionaria è uno stimatore corretto e coerente

Standardizzazione della media La media campionaria è uno stimatore corretto e coerente

La varianza campionaria è uno stimatore corretto

La varianza campionaria è uno stimatore corretto

La varianza campionaria è uno stimatore corretto

La varianza campionaria è uno stimatore corretto

La varianza campionaria è uno stimatore coerente Per lo sviluppo del binomio questo richiede

La varianza campionaria è uno stimatore coerente Per lo sviluppo del binomio questo richiede il calcolo di Il risultato : Dove si assume finito.