Analisi statistica in simulazione Aspetto fondamentale in simulazione

Analisi statistica classica – stima della media – stima della varianza – stima della

Stima della media x 1 x 2. . . xn campione di osservazioni indipendenti

Stima della media x è una buona stima di µ se /n è piccolo

Stima della varianza spesso anche la varianza 2 è ignota Stima della varianza del

Intervalli di confidenza necessità di calcolare intervalli di confidenza dello stimatore x x 1

Intervalli di confidenza u : Prob{ Z ≤ u } = 1 - per

Intervalli di confidenza • Conviene ridurre l'ampiezza dell'intervallo di confidenza • Due misure di

Intervalli di confidenza Se il campione è ottenuto come risultato di un esperimento di

Stima della varianza della popolazione metodo indiretto : 2 = E[x 2] - E

Stima della varianza della popolazione metodo di jackknifing calcolo dell'intervallo di confidenza per la

Operazioni sugli intervalli di confidenza dalle osservazioni relative a due v. c. X di

Operazioni sugli intervalli di confidenza stima puntuale del rapporto µ / • stimatore jackknife

Operazioni sugli intervalli di confidenza 3/3 • lo stimatore jackknife – produce migliori risultati

Stima della distribuzione 1/5 • distribuzione teorica distribuzione empirica ´ – caratterizzazione dell'input –

Stima della distribuzione 2/5 • metodo del coefficiente di variazione • misura della dispersione

Stima della distribuzione 3/5 • metodo del goodness of fit • x 1 x

Stima della distribuzione 4/5 • metodo del goodness of fit – Esempio: se si

Stima della distribuzione 5/5 • Metodo di Kolmogorov Smirnov (KS) • adatto anche a

Slides: 19

Download presentation

Analisi statistica in simulazione Aspetto fondamentale in simulazione, a volte sottovalutato Corrette interpretazione dei risultati • Analisi dei dati di di input – definizione e parametrizzazione del modello – caratterizzazione del carico (distribuzioni, etc. ) • Analisi dei risultati di un esperimento di simulazione – – – – derivare le caratteristiche stocastiche degli indici valutati analisi del comportamento transiente influenza delle condizioni iniziali analisi del comportamento stazionario (steady-state) sistema in equilibrio, eliminazione della fase transiente numero di esperimenti, lunghezza degli esperimenti condizioni iniziali di ogni esperimento. * Convalida degli esperimenti di simulazione S. Balsamo - A. A. 2006 -2007 Simulazione

Analisi statistica classica – stima della media – stima della varianza – stima della distribuzione • test di "goodness of fit" • test di Kolmogorov-Smirnov – operazioni su intervalli di confidenza Stazionarietà della popolazione osservata Indipendenza delle osservazioni (proprietà non sempre verificate sia in input che in output) S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della media x 1 x 2. . . xn campione di osservazioni indipendenti (v. c. ) popolazione caratterizzata da una funzione di distribuzione di probabilità f(x) di media E[x] = µ varianza Var[x] = 2 media campionaria x = xi / n stimatore non distorto della media µ della distribuzione x è una v. c. di media E[x] = E[ i xi / n] = n µ / n = µ e di varianza Var[x] = E[(x-µ)2] = i Var[xi] / n 2 = n 2 / n 2 = 2 / n S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della media x è una buona stima di µ se /n è piccolo poichè Prob{| x - µ| > c /√n } ≤ 1/ c 2 (1) disuguaglianza di Chebyshev la distribuzione f(x) è normale se f(x) è normale, altrimenti, per il teorema del limite centrale, per n ∞ tende ad una normale di media µ e varianza 2/n (approssimazione per n>30) (x - µ) / ( /√n) normale (0, 1) • funzione cumulativa FZ(u) = Prob { Z ≤ u } S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della varianza spesso anche la varianza 2 è ignota Stima della varianza del campione Var[x] = E[(x-µ)2] lo stimatore i (xi - x)2 / n è distorto varianza campionaria S 2 = (xi - x)2 / (n-1) stimatore non distorto della varianza 2 della distribuzione S 2 è una v. c. di media E[S 2 ] = E[ i (xi - x)2/(n-1)] = E[( i xi 2 - n x 2)/(n-1)] = = i E[ xi 2] - n E[x 2] )/(n-1) = (n (µ 2+ 2)-n(µ 2+ 2/n) /(n-1) = = 2 deviazione standard campionaria S stimatore non distorto della deviazione standard S. Balsamo - A. A. 2006 -2007 Simulazione

Intervalli di confidenza necessità di calcolare intervalli di confidenza dello stimatore x x 1 x 2. . . xn campione di osservazioni indipendenti e identicamente distribuite (i. i. d. ) di media µ e varianza 2 media campionaria x: v. c. di media µ e di varianza 2/n S 2/n è uno stimatore non distorto di 2/n anche la variabile (x - µ) / (S/√n) t-Student con n-1 gradi di libertà ma per n>30 normale (0, 1) funzione cumulativa FZ(u) = Prob { Z ≤ u } q percentile 100 a della distribuzione normale Prob{ Z ≤ q } = u è tale che Prob{ Z ≤ u } = 1 - S. Balsamo - A. A. 2006 -2007 Simulazione

Intervalli di confidenza u : Prob{ Z ≤ u } = 1 - per simmetria: Prob{ - u ≤ Z ≤ u } = 1 - Prob{ - u ≤ √n (x - µ) / S ≤ u } = 1 - Prob{ - u ≤ √n (µ - x) / S ≤ u } = 1 - Prob{ x- (S/√n)u ≤ µ ≤ x+(S/√n)u } = 1 - intervallo di confidenza per la media nozione probabilistica; probabilità a priori µ, valore teorico, cade nell'intervallo con prob. 1 - utilizzare i valori di u tabulati Esempio: u intervallo di confidenza al 100( ) =95% x ± (S/√n) 1. 96 Prob{ x- (S/√n) 1. 96 ≤ µ ≤ x+(S/√n)1. 96} = 0. 95 S. Balsamo - A. A. 2006 -2007 Simulazione

Intervalli di confidenza • Conviene ridurre l'ampiezza dell'intervallo di confidenza • Due misure di precisione: • precisione assoluta semiampiezza dell'intervallo • precisione relativa 100 (semiampiezza dell'intervallo / x) • Si usa la misura relativa se non si hanno informazioni sull'ordine di grandezza di µ Es. : x=8, intervallo [7. 5, 8. 5] prec. rel. =100(0. 5/8)=6% • Per ridurre l'ampiezza dell'intervallo di confidenza si deve aumentare il numero n di osservazioni ampiezza 1/√n se S è circa costante S. Balsamo - A. A. 2006 -2007 Simulazione

Intervalli di confidenza Se il campione è ottenuto come risultato di un esperimento di simulazione e si vuole stimare la media µ, utilizzando gli intervalli di confidenza, fissato un livello di confidenza 100( si continua la simulazione finchè n è tale che l'intervallo di confidenza ha una ampiezza inferiore ad una quantità prefissata. • ampiezza dell'intervallo di confidenza 2 (S/√n)u 1. fissare un valore d ed il livello di confidenza 100( 2. generare almeno 30 valori dei dati 3. continuare la generazione fino a k valori tali che 2 (S/√n)u <d , dove S è calcolata con i k valori calcolati 4. si ottiene la stima di µ, calcolando l'intervallo di confidenzax x±(S/√n)u dove x ed S sono calcolati sui k valori determinati al passo 3 generazione ricorsiva di x e di S 2 • tipici valori S. Balsamo - A. A. 2006 -2007 = 0. 01, 0. 05, 0. 1 u livelli di confidenza del 99%, 95%, 90%. Simulazione

Stima della varianza della popolazione metodo indiretto : 2 = E[x 2] - E 2[x] dato un campione x 1. . . xn si stima E[x] tramite gli intervalli di confidenza si deriva E 2[x] dal campione x 12. . . xn 2 si deriva E[x 2] combinando opportunamente gli intervalli di confidenza metodo diretto: basato su S 2 v. c. di media 2 e varianza 0 per n ∞ si dimostra che la v. c. (n-1)S 2/ 2 ha distribuzione 2 con n-1 gradi di libertà Si può applicare la tecnica degli intervalli di confidenza, come nel caso della media, ma facendo riferimento alla distribuzione 2 anzichè alla distribuzione normale Prob{ (n-1)S 2/q ≤ 2 ≤ (n-1)S 2/q } = 1 - dove q sono i percentili della v. c. X 2(n-1) tali che Prob{q ≤ X 2(n-1) ≤ q } = 1 - questo metodo di stima della varianza è sensibile alla distribuzione del campione. Se il campione non ha distribuzione normale tecnica non può essere applicata S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della varianza della popolazione metodo di jackknifing calcolo dell'intervallo di confidenza per la varianza 2 meno sensibile all forma della distribuzione del campione • dato un campione x 1. . . xn si calcola la media e la varianza campionaria con l'osservazione j rimossa, 1≤j≤n xj = i≠j xi /(n-1) Sj 2= i≠j xi 2 /(n-2) - (n-1) xj /(n-2) • si definiscono gli "pseudovalori" 1≤j≤n zj = n S 2 - (n-1) Sj 2 E[z ] = n E[S 2] - (n-1) E[S 2] = 2 • (nota: S 2= i xi 2 /(n-1) - n x 2/(n-1) ) j j 2 • quindi la distribuzione di zj ha media • Siano z e Sz 2 media e varianza campionaria del campione z 1. . . zn – z = j zj /n – Sz 2= j (zj-z)2 /(n-1) la v. c. (z - 2) /(S /√n) ha distribuzione t-Student con n-1 gradi di libertà, da cui, z come nel caso precedente si ottiene l'intervallo di confidenza per la varianza Prob{ z-(Sz/√n) u ≤ 2 ≤ z+(Sz/√n) u } = 1 - dove u è definito come nel caso della media. S. Balsamo - A. A. 2006 -2007 Simulazione

Operazioni sugli intervalli di confidenza dalle osservazioni relative a due v. c. X di media µ e 1/3 Y di media si vuole valutare la stima del rapporto ∂ = µ / - si ottiene un campione z 1. . . zn dove zi= (xi, yi) 1≤i≤n - calcoliamo le medie campionarie z = (x, y), x = i xi /n y = i yi /n - definiamo la matrice di covarianza del campione S 2= i (zi-z)T /(n-1) S 112 S 122 S 212 S 222 S 112 = i (xi-x)2 /(n-1) S 222 = i (yi-y)2 /(n-1) S 212 = S 122 = i (xi-x) (yi-y) /(n-1) stima puntuale del rapporto µ / • stimatore di Fieller ∂F = [x y - k S 122] / [y 2 - k S 222] dove k = u /2 / n • S. Balsamo - A. A. 2006 -2007 Simulazione

Operazioni sugli intervalli di confidenza stima puntuale del rapporto µ / • stimatore jackknife dove Li = n [x/y] - (n-1) [ j≠i xj / j≠i yj] • stimatore di Tin S 222/(y 2))/n ] 2/3 ∂J = i L i / n 1≤i≤n ∂=[x/y] [1+ (S 122/(x y) T tutti gli stimatori sono consistenti (convergono al valore vero con probabilità 1) e sono generalmente distorti • Beale, jackknife, Tin tendono a ridurre la distorsione calcolo dell'intervallo di confidenza per il rapporto ∂ = µ / • stimatore di Iglehart: basato sulla stima puntuale ottenuta utilizzando lo stimatore di Fieller: ∂F ± √D/(y 2 - k S 222) dove D = [x y - k S 122] - [y - k S 222][x - k S 112] e il livello di confidenza dipende da k = u /2 / n • stimatore classico ∂C ± u /2 /(y √n) dove = [S 112 - 2 ∂CS 122 + (∂C)2 S 222]1/2 • stimatore jackknife dove ∂J ± u /2 ' /(√n) ' = [ i (Li - 2 ∂J / (n-1)]1/2 )2 nei due ultimi stimatori e ' rappresentano stime delle varianze del campioni S. Balsamo - A. A. 2006 -2007 Simulazione

Operazioni sugli intervalli di confidenza 3/3 • lo stimatore jackknife – produce migliori risultati dal punto di vista statistico, specie per campioni piccoli – più complesso da realizzare – si può utilizzare come stima puntuale lo stimatore di Baele e/o di Tin • utilizzare il metodo classico per l'intervallo di confidenza, speciamente se il campione è di grandi dimensioni • altre operazioni sugli intervalli di confidenza – siano µ e due parametri con intervalli di confidenza [ inf, sup] [µinf, µsup] • si ricava con livello di confidenza 100 (1 - 1)100 (1 - 2) – per µ - Prob{µinf - sup ≤ µ - ≤ µsup - inf} = 1 - 1 - 2 – per A µ + B A>0 Prob{A µinf + B ≤ A µsup + B} = 1 - 1 – per max(0, µ) = µ+, µ ≥ 0 n>0 Prob{ (µ+inf )n ≤ (µ+sup )n} = 1 - 1 queste regole sono utilizzate nel metodo indiretto della stima della varianza S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della distribuzione 1/5 • distribuzione teorica distribuzione empirica ´ – caratterizzazione dell'input – analisi risultati * metodo del coefficiente di variazione * metodo del goodness of fit • metodo di Kolmogorov Smirnov • metodo del coefficiente di variazione • si applica a v. c. a valore non negativo coefficiente di variazione V= / µ deviazione standard, µ media • distribuzione – – costante V=0 esponenziale ( V=(1/ / (1/ =1 Erlang-k ( k≥ 1 V=1/(√k / (1/ =1/√k iperesponenziale-2 ( ) V=(√k/ / (1/ ) = √k k=(1 -2 p+2 p 2)/2 p(1 -p), 0≤p≤ 1 S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della distribuzione 2/5 • metodo del coefficiente di variazione • misura della dispersione • selezionare il tipo di distribuzione in base al suo coefficiente di variazione – stimare µ e – stima del rapporto V= / µ – intervallo di confidenza; determinare se V>1 o se V<1 • metodo approssimato – es : normale V<1 S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della distribuzione 3/5 • metodo del goodness of fit • x 1 x 2. . . xn campione di osservazioni i. i. d. • dall'istogramma delle osservazioni • si ipotizza una distribuzione teorica • si confronta la distribuzione teorica con quella empirica con un test 2 • si partizionano le osservazioni in k categorie definite da intervalli successivi • categoria confronta il n. di osservazioni e il n. di frequenze teoriche dato dall'area della curva nell'intervallo relativo – Fi frequenze teoriche – fi frequenze osservate • in ogni categoria devono esservi almeno 5 osservazioni (fi>5) • si applica il test 2 considerando la somma V = i [(fi - Fi)2 / (Fi)] • che è una v. c. 2 con (k-1 -(n. parametri stimati)) gradi di libertà • si confronta con i relativi percentili • test di accettazione S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della distribuzione 4/5 • metodo del goodness of fit – Esempio: se si ipotizza una distribuzione esponenziale è sufficiente stimare solo la media del campione (x) f(t) = e - (1/x)t – Esempio: se si ipotizza una distribuzione normale è sufficiente stimare media e varianza del campione (x e S 2) per ipotizzare la distribuzione : f(t) = e - (t-x)2/2 S 2 /S√ 2 la cui area sottesa è unitaria » l'istogramma ha area n x se x è l'ampiezza delle categorie » normalizzando la distribuzione si ottiene f(t) = n e - (t-x)2/2 S 2 /S√ 2 Questo metodo si applica anche per distribuzioni discrete – Es. : ipotizzando una distribuzione di Poisson è sufficiente stimare la media p(i) = i e- / i! i≥ 0 » Fi= p(i) n » fi= I(i)/n I(i) numero di intervalli osservati con i arrivi S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della distribuzione 5/5 • Metodo di Kolmogorov Smirnov (KS) • adatto anche a campioni piccoli • molte varianti • confronto fra le distribuzioni cumulative teorica e osservata • e valutazione del massimo scarto fra le due • confrontando il massimo scarto ottenuto con valori tabulati • si decide l'accettabilità dell'ipotesi (tabelle) S. Balsamo - A. A. 2006 -2007 Simulazione