Analisi statistica in simulazione Aspetto fondamentale in simulazione

  • Slides: 19
Download presentation
Analisi statistica in simulazione Aspetto fondamentale in simulazione, a volte sottovalutato Corrette interpretazione dei

Analisi statistica in simulazione Aspetto fondamentale in simulazione, a volte sottovalutato Corrette interpretazione dei risultati • Analisi dei dati di di input – definizione e parametrizzazione del modello – caratterizzazione del carico (distribuzioni, etc. ) • Analisi dei risultati di un esperimento di simulazione – – – – derivare le caratteristiche stocastiche degli indici valutati analisi del comportamento transiente influenza delle condizioni iniziali analisi del comportamento stazionario (steady-state) sistema in equilibrio, eliminazione della fase transiente numero di esperimenti, lunghezza degli esperimenti condizioni iniziali di ogni esperimento. * Convalida degli esperimenti di simulazione S. Balsamo - A. A. 2006 -2007 Simulazione

Analisi statistica classica – stima della media – stima della varianza – stima della

Analisi statistica classica – stima della media – stima della varianza – stima della distribuzione • test di "goodness of fit" • test di Kolmogorov-Smirnov – operazioni su intervalli di confidenza Stazionarietà della popolazione osservata Indipendenza delle osservazioni (proprietà non sempre verificate sia in input che in output) S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della media x 1 x 2. . . xn campione di osservazioni indipendenti

Stima della media x 1 x 2. . . xn campione di osservazioni indipendenti (v. c. ) popolazione caratterizzata da una funzione di distribuzione di probabilità f(x) di media E[x] = µ varianza Var[x] = 2 media campionaria x = xi / n stimatore non distorto della media µ della distribuzione x è una v. c. di media E[x] = E[ i xi / n] = n µ / n = µ e di varianza Var[x] = E[(x-µ)2] = i Var[xi] / n 2 = n 2 / n 2 = 2 / n S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della media x è una buona stima di µ se /n è piccolo

Stima della media x è una buona stima di µ se /n è piccolo poichè Prob{| x - µ| > c /√n } ≤ 1/ c 2 (1) disuguaglianza di Chebyshev la distribuzione f(x) è normale se f(x) è normale, altrimenti, per il teorema del limite centrale, per n ∞ tende ad una normale di media µ e varianza 2/n (approssimazione per n>30) (x - µ) / ( /√n) normale (0, 1) • funzione cumulativa FZ(u) = Prob { Z ≤ u } S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della varianza spesso anche la varianza 2 è ignota Stima della varianza del

Stima della varianza spesso anche la varianza 2 è ignota Stima della varianza del campione Var[x] = E[(x-µ)2] lo stimatore i (xi - x)2 / n è distorto varianza campionaria S 2 = (xi - x)2 / (n-1) stimatore non distorto della varianza 2 della distribuzione S 2 è una v. c. di media E[S 2 ] = E[ i (xi - x)2/(n-1)] = E[( i xi 2 - n x 2)/(n-1)] = = i E[ xi 2] - n E[x 2] )/(n-1) = (n (µ 2+ 2)-n(µ 2+ 2/n) /(n-1) = = 2 deviazione standard campionaria S stimatore non distorto della deviazione standard S. Balsamo - A. A. 2006 -2007 Simulazione

Intervalli di confidenza necessità di calcolare intervalli di confidenza dello stimatore x x 1

Intervalli di confidenza necessità di calcolare intervalli di confidenza dello stimatore x x 1 x 2. . . xn campione di osservazioni indipendenti e identicamente distribuite (i. i. d. ) di media µ e varianza 2 media campionaria x: v. c. di media µ e di varianza 2/n S 2/n è uno stimatore non distorto di 2/n anche la variabile (x - µ) / (S/√n) t-Student con n-1 gradi di libertà ma per n>30 normale (0, 1) funzione cumulativa FZ(u) = Prob { Z ≤ u } q percentile 100 a della distribuzione normale Prob{ Z ≤ q } = u è tale che Prob{ Z ≤ u } = 1 - S. Balsamo - A. A. 2006 -2007 Simulazione

Intervalli di confidenza u : Prob{ Z ≤ u } = 1 - per

Intervalli di confidenza u : Prob{ Z ≤ u } = 1 - per simmetria: Prob{ - u ≤ Z ≤ u } = 1 - Prob{ - u ≤ √n (x - µ) / S ≤ u } = 1 - Prob{ - u ≤ √n (µ - x) / S ≤ u } = 1 - Prob{ x- (S/√n)u ≤ µ ≤ x+(S/√n)u } = 1 - intervallo di confidenza per la media nozione probabilistica; probabilità a priori µ, valore teorico, cade nell'intervallo con prob. 1 - utilizzare i valori di u tabulati Esempio: u intervallo di confidenza al 100( ) =95% x ± (S/√n) 1. 96 Prob{ x- (S/√n) 1. 96 ≤ µ ≤ x+(S/√n)1. 96} = 0. 95 S. Balsamo - A. A. 2006 -2007 Simulazione

Intervalli di confidenza • Conviene ridurre l'ampiezza dell'intervallo di confidenza • Due misure di

Intervalli di confidenza • Conviene ridurre l'ampiezza dell'intervallo di confidenza • Due misure di precisione: • precisione assoluta semiampiezza dell'intervallo • precisione relativa 100 (semiampiezza dell'intervallo / x) • Si usa la misura relativa se non si hanno informazioni sull'ordine di grandezza di µ Es. : x=8, intervallo [7. 5, 8. 5] prec. rel. =100(0. 5/8)=6% • Per ridurre l'ampiezza dell'intervallo di confidenza si deve aumentare il numero n di osservazioni ampiezza 1/√n se S è circa costante S. Balsamo - A. A. 2006 -2007 Simulazione

Intervalli di confidenza Se il campione è ottenuto come risultato di un esperimento di

Intervalli di confidenza Se il campione è ottenuto come risultato di un esperimento di simulazione e si vuole stimare la media µ, utilizzando gli intervalli di confidenza, fissato un livello di confidenza 100( si continua la simulazione finchè n è tale che l'intervallo di confidenza ha una ampiezza inferiore ad una quantità prefissata. • ampiezza dell'intervallo di confidenza 2 (S/√n)u 1. fissare un valore d ed il livello di confidenza 100( 2. generare almeno 30 valori dei dati 3. continuare la generazione fino a k valori tali che 2 (S/√n)u <d , dove S è calcolata con i k valori calcolati 4. si ottiene la stima di µ, calcolando l'intervallo di confidenzax x±(S/√n)u dove x ed S sono calcolati sui k valori determinati al passo 3 generazione ricorsiva di x e di S 2 • tipici valori S. Balsamo - A. A. 2006 -2007 = 0. 01, 0. 05, 0. 1 u livelli di confidenza del 99%, 95%, 90%. Simulazione

Stima della varianza della popolazione metodo indiretto : 2 = E[x 2] - E

Stima della varianza della popolazione metodo indiretto : 2 = E[x 2] - E 2[x] dato un campione x 1. . . xn si stima E[x] tramite gli intervalli di confidenza si deriva E 2[x] dal campione x 12. . . xn 2 si deriva E[x 2] combinando opportunamente gli intervalli di confidenza metodo diretto: basato su S 2 v. c. di media 2 e varianza 0 per n ∞ si dimostra che la v. c. (n-1)S 2/ 2 ha distribuzione 2 con n-1 gradi di libertà Si può applicare la tecnica degli intervalli di confidenza, come nel caso della media, ma facendo riferimento alla distribuzione 2 anzichè alla distribuzione normale Prob{ (n-1)S 2/q ≤ 2 ≤ (n-1)S 2/q } = 1 - dove q sono i percentili della v. c. X 2(n-1) tali che Prob{q ≤ X 2(n-1) ≤ q } = 1 - questo metodo di stima della varianza è sensibile alla distribuzione del campione. Se il campione non ha distribuzione normale tecnica non può essere applicata S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della varianza della popolazione metodo di jackknifing calcolo dell'intervallo di confidenza per la

Stima della varianza della popolazione metodo di jackknifing calcolo dell'intervallo di confidenza per la varianza 2 meno sensibile all forma della distribuzione del campione • dato un campione x 1. . . xn si calcola la media e la varianza campionaria con l'osservazione j rimossa, 1≤j≤n xj = i≠j xi /(n-1) Sj 2= i≠j xi 2 /(n-2) - (n-1) xj /(n-2) • si definiscono gli "pseudovalori" 1≤j≤n zj = n S 2 - (n-1) Sj 2 E[z ] = n E[S 2] - (n-1) E[S 2] = 2 • (nota: S 2= i xi 2 /(n-1) - n x 2/(n-1) ) j j 2 • quindi la distribuzione di zj ha media • Siano z e Sz 2 media e varianza campionaria del campione z 1. . . zn – z = j zj /n – Sz 2= j (zj-z)2 /(n-1) la v. c. (z - 2) /(S /√n) ha distribuzione t-Student con n-1 gradi di libertà, da cui, z come nel caso precedente si ottiene l'intervallo di confidenza per la varianza Prob{ z-(Sz/√n) u ≤ 2 ≤ z+(Sz/√n) u } = 1 - dove u è definito come nel caso della media. S. Balsamo - A. A. 2006 -2007 Simulazione

Operazioni sugli intervalli di confidenza dalle osservazioni relative a due v. c. X di

Operazioni sugli intervalli di confidenza dalle osservazioni relative a due v. c. X di media µ e 1/3 Y di media si vuole valutare la stima del rapporto ∂ = µ / - si ottiene un campione z 1. . . zn dove zi= (xi, yi) 1≤i≤n - calcoliamo le medie campionarie z = (x, y), x = i xi /n y = i yi /n - definiamo la matrice di covarianza del campione S 2= i (zi-z)T /(n-1) S 112 S 122 S 212 S 222 S 112 = i (xi-x)2 /(n-1) S 222 = i (yi-y)2 /(n-1) S 212 = S 122 = i (xi-x) (yi-y) /(n-1) stima puntuale del rapporto µ / • stimatore di Fieller ∂F = [x y - k S 122] / [y 2 - k S 222] dove k = u /2 / n • S. Balsamo - A. A. 2006 -2007 Simulazione

Operazioni sugli intervalli di confidenza stima puntuale del rapporto µ / • stimatore jackknife

Operazioni sugli intervalli di confidenza stima puntuale del rapporto µ / • stimatore jackknife dove Li = n [x/y] - (n-1) [ j≠i xj / j≠i yj] • stimatore di Tin S 222/(y 2))/n ] 2/3 ∂J = i L i / n 1≤i≤n ∂=[x/y] [1+ (S 122/(x y) T tutti gli stimatori sono consistenti (convergono al valore vero con probabilità 1) e sono generalmente distorti • Beale, jackknife, Tin tendono a ridurre la distorsione calcolo dell'intervallo di confidenza per il rapporto ∂ = µ / • stimatore di Iglehart: basato sulla stima puntuale ottenuta utilizzando lo stimatore di Fieller: ∂F ± √D/(y 2 - k S 222) dove D = [x y - k S 122] - [y - k S 222][x - k S 112] e il livello di confidenza dipende da k = u /2 / n • stimatore classico ∂C ± u /2 /(y √n) dove = [S 112 - 2 ∂CS 122 + (∂C)2 S 222]1/2 • stimatore jackknife dove ∂J ± u /2 ' /(√n) ' = [ i (Li - 2 ∂J / (n-1)]1/2 )2 nei due ultimi stimatori e ' rappresentano stime delle varianze del campioni S. Balsamo - A. A. 2006 -2007 Simulazione

Operazioni sugli intervalli di confidenza 3/3 • lo stimatore jackknife – produce migliori risultati

Operazioni sugli intervalli di confidenza 3/3 • lo stimatore jackknife – produce migliori risultati dal punto di vista statistico, specie per campioni piccoli – più complesso da realizzare – si può utilizzare come stima puntuale lo stimatore di Baele e/o di Tin • utilizzare il metodo classico per l'intervallo di confidenza, speciamente se il campione è di grandi dimensioni • altre operazioni sugli intervalli di confidenza – siano µ e due parametri con intervalli di confidenza [ inf, sup] [µinf, µsup] • si ricava con livello di confidenza 100 (1 - 1)100 (1 - 2) – per µ - Prob{µinf - sup ≤ µ - ≤ µsup - inf} = 1 - 1 - 2 – per A µ + B A>0 Prob{A µinf + B ≤ A µsup + B} = 1 - 1 – per max(0, µ) = µ+, µ ≥ 0 n>0 Prob{ (µ+inf )n ≤ (µ+sup )n} = 1 - 1 queste regole sono utilizzate nel metodo indiretto della stima della varianza S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della distribuzione 1/5 • distribuzione teorica distribuzione empirica ´ – caratterizzazione dell'input –

Stima della distribuzione 1/5 • distribuzione teorica distribuzione empirica ´ – caratterizzazione dell'input – analisi risultati * metodo del coefficiente di variazione * metodo del goodness of fit • metodo di Kolmogorov Smirnov • metodo del coefficiente di variazione • si applica a v. c. a valore non negativo coefficiente di variazione V= / µ deviazione standard, µ media • distribuzione – – costante V=0 esponenziale ( V=(1/ / (1/ =1 Erlang-k ( k≥ 1 V=1/(√k / (1/ =1/√k iperesponenziale-2 ( ) V=(√k/ / (1/ ) = √k k=(1 -2 p+2 p 2)/2 p(1 -p), 0≤p≤ 1 S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della distribuzione 2/5 • metodo del coefficiente di variazione • misura della dispersione

Stima della distribuzione 2/5 • metodo del coefficiente di variazione • misura della dispersione • selezionare il tipo di distribuzione in base al suo coefficiente di variazione – stimare µ e – stima del rapporto V= / µ – intervallo di confidenza; determinare se V>1 o se V<1 • metodo approssimato – es : normale V<1 S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della distribuzione 3/5 • metodo del goodness of fit • x 1 x

Stima della distribuzione 3/5 • metodo del goodness of fit • x 1 x 2. . . xn campione di osservazioni i. i. d. • dall'istogramma delle osservazioni • si ipotizza una distribuzione teorica • si confronta la distribuzione teorica con quella empirica con un test 2 • si partizionano le osservazioni in k categorie definite da intervalli successivi • categoria confronta il n. di osservazioni e il n. di frequenze teoriche dato dall'area della curva nell'intervallo relativo – Fi frequenze teoriche – fi frequenze osservate • in ogni categoria devono esservi almeno 5 osservazioni (fi>5) • si applica il test 2 considerando la somma V = i [(fi - Fi)2 / (Fi)] • che è una v. c. 2 con (k-1 -(n. parametri stimati)) gradi di libertà • si confronta con i relativi percentili • test di accettazione S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della distribuzione 4/5 • metodo del goodness of fit – Esempio: se si

Stima della distribuzione 4/5 • metodo del goodness of fit – Esempio: se si ipotizza una distribuzione esponenziale è sufficiente stimare solo la media del campione (x) f(t) = e - (1/x)t – Esempio: se si ipotizza una distribuzione normale è sufficiente stimare media e varianza del campione (x e S 2) per ipotizzare la distribuzione : f(t) = e - (t-x)2/2 S 2 /S√ 2 la cui area sottesa è unitaria » l'istogramma ha area n x se x è l'ampiezza delle categorie » normalizzando la distribuzione si ottiene f(t) = n e - (t-x)2/2 S 2 /S√ 2 Questo metodo si applica anche per distribuzioni discrete – Es. : ipotizzando una distribuzione di Poisson è sufficiente stimare la media p(i) = i e- / i! i≥ 0 » Fi= p(i) n » fi= I(i)/n I(i) numero di intervalli osservati con i arrivi S. Balsamo - A. A. 2006 -2007 Simulazione

Stima della distribuzione 5/5 • Metodo di Kolmogorov Smirnov (KS) • adatto anche a

Stima della distribuzione 5/5 • Metodo di Kolmogorov Smirnov (KS) • adatto anche a campioni piccoli • molte varianti • confronto fra le distribuzioni cumulative teorica e osservata • e valutazione del massimo scarto fra le due • confrontando il massimo scarto ottenuto con valori tabulati • si decide l'accettabilità dell'ipotesi (tabelle) S. Balsamo - A. A. 2006 -2007 Simulazione