Analisis Data Output Slide terutama diambil dari The

Analisis Data Output Slide terutama diambil dari: “The Art of Computer Systems Performance Analysis” by Raj Jain, Wiley 1991. [Chapters 12, 13, and 25] 1

Outline r Pengukuran Central Tendency m Mean, Median, Mode r Bagaimana merangkum Variabilitas? r Membandingkan sistem dengan menggunakan Sample Data r Membandingkan dua alternatif r Transient Removal 2

Pengukuran Central Tendency (1) r Sample mean – Jumlah semua hasil observasi dibagi banyaknya observasi m Selalu ada dan unik m Mean memberikan beban yang sama pada semua observasi m Mean sangat dipengaruhi oleh outlier r Sample median – daftar hasil observasi dengan urutan naik; hasil observasi yang di tengah adalah median; m# observasi genap – mean dari dua nilai tengah m Selalu ada dan unik m Tidak terpengaruh outlier 3

Pengukuran Central Tendency (2) r Modus sample – plot histogram dari observasi; temukan puncak dengan frekuensi paling besar; titik ini adalah modus; m m m Modus mungkin tidak ada (yaitu, semua sample memiliki frekuensi yang sama) Bisa lebih dari satu (yaitu, bimodal) Jika hanya ada satu modus, distribusi tersebut adalah unimodal mode 4

Pengukuran Central Tendency (3) r Pakah data categorical? m Ya: gunakan modus m Contoh: sumber daya yang paling banyak dipakai dalam sistem r Apakah jumlah total penting? m Ya: gunakan mean m Contoh: total response time untuk Web requests r Apakah distribusi tidak simetris? m Ya: gunakan median • Median lebih tidak terpengaruh oleh outlier, dibandingkan dengan mean. m Tidak: gunakan mean. Kenapa? 5

Penyalahgunaan Mean yang umum (1) r Kegunaan mean bergantung pada jumlah observasi dan varians m Contoh: dua sample response time: 10 ms and 1000 ms. Mean adalah 505 ms! Nilai yang benar, tetapi tidak ada gunanya. r Penggunaan mean tanpa , mempedulikan ketaksimetrisan Sistem A 10 9 11 10 10 Mean: 10 Modus: 10 Min, Max: [9, 11] Sistem B 5 5 5 4 31 10 5 [4, 31] 6

Penyalahgunaan Mean yang umum(2) r Mean suatu hasil kali dengan mengalikan mean m Mean suatu hasil kali sama dengan hasil kali mean jika kedua variabel acak tersebut independen. m Jika x dan y berkorelasi E(xy) != E(x)E(y) m Rata-rata user pada sistem system 23; rata-rata proses/user 2. Rata-rata # proses pada sistem? Apakah sama dengan 46? m Tidak! Umlah proses yang dipakai bersama oleh user bergantung pada beban. 7

Outline r Pengukuran Central Tendency r Bagaimana merangkum Variabilitas? r Membandingkan sistem dengan menggunakan Sample Data r Membandingkan dua alternatif r Transient Removal 8

Merangkum Variabilitas r Merangkum dengan satu bilangan cukup jarang dilakukan m Jika ada dua sistem dengan mean yang sama, kita biasanya memilih yang variabilitasnya lebih rendah 20% 4 s Mean=2 s Response Time Frequency 80% 1. 5 s 60% ~ 0. 001 s 40% ~5 s Mean=2 s Response Time r Indeks penyebaran • Range, Varians, 10 - dan 90 -percentil, Semi-interquantile range, dan mean absolute deviation 9

Range (kisaran) r Mudah dihitung; range = max – min r Pada banyak skenario, tidak terlalu berguna: m Min mungkin sama dengan nol m Max bisa jadi merupakan “outlier” m Dengan lebih banyak sample, max mungkin terus naik, dan min mungkin terus turun → tidak ada titik “stabil” r Range berguna jika kinerja sistem terbatas 10

Varians dan Standard Deviasi r Jika ada sample dari n observasi {x 1, x 2, …, xn}, varians sample dihitung sebagai: r Varians sample: s 2 (kuadrat satuan observasi) r Standard deviasi sample: s (dalam satuan observasi) r Perhatikan (n-1) pada perhitungan varians m (n-1) dari n selisih bersifat independen m Jika ada (n-1) selisih, selisih ke-n dapat dihitung m Jumlah independent terms adalah “derajat kebebasan” / degrees of freedom (df) 11

Standard Deviasi (SD) r Standard deviasi dan memiliki satuan yang sama m Lebih baik! m Contoh a) Mean = 2 s, SD = 2 s; variabilitas tinggi? m Contoh b) Mean = 2 s, SD = 0. 2 s; variabilitas rendah? r Pengukuran lain yang banyak digunakan – C. O. V m C. O. V = Rasio standard deviasi terhadap mean m C. O. V tidak memiliki satuan m C. O. V menunjukkan besar variabilitas m C. O. V pada (a) adalah 1 dan pada (b) adalah. 1 12

Percentile, Quartile r Batas dan bawah dinyatakan dalam persen atau pecahan m 90 -percentile → 0. 9 -quantile m –quantile: men-sort dan mengambil [(n-1) +1]th observasi • [] mean dibulatkan ke integer terdekat r Quartile membagi data menjadi bagian 25%, 50%, 75% → quartile (Q 1, Q 2, Q 3) m 25% dari observasi ≤ Q 1 (quartile pertama) m Quartile kedua Q 2 juga merupakan median r Range (Q 3 – Q 1) adalah interquartile range m (Q 3 – Q 1)/2 adalah semi-interquartile (SIQR) range 13

Mean Absolute Deviation r Mean absolute deviation dihitung sebagai: 14

Pengaruh Outlier r Range: besar r Varians sample: besar, tetapi lebih kecil dari range r Mean absolute deviation: lebih kecil dari varians m Tidak mengkuadratkan (memperbesar) outlier r SIQR range: sangat resistant r Gunakan SIQR untuk indeks penyebaran jika median dipakai sebagai indeks central tendency 15

Outline r Pengukuran Central Tendency r Bagaimana merangkum Variabilitas? r Membandingkan Sistem dengan Mengunakan Sample Data m Sample vs. Populasi m Confidence Interval untuk Mean r Membandingkan dua alternatif r Transient Removal 16

Membandingkan Sistem dengan menggunakan Sample Data r Kata “sample” dan “example” memiliki akar yang sama – “essample” (French) r Satu sample tidak membuktikan teori – satu sample hanya merupakan satu contoh (example) r Pada intinya – tidak dapat diberikan pernyataan yang pasti mengenai karakteristik semua sistem. r Bagaimanapun, pernyataan probabilistik mengenai range sebagian besar sistem dapat dibuat. r Konsep Confidence interval (interval kepercayaan) sebagai building block 17

Sample versus Populasi r Bangkitkan 1 -juta bilangan acak m Dengan mean dan SD dan letakkan di satu tempat r Anbil sample dari n observasi m {x 1, x 2, …, xn} memiliki mean , standard deviasi s mungkin berbeda dari ! x x r r Di dunia nyata, mean populasi tidak diketahui atau tidak mungkin didapati demikian, dapatkan estimasi dari x m Dengan 18

Confidence Interval untuk Mean r Definisikan batas c 1 dan c 2 sedemikian sehingga: Prob{c 1 < < c 2} = 1 - m (c 1, c 2) adalah confidence interval m adalah significance level m 100(1 - ) adalah confidence level r Biasanya diinginkan yang kecil m confidence level 90%, 95% atau 99% r Satu pendekatan: ambil k sample, cari sample mean, sort, dan ambil ke-[1+0. 05(k-1)] sebagai c 1 dan ke-[1+0. 95(k-1)]th sebagai c 2 19

Teorema Central Limit (CLT) r Kita tidak membutuhkan banyak sample. Confidence interval dapat ditentukan dari satu sample, karena ~ N( , /sqrt(n)) r SD sample mean /sqrt(n) disebut Standard error r Dengan menggunakan CLT, confidence interval 100(1 - )% untuk mean populasi adalah ( -z 1 - /2 s/sqrt(n), +z 1 - /2 s/sqrt(n)) x x x m z 1 - /2 adalah quantil (1 - /2) dari unit normal variate (didapat dari tabel!) m s adalah SD sample 20

Contoh Confidence Interval r Waktu CPU didapat dengan mengulangi eksperimen sebanyak 32 kali. Himpunan yang telah di-sort terdiri dari m {1. 9, 2. 7, 2. 8, 2. 9, 3. 1, 3. 2, 3. 3, 3. 4, 3. 6, 3. 7, 3. 8, 3. 9, 4. 1, 4. 2, 4. 4, 4. 5, 4. 8, 4. 9, 5. 1, 5. 3, 5. 6, 5. 9} m Mean = 3. 9, standard deviasi (s) = 0. 95, n=32 r Untuk confidence interval 90%, z 1 - /2 = 1. 645, dan kita dapatkan {3. 90 + (1. 645)(0. 95)/(sqrt(32))} = (3. 62, 4. 17) 21

Arti Confidence Interval (CI) r Dengan confidence 90%, kita dapat mengatakan bahwa mean populasi berada dalam batasan ini; yaitu, kemungkinan error adalah 10%. m Contoh, Ambil 100 sample dan buat CI. Dalam 10 kasus, interval tidak berisi mean populasi. x x -c +c 90% kemungkinan bahwa interval ini berisi 22 x

Besar Confidence Interval r z 1 - /2 s/sqrt(n) = c r Maka, z 1 - /2 = (c. sqrt(n))/s m s yang lebih besar menunjukkan confidence interval yang lebih besar m n yang lebih besar menunjukkan confidence interval yang lebih pendek • → dengan observasi yang lebih banyak, kita dapat melakukan prediksi yang lebih baik terhadap mean populasi • → hubungan akar kuadrat n menunjukkan bahwa penambahan observasi sebesar faktor 4 hanya mengurangi confidence interval dengan faktor 2. r Perhitungan Confidence Interval seperti yang dijelaskan di sini, hanya berlaku untuk n ≥ 30. 23

Bagaimana jika n tidak besar? r Untuk sample yang lebih sedikit, confidence interval dapat dibuat hanya jika populasi terdistribusi normal m t[1 -α/2; n-1] adalah quantil (1 -α/2) dari t-variate dengan derajat kebebasan (n-1) 24

Pengujian Zero Mean r Cek apakah nilai yang terukur jauh berbeda dari nol r Tentukan confidence interval r Cek apakah nol ada di dalam interval mean 0 Mean is zero Mean is nonzero 25

Outline r Pengukuran Central Tendency r Bagaimana merangkum Variabilitas? r Membandingkan sistem dengan menggunakan Sample Data r Membandingkan dua alternatif r Transient Removal 26

Membandingkan Dua Alternatif r Contoh m Penjadwalan “SJF” vs. “FIFO” r Teknik statistik untuk perbandingan seperti ini: m Observasi berpasangan m Observasi tidak berpasangan m Aproksimasi uji visual 27

Observasi berpasangan (1) r n eksperimen dengan korespondensi satu-satu antara pengujian pada sistem A dengan pengujian pada sistem B m Tidak ada korespondensi => tidak berpasangan m Uji ini menggunakan ide mean nol… r Perlakukan kedua sample sebagai satu sample dengan n pasang r Untuk setiap pasangan, hitung selisihnya r Buat confidence interval untuk selisih m CI termasul nol => sistem tidak banyak berbeda 28

Observasi berpasangan (2) r Enam beban kerja yang hampir sama digunakan pada dua sistem. {(5. 4, 19. 1), (16. 6, 3. 5), (0. 6, 3. 4), (1. 4, 2. 5), (0. 6, 3. 6) (7. 3, 1. 7)} Apakah salah satunya lebih baik? r Selisih kinerja adalah {-13. 7, 13. 1, -2. 8, -1. 1, -3. 0, 5. 6} r Sample mean = -. 32, sample SD = 9. 03 r CI = -0. 32 + t[sqrt(81. 62/6)] = -0. 32 + t(3. 69) r Quantil. 95 dari t dengan DF 5 adalah 2. 015 r Confidence interval 90% = (-7. 75, 7. 11) r Sistem tidak berbeda karena mean nol ada dalam CI 29

Aproksimasi Uji Visual r Hitung confidence interval untuk mean r Jika CI tidak bertumpangan, satu sistem lebih baik dari yang lainnya mean CI tidak bertumpangan => alternatif berbeda mean CI bertumpangan tetapi CI betumpangan dan mean yang satu tidak yang satu lebih baik berada pada CI yang dari yang lain => perlu pengujian tidak banyak berbeda lagi 30

Menentukan Ukuran Sample r Tujuan: menentukan ukuran sample n sekecil mungkin sehingga hasil dapat dipercaya r Metode: m m m himpunan pengukn awal estimasi varians pengukuran gunakan estimasi untuk menentukan ukuran sample untuk ketepatan r Akurasi r% => +r% pada confidence 100(1 - )% 31

Outline r Pengukuran Central Tendency r Bagaimana merangkum Variabilitas? r Membandingkan sistem dengan menggunakan Sample Data r Membandingkan dua alternatif r Transient Removal 32

Transient Removal r Pada banyak simulasi, diinginkan adanya steady state performance m Buang status transient awal r Bagaimanapun, pendefinisian status transient secara tepat cukup sulit! r Dikembangkan beberapa heuristik : m Long run m Inisialisasi yang layak m Truncation m Penghapusan data awal m Membuang rata-rata replika m Batch mean 33

Long Run r Penggunaan long run (percobaan yang lama/banyak) r Dampak status transient dapat diabaikan r Penggunaan sumber daya yang sia-sia r Seberapa banyak menjadi “cukup banyak”? r Metode ini diusulkan untuk digunakan secara terpisah 34

Batch Mean r Jalankan simulasi untuk waktu lama r Bagi observasi (N) menjadi m batch, masing-masing dengan ukuran n r Hitung varians batch mean dengan menggunakan prosedur untuk n = 2, 3, 4, 5 … r Plot varians vs. ukuran batch Abaikan Varians Batch mean Transient interval Ukuran batch n 35