Pemodelan Input Catatan diambil dari Discreteevent System Simulation
Pemodelan Input Catatan diambil dari “Discrete-event System Simulation” by Banks, Carson, Nelson, and Nicol, Prentice Hall, 2005, and “Simulation Modeling and Analysis” by Law and Kelton, Mc. Graw Hill, 2000. 1
Outline r Kualitas output bergantung pada model input yang mengendalikan simulasi r Modul ini membahas: m Pengambilan data dari sistem riil m Hipotesis distribusi probabilitas m Pemilihan parameter untuk distribusi m Goodness of fit test – seberapa baik distribusi memodelkan data yang tersedia m Pemilihan distribusi jika tidak ada data m Model proses kedatangan (Proses Poisson, Proses Poisson Non-stasioner, Batch Arrival) 2
Pengambilan Data r Buat rencana terlebih dahulu: mulai dengan sesi latihan r r r atau pra-observasi, perhatikan kejadian yang tidak biasa. Analisis data pada saat dikumpulkan: cek kecukupannya. Kombinasikan set data homogen, misalnya periode waktu yang berturut-turut, selama periode waktu yang sama pada hari yang berurutan. Berhati-hatilah dalam melakukan sensor data: kuantitas tidak diobservasi secara total, menghabiskan waktu proses yang lama. Periksa hubungan antar variabel, misalnya, buat diagram penyebaran. Cek otokorelasi Kumpulkan data input, bukan data kinerja. 3
Identifikasi Distribusi Probabilitas r Beberapa teknik yang dapat digunakan (bisa digabungkan) m Pengetahuan awal mengenai peran variabel random. • Waktu antar kedatangan berdistribusi eksponensial jika kedatangan terjadi satu per satu, memiliki mean rate konstan, dan independen. • Waktu pelayanan tidak terdistribusi normal karena waktu pelayanan tidak boleh negatif. • Produk banyak bagian yang independen bisa bersifat Lognormal m Gunakan dasar fisik distribusi sebagai panduan m Statistik rangkuman m Histogram 4
Panduan Distribusi r Gunakan dasar fisik distribusi sebagai panduan, sebagai contoh: m m m m Binomial: # sukses dalam n percobaan. Poisson: # independent event yang terjadi dalam waktu atau ruang tertentu. Normal: distribusi proses yang merupakan jumlah komponen proses. Eksponensial: waktu antara independent event, atau waktu proses yang tidak memakai memory. Weibull: waktu sampai kegagalan komponen. Uniform diskrit atau kontinu: memodelkan ketidakpastian yang lengkap. Triangular: proses yang hanya nilai minimum, dan kemungkinan besar, nilai maksimum yang diketahui. Empiris: sampel ulang dari data aktual yang dikumpulkan. 5
Statistik Rangkuman 6
Histogram r Distribusi frekuensi atau histogram berguna untuk menentukan bentuk distribusi r Jumlah interval kelas bergantung pada: m m m Jumlah observasi Penyebaran data Disarankan: akar kuadrat ukuran sampel r Untuk data kontinu: m Berhubungan dengan fungsi densitas probabilitas dari distribusi teoritis. r Untuk data diskrit: m Berhubungan dengan fungsi massa probabilitas. r Jika hanya tersedia beberapa titik data: gabungkan sel yang bersisian untuk menghaluskan bentuk histogram. 7
Histogram untuk Data Kontinu r Ambil n = 100 sample waktu antar kedatangan request kepada Web server dalam periode 1 -minute period (lihat Web page) m m Kedatangan request kurang lebih stasioner – # request yang datang dalam periode 10 detik kurang lebih sama. Sample mean = 0. 534 detik; median = 0. 398; CV = 0. 98 Distribusi eksponensial? Sisi kanan menunjukkan dua histogram: gambar atas dengan interval atau ukuran bin 0. 1 detik; gambar bawah dengan ukuran bin 0. 25 detik. 8
Histogram untuk Data Diskrit r Sampel n = 100 observasi jumlah barang yang diminta dari sebuah job shop per minggu untuk periode waktu yang lama m m m (# permintaan, # observasi): {(0, 1), (1, 3), (2, 8), (3, 14), (4, 18), (5, 17), (6, 16), (7, 10), (8, 8), (9, 4), (10, 1)} Mean = 4. 94, varians = 4. 4, Lexis ratio = 0. 9 Distribusi Poisson? 9
Estimasi Parameter r Tahap berikutnya setelah pemilihan sekelompok distribusi r Jika observasi pada sample dengan ukuran n adalah X 1, X 2, …, Xn (diskrit atau kontinu), mean dan varians sampel adalah: r Jika data diskrit dan dikelompokkan pada distribusi frekuensi: dengan fj adalah frekuensi yang terobservasi dari nilai Xj 10
Estimasi Parameter r Jika data mentah tidak tersedia (data dikelompokkan dalam interval kelas), aproksimasi mean dan varians sampel adalah: di mana fj frekuensi yang terobservasi pada interval kelas ke-j mj adalah titik tengah interval ke-j, dan c adalah jumlah interval kelas r Parameter adalah konstanta yang tidak diketahui, sedangkan estimator adalah sebuah nilai statistik. 11
Seberapa Representatif Fit Data tersebut? r Plot data kontinu sepanjang histogram dan cari kesamaannya Fitted Dist r Data diskrit – bandingkan frekuensi yang terobservasi dengan frekuensi yang diharapkan r Coba plot Quantile- Quantile Plot Terobservasi 12
Quantile-Quantile Plot r Q-Q plot merupakan alat bantu yang berguna untuk evaluasi fit distribusi r Jika X adalah variabel acak dengan cdf F, maka qquantile dari X adalah g sedemikian sehingga m Di mana F memiliki invers, g = F-1(q) r Jika {xi, i = 1, 2, …. , n} merupakan sampel data dari X dan {yj, j = 1, 2, …, n} adalah observasi dengan urutan naik: di mana j adalah ranking atau nomer urut 13
Quantile-Quantile Plot r Plot yj versus F-1( (j-0. 5)/n) adalah m m Aproksimasi adalah garis lurus jika F merupakan anggota kelompok distribusi yang sesuai Garis tersebut memiliki slope 1 jika F merupakan anggota kelompok distribusi yang sesuai dengan nilai parameter yang sesuai 14
Quantile-Quantile Plot r Contoh: Cek apakah waktu pemasangan pintu terdistribusi normal [BCNN 05] m m Observasi diurutkan dari yang paling kecil ke yang paling besar: yj di-plot versus F-1( (j-0. 5)/n) dengan F memiliki distribusi normal dengan mean sampel (99. 99 detik) dan varians sampel (0. 28322 detik 2) 15
Quantile-Quantile Plot [BCNN 05] r Contoh (lanjutan): Cek apakah waktu pemasangan pintu terdistribusi normal. Garis lurus, mendukung hipotesa distribusi normal distribution Fungsi densitas distribusi normal yang disuperimpose 16
Quantile-Quantile Plot [BCNN 05] r Perhatikan hal-hal berikut ini ketika mengevaluasi linieritas q-q plot: m m m Nilai yang terobservasi tidak pernah tepat berada pada garis lurus Nilai yang terurut diberi peringkat, dan dengan demikian tidak independen, tidak mungkin titik-titik tersebut tersebar sepanjang garis Varians titik-titik ekstrim lebih tinggi dari yang di tengah. Linieritas titik-titda di tengah plot lebih penting. r Q-Q plot juga dapat digunakan untuk memeriksa homogenitas m m Cek apakah satu distribusi dapat merepresentasikan sample set kedua-duanya. Mem-plot nilai urutan kedua sampel data terhadap satu sama lain. 17
Uji Goodness-of-Fit [BCNN 05] r Lakukan pengujian hipotesis pada distribusi data input dengan menggunakan: m m Kolmogorov-Smirnov (KS) test Chi-square test r Tidak ada distribusi tunggal yang benar pada aplikasi riil. m m Jika data yang tersedia hanya sedikit, distribusi kandidat tidak mungkin diabaikan Jika banyak tersedia data, mungkin saja semua distribusi kandidat diabaikan 18
Uji Chi-Square [BCNN 05] r Bandingkan histogram data dengan bentuk fungsi distribusi kandidat r Valid untuk ukuran sampel yang besar di mana parameter diestimasi dengan maximum likelihood r Atur n observasi menjadi satu set k interval kelas atau cell, statistik uji adalah: Frekuensi yang terobservasi Frekuensi yang diharapkan Ei = n*pi dengan pi adalah probabilitas teoritis dari interval ke-i. Minimum yang disarankan = 5 yang secara aproksimasi mengikuti distribusi chi-square dengan k-s-1 derajat kebebasan, di mana s = # parameter distribusi hipotesis yang di-estimasi oleh statistik sampel. 19
Uji Chi-Square r Null hypothesis – observasi dari satu distribusi yang sudah ditentukan tidak dapat diabaikan dari signifikansi α jika: Didapat dari tabel r Catatan: m Error pada cell dengan Ei’s yang kecil mempengaruhi statistik uji lebih dari cell dengan Ei’s yang besar. m Ukuran minimum Ei diperdebatkan: [BCNN 05] merekomendasikan nilai sebesar 3 atau lebih; jika tidak, gabungkan cell yang bersisian. m Uji hanya dirancang untuk distribusi diskrit ukuran sampel yang besar. Untuk distribusi kontinu, uji Chi-Square hanya merupakan pendekatan (yaitu, tingkat signifikansi hanya berlaku untuk n->∞). 20
Uji Chi-Square r Contoh 1: 500 bilangan acak dibangkitkan dengan menggunakan random number generator; observasi dikategorisasi ke dalam cell dengan 0. 1, antara 0 and 1. Pada tingkat signifikansi 0. 1, apakah bilangan-bilangan ini IID U(0, 1)? 21
Uji Chi-Square [BCNN 05] r Contoh 2: Kedatangan kendaraan H 0: variabel acak terdistribusi Poisson. H 1: variabel acak tidak terdistribusi Poisson. Digabungkan karena min Ei m Derajat kebebasan adalah k-s-1 = 7 -1 -1 = 5, dengan demikian, hipotesis tidak diterima pada tingkat signifikansi 0. 05. 22
Uji Chi-Square r Jika distribusi yang diuji kontinu: dengan ai-1 dan ai adalah titik ujung interval kelas ke-ith dan f(x) adalah pdf yang diasumsikan, F(x) adalah cdf yang diasumsikan. m m Jumlah interval kelas yang diasumsikan (k): Perhatikan: Pengelompokan data yang berbeda (yaitu, k) dapat mempengaruhi hasil uji hipotesis. 23
Uji Kolmogorov-Smirnov (KS) r Selisih antara CDF F 0(x) observasi dan CDF Fe(x) ekspektasi harus kecil; formalisasi ide Q-Q plot. r Tahap 1: Beri peringkat observasi dari terkecil sampai terbesar: Y 1 ≤ Y 2 ≤ Y 3 ≤ … ≤ Yn r Tahap 2: Definisikan Fe(x) = (#i: Yi ≤ x)/n r Tahap 3: Hitung K sebagai berikut: 24
Uji KS r Contoh: Uji jika populasi bersifat eksponensial dengan parameter β = 0. 01; yaitu Fe(x) = 1 – e–βx; K[0. 9, 15] = 1. 0298. 25
Uji KS r Uji KS sesuai untuk sampel yang kecil, baik kontinu maupun diskrit. r Uji KS, tidak seperti uji Chi-Square, memakai setiap observasi pada sampel tanpa mengelompokkan data menjadi cell (interval). r Uji KS bersifat pasti jika semua parameter distribusi ekspektasi telah diketahui. 26
Pemilihan Model tanpa Data r Jika data tidak tersedia, beberapa sumber yang dapat dipakai untuk memperoleh informasi mengenai proses adalah: m m Engineering data: seringkali produk atau proses memiliki rating kinerja yang disediakan oleh manufacturer, atau peraturan perusahaan menentukan standard waktu atau produksi. Pilihan pakar: orang-orang yang berpengalaman dengan proses tersebut, ataupun yang menyerupai, seringkali dapat memberikan waktu optimistik, pesimistik dan yang paling mungkin, dan mereka juga bisa mengetahui variabilitas. Keterbatasan fisik atau konvensional: batasan fisik atas kinerja, batasan lain yang mempersempit kisaran proses input. Karakteristik proses. r Distribusi uniform, triangular, dan beta sering digunakan sebagai model input. [lihat LK 00] 27
Model Proses Kedatangan r Proses Poisson r Poisson non-stasioner r Batch Arrival 28
Proses Poisson r Definisi: N(t) melambangkan jumlah kedatangan pada interval waktu [0, t]. r Proses stokastik {N(t), t>=0} merupakan proses Poisson dengan mean rate l jika: m m m N(0) = 0 Kedatangan terjadi satu per satu {N(t), t>=0} memiliki inkremen stasioner – jumlah kedatangan pada interval tertentu hanya bergantung pada panjang interval, bukan lokasinya {N(t), t>=0} memiliki inkremen independen – jumlah kedatangan pada interval waktu disjoint adalah independen. Dan … 29
Proses Poisson: Waktu Antar Kedatangan r Anggap waktu antar kedatangan proses Possion process (A 1, A 2, …), dengan Ai adalah waktu antara kedatangan i dan kedatangan i+1 m m Kedatangan pertama terjadi setelah waktu t jika dan hanya jika tidak ada kedatangan pada interval [0, t], dengan demikian: P{A 1 > t} = P{N(t) = 0} = e-lt P{A 1 <= t} = 1 – e-lt [cdf exp(l)] Waktu antar kedatangan, A 1, A 2, …, terdistribusi eksponensial dan independen dengan mean 1/l Penghitungan kedatangan ~ Poisson(l) Stasioner dan independen Waktu antar kedatangan ~ Exp(1/l) Memoryless 30
Proses Poisson: Splitting dan Pooling r Splitting: m Anggap setiap event proses Poisson dapat diklasifikasikan sebagai Type I, dengan probabilitas p dan Type II, dengan probabilitas 1 -p. m N(t) = N 1(t) + N 2(t), dengan N 1(t) dan N 2(t) adalah proses Poisson dengan rate l p dan l (1 -p) N(t) ~ Poisson(l) lp l l(1 -p) N 1(t) ~ Poisson[lp] N 2(t) ~ Poisson[l(1 -p)] r Pooling: m Dua proses Poisson di-pool bersama m N 1(t) + N 2(t) = N(t), dengan N(t) adalah proses Poisson dengan rate l 1 + l 2 N 1(t) ~ Poisson[l 1] l 1 N 2(t) ~ Poisson[l 2] l 2 l 1 + l 2 N(t) ~ Poisson(l 1 + l 2) 31
Proses Poisson Non-stasioner (NSPP) r Proses Poisson tanpa inkremen stasioner, dikarakterisasikan oleh l(t), kecepatan kedatangan pada waktu t. r Jumlah kedatangan ekspektasi pada waktu t, L(t): r Menghubungkan proses Poisson stasioner n(t) dengan rate l=1 dan NSPP N(t) dengan rate l(t): m Tentukan waktu kedatangan proses stasioner dengan rate l = 1 sebagai t 1, t 2, …, dan waktu kedatangan NSPP dengan rate l(t) sebagai T 1, T 2, …, kita ketahui: ti = L(Ti) Ti = L-1(ti) 32
Proses Poisson Non-stasioner (NSPP) r Contoh: Misalkan kedatangan di Kantor Pos memiliki rate 2 per menit dari jam 8 pagi sampai 12 siang, dan kemudian 0. 5 per menit sampai jam 4 sore. r Tentukan t = 0 mewakili jam 8 pagi, NSPP N(t) memiliki fungsi kecepatan: Jumlah kedatangan ekspektasi pada waktu t: r Dengan demikian, distribusi probabilitas jumlah kedatangan antara jam 11 pagi dan 2 siang. P[N(6) – N(3) = k] = P[N(L(6)) – N(L(3)) = k] = P[N(9) – N(6) = k] = e(9 -6)k/k! = e 3(3)k/k! 33
Batch Process r N(t) adalah jumlah batch yang datang pada waktu t. r Jika waktu antara kedatangan batch adalah variabel acak eksponensial IID, {N(t), t≥ 0} dapat dimodelkan sebagai proses Poisson. r X(t) = jumlah total pelanggan yang datang sampai waktu t; Bi = jumlah pelanggan pada batch ke-i; maka r Jika Bi’s adalah variabel acak IID yang independen terhadap {N(t) t≥ 0}, dan jika {N(t), t≥ 0} adalah proses Poisson, maka proses stokastik {X(t), t≥ 0} adalah proses Compound Poisson 34
- Slides: 34