Etisyysmitat ja Batch learning S ysteemianalyysin Laboratorio Teknillinen
Etäisyysmitat ja Batch learning S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 1
Sisältö • Jakaumien etäisyyksien mittaaminen – Euklidinen ja Kullback-Leibler mitat • Batch learning – mallien yksinkertaistaminen – mallin koko ja sen optimointi – käytännön huomioita S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 2
Etäisyysmitat (1/5) • Todellinen tai kohde jakauma x – esim. virheetön arpa x=(1/6, 1/6, 1/6) • Likimääräiset tai arvio jakaumat y ja z – esim. kokeista: y = (0. 10, 0. 20, 0. 10, 0. 20) z = (0. 15, 0. 25, 0. 10, 0. 15) • Kumpi jakaumista y, z lähempänä jakaumaa x ? S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 3
Etäisyysmitat (2/5) • Merkitään ai: llä i: ttä ulostuloa • Neliöllinen sakko määritellään tällöin y: lle • Keskimääräinen sakko on tällöin S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 4
Etäisyysmitat (3/5) Määritellään jakaumien x ja y neliöllinen etäisyys (Euklidinen etäisyys) seuraavasti x=(1/6, 1/6, 1/6) y = (0. 10, 0. 20, 0. 10, 0. 20) z = (0. 15, 0. 25, 0. 10, 0. 15) S ysteemianalyysin Laboratorio Teknillinen korkeakoulu dist. Q(x, y) = 0. 0133 Esitelmä 7 – Tommi Nieminen dist. Q(x, y) = Optimointiopin seminaari - Syksy 2005 / 5 0. 0167
Etäisyysmitat (4/5) • Vastaavasti määritellään logaritminen pisteytyssääntö • Mistä etäisyydeksi (Kullback-Leibler divergenssi) vastaavasti S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 6
Etäisyysmitat (5/5) Molemmat aitoja mittoja: Euklidinen etäisyys Kullback-Leibler divergenssi • Symmetrinen x, y • Epäsymmetrinen x, y S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 7
Batch learning - intro (1/3) Esimerkki: viisikirjaimiset sanat kirjaimista ’a’ ja ’b’ aabaa, abbaa, bbbaa… -frekvenssi analyysi aaa aab aba abb baa bab bba bbb aa 0, 017 0, 021 0, 019 0, 045 0, 068 ab 0, 033 0, 04 0, 037 0, 038 0, 011 0, 016 0, 015 ba 0, 011 0, 014 0, 01 0, 031 0, 046 0, 031 0, 045 bb 0, 05 0, 06 0, 057 0, 016 0, 023 0, 015 0, 023 T 1 T 2 T 3 T 4 T 5 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 8
Batch learning – intro (2/3) T 1 T 2 aaa T 3 T 4 T 5 T 2 T 3 T 4 dist. Q(P, P*)=0, 000337 T 5 aba abb baa bab bba bbb aa 0, 017 0, 021 0, 019 0, 045 0, 068 0, 302 ab 0, 033 0, 04 0, 037 0, 038 0, 011 0, 016 0, 015 0, 2 ba 0, 011 0, 014 0, 01 0, 031 0, 046 0, 031 0, 045 0, 198 bb 0, 05 0, 06 0, 057 0, 016 0, 023 0, 015 0, 023 0, 111 0, 135 0, 122 0, 124 0, 103 0, 153 0, 101 0, 151 1 T 1 aab aaa aab aba abb baa bab bba =P bbb aa 0, 016 0, 023 0, 018 0, 021 0, 044 0, 067 0, 05 0, 061 ab 0, 03 0, 044 0, 033 0, 041 0, 015 0, 012 0, 014 ba 0, 016 0, 012 0, 014 0, 029 0, 045 0, 033 0, 041 bb 0, 044 0, 067 0, 059 0, 061 0, 016 0, 023 0, 017 0, 021 = P* S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 9
Batch learning – intro (3/3) Kumpi parempi? Yksinkertaisuus vs. Tarkkuus Miten verrataan? Mmax T 1 Msimp T 1 T 2 T 3 T 4 T 5 vs. T 2 T 3 T 4 T 5 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 10
Mallin koko Määritellään jokaiselle muuttujalle A, jonka vanhemmat ovat pa(A), taulukon P(A|pa(A)) koko Sp(A): na. Tällöin mallin M koko määritellään T 1 T 2 T 3 T 4 T 5 Msimp T 1 T 2 T 3 T 4 T 5 Mmax Size(Msimp)=2+4+4=18 Size(Mmax)=2+4+8+16+32=62 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 11
Mallin optimointi (1/2) Määritetään hyväksymismitta (acceptance measure) 1. Valitaan käytettävä etäisyysmitta, hyväksyttävän etäisyyden yläraja ja vakio k. 2. Minimoidaan Acc S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 12
Mallin optimointi (2/2) Optimi malli: Mmin T 1 T 2 T 3 Size(Mmin)=2+4+4+2+8=20 T 4 T 5 Acc(P, Mmin)=20, 14 k = 10 000 ja max(dist)=0, 0005 T 1 T 2 T 3 T 4 T 5 P(Word|Mmax)=P(Word) dist. Q = 0 Acc = Size(Mmax)=62 T 1 T 2 T 3 T 4 T 5 Size(Msimp)= 18 Acc(P, Msimp)=21, 37 S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Mmax Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 13
Batch learning käytännössä (1/4) • Jos muutujia paljon, ei ole mahdollista aloittaa Mmax: sta • Aloitetaan hallittavasta mallista ja muutetaan vaiheittain lisämäällä, poistamalla ja uudelleen suuntaamalla linkkejä – huomioidaan kausaalisuus – asiantuntijalausunnot Riskitekijä Hoito Tauti Oire S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 14
Batch learning käytännössä (2/4) Suuri datavarasto • vaikea laskea Eukliidinen etäisyys • käytetään logaritmista pisteytystä SM(c)=-log 2 PM(c) SM(C) - SC(C) = n dist. K(PM, PC) jos tapaukset riippumattomia ÞSM(C)=-log 2 PM(C), PM(C)=P(C|M) S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 15
Batch learning käytännössä (3/4) • tietokannan jakauma ei välttämättä ole ’todellinen’ jakauma, • Merkitän tätä tietokantaa C: llä – maksimoidaan S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 16
Batch learning käytännössä (4/4) Muita yleisiä ongelmia – Arvoja puuttuu – Useita tietokantoja lomittaisista sarjoista muuttujia, joilla eri määrät tapauksia – C voi olla erittäin suuri S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 17
Yhteenveto • Jakaumien vertailu etäisyysmitoilla • Batch learning – Muodostetaan yksinkertaisempi malli (Bayesverkko) tutkittavasta S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 18
Kotitehtävä a) Määritä seuraavien mallien (Bayesverkkojen) koot, kun Bi: t ovat kaksi tilaisia ja Ti: t kolmi tilaisia muuttujia B 1 B 2 M 1: B 5 B 3 B 4 b) M 2: B 1 T 1 B 2 T 3 T 2 Heitettäessä noppaa 100 kertaa saatiin seuraavat frekvenssit (15, 16, 22, 14, 21, 14). Laske saadun jakauman Eukliidinen etäisyys virheettömän nopan todellisesta jakaumasta. Vertaa saamaasi arvoa BL osiossa esitetyn yksinkertaisimman mallin (Msimp) etäisyyteen 0, 000337. S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 7 – Tommi Nieminen Optimointiopin seminaari - Syksy 2005 / 19
- Slides: 19