Normaalimuotoisten pelien ratkaisukonseptit MSE 2142 Optimointiopin seminaari Peliteoria

  • Slides: 25
Download presentation
Normaalimuotoisten pelien ratkaisukonseptit MS-E 2142 Optimointiopin seminaari: Peliteoria ja tekoäly 28. 9. 2016 Ella

Normaalimuotoisten pelien ratkaisukonseptit MS-E 2142 Optimointiopin seminaari: Peliteoria ja tekoäly 28. 9. 2016 Ella Warras The document can be stored and made available to the public on the open internet pages of Aalto University. All other rights are reserved.

Ratkaisukonseptit Nashin tasapaino – entä muut vaihtoehdot? – – – – Maxmin- ja minmax-strategiat

Ratkaisukonseptit Nashin tasapaino – entä muut vaihtoehdot? – – – – Maxmin- ja minmax-strategiat Minimax-katumus (minimax regret) Dominoitujen strategioiden eliminointi Rationalisoituvuus Korreloitu tasapaino Tärisevän käden tasapaino Epsilon-Nash –tasapaino ² Nashin tasapainon laskennallinen ratkaiseminen kahden pelaajan peleissä

Maxmin-strategia • Pelaajan i maxmin-strategia on sellainen joka maksimoi i: n pienimmän mahdollisen tuloksen

Maxmin-strategia • Pelaajan i maxmin-strategia on sellainen joka maksimoi i: n pienimmän mahdollisen tuloksen tilanteessa jossa kaikki muut pelaajat pelaavat i: n kannalta huonoimmat mahdolliset strategiansa • Toisin sanoen i varautuu huonoimpaan mahdolliseen tilanteeseen (“pessimistin sääntö”) • Pelaajan i maxmin-arvo:

Maxmin-strategia — esimerkki Kahvilanpitäjä Hanna Erkku aikoo tilata yhden tuotteen myyntiin tulevaa kesää varten.

Maxmin-strategia — esimerkki Kahvilanpitäjä Hanna Erkku aikoo tilata yhden tuotteen myyntiin tulevaa kesää varten. Vaihtoehtoina ovat jäätelö, pulla ja kuuma kaakao. Riippuen tulevan kesän säästä näiden tuotteiden oletetut kysynnät vaihtelevat kuitenkin paljon. Oheisesta taulukosta nähdään kesän mahdolliset lämpötilat (oletetaan yhtä todennäköisiksi) sekä kunkin vaihtoehdon oletettu tuotto. H. Erkku on pessimisti ja seuraa maxminstrategiaa. Minkä tuotteen hän ottaa myyntiin? Lämpötila Jäätelö Pulla Kaakao Kylmä 250 350 500 Keski 450 500 200 Kuuma 800 500 100

Maxmin-strategia — esimerkki Lämpötila Jäätelö Pulla Kaakao Kylmä 250 350 500 Keski 450 500

Maxmin-strategia — esimerkki Lämpötila Jäätelö Pulla Kaakao Kylmä 250 350 500 Keski 450 500 200 Kuuma 800 500 100 Vastaus: H. Erkku ottaa pullan myyntiin, koska sen huonoin mahdollinen tuotto 350 on suurempi kuin jäätelön (250) tai kaakaon (100).

Minmax-strategia • Pelaajan i minmax-strategia on sellainen joka minimoi vastustajan (tai vastustajien) –i parhaimman

Minmax-strategia • Pelaajan i minmax-strategia on sellainen joka minimoi vastustajan (tai vastustajien) –i parhaimman mahdollisen tuloksen • Rankaisee vastustajaa, ei välitä omasta tuloksesta • Jos pelaajia on enemmän kuin 2, ja i haluaa pelata minmax-strategiaa j: tä vastaan, kaikkien muiden pelaajien täytyy yhdessä pelata tätä strategiaa j: tä vastaan (ei riitä että i tekee niin) • Pelaajan –i minmax-arvo:

Esimerkki • Nashin tasapaino: (B, R) = (4, 4) • Maxmin-strategia: (T, L) =

Esimerkki • Nashin tasapaino: (B, R) = (4, 4) • Maxmin-strategia: (T, L) = (3, 1) • Minmax-strategia: (T, R) = (2, -20) tai (M, R) = (-10, 1) Left Right Top 3, 1 2, -20 Middle 5, 0 -10, 1 Bottom -100, 2 4, 4

Esimerkki • Nashin tasapaino: (B, R) = (4, 4) • Maxmin-strategia: (T, L) =

Esimerkki • Nashin tasapaino: (B, R) = (4, 4) • Maxmin-strategia: (T, L) = (3, 1) • Minmax-strategia: (T, R) = (2, -20) tai (M, R) = (-10, 1) Left Right Top 3, 1 2, -20 Middle 5, 0 -10, 1 Bottom -100, 2 4, 4

Minmax-teoreema (von Neumann, 1928) Kahden pelaajan nollasummapelissä mikä tahansa Nashin tasapaino on kummallekin pelaajalle

Minmax-teoreema (von Neumann, 1928) Kahden pelaajan nollasummapelissä mikä tahansa Nashin tasapaino on kummallekin pelaajalle yhtä kuin sekä minmax- että maxmin-arvo. B kruuna B klaava A kruuna +1, -1 -1, +1 A klaava -1, +1 +1, -1

Minmax-teoreema — esimerkki Matching Pennies • A ja B ottavat kumpikin kolikon, ja kääntävät

Minmax-teoreema — esimerkki Matching Pennies • A ja B ottavat kumpikin kolikon, ja kääntävät esiin kruunan tai klaavan • Sama => A saa B: n kolikon • Eri => B saa A: n kolikon • Nashin tasapaino: sekastrategia, kummatkin valitsevat kruunan todennäköisyydellä ½ – Myös kummankin pelaajan maxmin- ja minmax-strategia • Nollasummapelin arvo (value of a zero-sum game): pelaajan 1 maxmin-arvo = 0 B kruuna B klaava A kruuna +1, -1 -1, +1 A klaava -1, +1 +1, -1

Satulapiste (kahden pelaajan nollasummapeli) • Nashin tasapainopiste on kummallekin pelaajalle maxmin- ja minmax-piste (minmaxteoreema)

Satulapiste (kahden pelaajan nollasummapeli) • Nashin tasapainopiste on kummallekin pelaajalle maxmin- ja minmax-piste (minmaxteoreema) – Matching Pennies-esimerkissä kummatkin saavat tasapainopisteessä tuloksen 0 • Tämän voi nähdä graafisesti satulan muodossa • Satulapisteessä mikä tahansa pelaajan tekemä siirtyminen huonontaa omaa tulosta ja parantaa toisen tulosta

Minimax-katumus (minimax regret) • Tilanteessa jossa pelaaja –i oletetaan täysin ennalta-arvaamattomaksi, pelaajalle i voi

Minimax-katumus (minimax regret) • Tilanteessa jossa pelaaja –i oletetaan täysin ennalta-arvaamattomaksi, pelaajalle i voi olla järkevää minimoida suurin mahdollinen menetyksensä (verrattuna parhaaseen tapaukseen) • Minimax-katumuksen mukaiset toiminnot määritellään: i: n katumus valittuaan vaihtoehdon ai jos pelaaja –i on pelannut a-i i: n katumus valittuaan vaihtoehdon ai jos pelaaja –i on pelannut i: n kannalta pahimman mahdollisen a-i i minimoi maksimaalisen katumuksen

Minimax-katumus — esimerkki • Maksimikatumus kullekin valinnalle • Palataan kahvilaesimerkkiin: oletetut voitot kullekin tuotteelle

Minimax-katumus — esimerkki • Maksimikatumus kullekin valinnalle • Palataan kahvilaesimerkkiin: oletetut voitot kullekin tuotteelle Lämpötila Kylmä Jäätelö 250 Pulla 350 Kaakao Lämpö-tila 500 Kylmä Keski 450 500 200 Keski Kuuma 800 500 100 Kuuma Jäätelö Pulla Kaakao (500 -250=) (500 -350=) (500 -500=) 250 150 0 (500 -450=) (500 -500=) (500 -200=) 50 0 300 (800 -800=) (800 -500=) (800 -100=) 0 300 700 minimax-katumuksen mukainen valinta on jäätelö

Dominoitujen strategioiden eliminointi Kolme eri dominanssityyppiä 1. Vahvasti dominoiva strategia – Strategia si dominoi

Dominoitujen strategioiden eliminointi Kolme eri dominanssityyppiä 1. Vahvasti dominoiva strategia – Strategia si dominoi vahvasti strategiaa si’ jos kaikille vastustajan siirroille s-i pätee että ui(si, s-i) > ui(si’, s-i) 2. Heikosti dominoiva strategia – Strategia si dominoi heikosti strategiaa si’ jos kaikille vastustajan siirroille s-i pätee että ui(si, s-i) ≥ ui(si’, s-i) ja ainakin yhdelle s-i pätee että ui(si, s-i) > ui(si’, s-i) 3. Hyvin heikosti dominoiva strategia – Strategia si dominoi hyvin heikosti strategiaa si’ jos kaikille vastustajan siirroille s-i pätee että ui(si, s-i) ≥ ui(si’, s-i) Jos jokin strategia si’ dominoi (vahvasti, heikosti tai hyvin heikosti) strategiaa si, tällöin si on (vahvasti, heikosti tai hyvin heikosti) dominoitu.

Dominoitujen strategioiden eliminointi — esimerkki • (muokattu aiemmasta esimerkkitaulukosta) • Kun etsimme Nashin tasapainoa,

Dominoitujen strategioiden eliminointi — esimerkki • (muokattu aiemmasta esimerkkitaulukosta) • Kun etsimme Nashin tasapainoa, huomaamme että Bottom antaa aina huonomman tuloksen kuin Top, riippumatta vastustajan valinnasta • Bottom on (vahvasti) dominoitu strategia, eli pelaaja 1 ei tule koskaan valitsemaan sitä • Voimme poistaa sen taulukosta, mikä tekee pelistä helpomman ratkaista Left Right Top 3, 1 2, -20 Middle 5, 0 -10, 1 Bottom -100, 2 1, 4

Rationalisoituvuus (Rationalizability) • Strategia on rationalisoituva (rationalizable) jos rationaalinen pelaaja pystyy perustellusti pelaamaan sen

Rationalisoituvuus (Rationalizability) • Strategia on rationalisoituva (rationalizable) jos rationaalinen pelaaja pystyy perustellusti pelaamaan sen yhtä tai useampaa rationaalista pelaajaa vastaan – Toisin sanoen, strategia on rationalisoituva jos strategia on paras vastaus sellaisiin strategioihin joita pelaaja uskoo vastustajan voivan pelata – Pelaaja ei voi uskoa vastustajasta mitä tahansa, vaan täytyy ottaa huomioon vastustajan rationaalisuus (joka vuorostaan ottaa huomioon ensimmäisen pelaajan rationaalisuuden, jne. johtaen ikuiseen ketjuun) • Nashin tasapainostrategiat ovat aina rationalisoituvia • Kahden pelaajan peleissä asia on yksinkertainen: rationalisoituvat strategiat ovat niitä jotka selviävät kaikista dominoitujen strategioiden eliminointikierroksista

Korreloitu tasapaino • Pelaajat tekevät valintansa jonkin ulkopuolisen sattumanvaraisen tapahtuman perusteella – Voi olla

Korreloitu tasapaino • Pelaajat tekevät valintansa jonkin ulkopuolisen sattumanvaraisen tapahtuman perusteella – Voi olla kolmas, puolueeton osapuoli tai esimerkiksi luonnonilmiö – Tapahtuma kertoo heille mitä valita, he saavat itse päättää mutta jos ei ole insentiiviä poiketa suosituksesta, kyseessä on korreloitu tasapaino • Esimerkki: Sukupuolten taisto Jalkapallo Elokuva Jalkapallo 1, 2 0, 0 Elokuva 0, 0 2, 1 – Pelaajat heittävät kolikkoa: • Kruuna => molemmat valitsevat jalkapallon • Klaava => molemmat valitsevat elokuvan – He saavat kuitenkin päättää itse, mutta kummallakaan ei ole syytä poiketa tästä tasapainosta

Tärisevän käden tasapaino (trembling hand perfect equilibrium) • Tärisevän käden tasapaino on tila jossa

Tärisevän käden tasapaino (trembling hand perfect equilibrium) • Tärisevän käden tasapaino on tila jossa strategia ottaa huomioon vastustajan (pienellä todennäköisyydellä) tekemät epäjohdonmukaiset valinnat • Esimerkki: – Nashin tasapainot: (A, A) ja (B, B) – Tärisevän käden tasapaino: ainoastaan (A, A) A B A 1, 1 0, 0 B 0, 0

Epsilon-Nash -tasapaino • Epsilon-Nash –tasapaino on tilanne jossa Nashin tasapaino on lähes saavutettu, eli

Epsilon-Nash -tasapaino • Epsilon-Nash –tasapaino on tilanne jossa Nashin tasapaino on lähes saavutettu, eli on olemassa marginaalisesti parempi vaihtoehto mutta nykytilannetta pidetään riittävän hyvänä – Nashin tasapainon saavuttaminen vaatisi suuren vaivan, esim. aikaavievän laskutoimituksen, tai sitten nykytilannetta pidetään turvallisempana vaihtoehtona (status quo-harha)

Nashin tasapainon ratkaiseminen laskennallisesti

Nashin tasapainon ratkaiseminen laskennallisesti

Nashin tasapaino: kahden pelaajan nollasummapeli • Voidaan ilmaista lineearisena ohjelmointiongelmana (linear program, LP) •

Nashin tasapaino: kahden pelaajan nollasummapeli • Voidaan ilmaista lineearisena ohjelmointiongelmana (linear program, LP) • Etsitään pelaajan 1 tulos kun pelaaja 2 pelaa (puhdasta tai seka-)minmaxstrategiaa häntä vastaan: Minimoidaan pelaajan 1 tulos Niin että se kuitenkin on paras mahdollinen valinta pelaajalle 1 ottaen huomioon pelaajan 2 pelaaman strategian (s 2 k on todennäköisyys että p 2 tekee siirron a 2 k (osa sekastrategiaa), eli niiden summa on 1 ja ne ovat ei-negatiivisia) • Vastaavasti etsitään pelaajan 1 maxmin-tulos, ja saadaan Nashin tasapaino

Nashin tasapaino: kahden pelaajan nollasummapeli • Esimerkki: Sukupuolten taisto, sekastrategiaratkaisun löytäminen (puhtaat strategiat (J,

Nashin tasapaino: kahden pelaajan nollasummapeli • Esimerkki: Sukupuolten taisto, sekastrategiaratkaisun löytäminen (puhtaat strategiat (J, J) ja (E, E)) – Vaimo (pelaaja 1) valitsee jalkapallon tn: llä p – Mies (pelaaja 2) valitsee jalkapallon tn: llä q – Molemmat vaihtoehdot yhtäläisiä • • Vaimo valitsee jalkapallon, hyöty: 1 q + 0(1 -q) = q Vaimo valitsee elokuvan, hyöty: 0 q + 2(1 -q) = 2 -2 q Mies valitsee jalkapallon, hyöty: 2 p + 0(1 -p) = 2 p Mies valitsee elokuvan, hyöty: 0 p + 1(1 -p) = 1 -p Jalkapallo Elokuva Jalkapallo 1, 2 0, 0 Elokuva 0, 0 2, 1 – q = 2 -2 q ja 2 p = 1 -p q = 2/3 ja p = 1/3 – Sekastrategiaratkaisu: vaimo valitsee jalkapallon tn: llä 1/3 ja mies tn: llä 2/3

Nashin tasapaino: kahden pelaajan ei-nollasummapelin ratkaisun kompleksisuus • Voiko tämä ongelma olla NP-täydellinen? –

Nashin tasapaino: kahden pelaajan ei-nollasummapelin ratkaisun kompleksisuus • Voiko tämä ongelma olla NP-täydellinen? – NP-täydellinen = ratkeaa epädeterministisessä polynomialisessa ajassa, eli algoritmin worst-case –kesto on eksponentiaalinen – NP-täydellisillä ongelmilla ei kuitenkaan aina ole ratkaisua, toisin kuin tässä tapauksessa, joten tarvitaan toinen kompleksisuusluokka: • PPAD (polynomial parity argument, directed version) – Ongelmana löytää ratkaisu jonka tiedetään olevan aina olemassa – Kuten NP: n tapauksessa, ei voida tietää onko P = PPAD (eli onko kaikille PPADongelmille olemassa polynomialisessa ajassa toimiva ratkaisualgoritmi), mutta yleisesti uskotaan että näin ei ole • Ongelma on PPAD-täydellinen, eli worst-case –kesto on eksponentiaalinen

Terminologia • satulapiste = graafinen esitys minmax- ja maxmin-pisteiden yhtymästä eli Nashin tasapainosta •

Terminologia • satulapiste = graafinen esitys minmax- ja maxmin-pisteiden yhtymästä eli Nashin tasapainosta • katumus (regret) = erotus parhaan mahdollisen ja oman toteutuneen tuloksen välillä • nollasummapelin arvo = pelaajan 1 maxmin-arvo • (vahvasti, heikosti tai hyvin heikosti) dominoiva strategia = strategia jonka tulos on parempi tai yhtä suuri kuin jonkin toisen (dominoidun) strategian tulos kaikille mahdollisille vastustajan strategioille • rationalisoituva strategia = strategia jota rationaalinen pelaaja pystyy perustellusti pelaamaan toista rationaalista pelaajaa vastaan • NP = nondeterministic polynomial time (algoritmin kompleksisuusluokka) • PPAD = polynomial parity argument, directed version (algoritmin kompleksisuusluokka)

Kotitehtävät 1. Ratkaise oheinen peli dominoitujen strategioiden iteratiivisella eliminoinnilla. Näytä välivaiheet. 1. Ratkaise oheisen

Kotitehtävät 1. Ratkaise oheinen peli dominoitujen strategioiden iteratiivisella eliminoinnilla. Näytä välivaiheet. 1. Ratkaise oheisen pelin a) Nashin tasapainot, b) tärisevän käden tasapaino (trembling hand perfect equilibrium). Perustele vastauksesi. Left Center Right Top -5, -1 2, 2 3, 3 Middle 1, -3 1, 2 1, 1 Bottom 0, 10 0, -10 A B C A 0, 0 B 0, 0 1, 1 2, 0 C 0, 0 0, 2 2, 2