1 Analiza decyzji - tablica decyzyjna, klasyfikacja problemów
Transkrypt
1 Analiza decyzji - tablica decyzyjna, klasyfikacja problemów
A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 1 Analiza decyzji - tablica decyzyjna, klasyfikacja problemów Tablica decyzyjna. Niech a1 , a2 , . . . , am - działania, strategie, alternatwy decyzyjne, θ1 , θ2 , . . . , θn - stany natury, Xij - pełny opis konsekwencji dla decydenta podjęcia działania ai , gdy zaistniał stan natury θj . 1 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier Alternatywy 2 Stany natury decyzyjne θ1 θ2 ... θ a1 X11 X12 ... X1n a2 .. . X21 .. . X22 .. . ... .. . X2n .. . am Xm1 Xm2 ... Xmn Tab. 1: Ogólna postać tablicy decyzyjnej A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 3 Przykład 1. Alternatywy Stan natury decyzyjne jajko dobre jajko zepsute zbić jajko do miski omlet z 6 jaj nie ma omletu i 5 jajek zniszczonych zbić jajko do omlet z 6 jaj omlet z 5 jajek do innego naczynia i naczynie do umycia i naczynie do umycia wyrzucić jajko omlet z 6 jajek omlet z 5 jajek i jedno jajko zniszczone Tab. 2: Pełny opis konsekwencji problemu decyzyjnego przygotowanie omletu A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier W analizie decyzji stosuje się tablice decyzyjne w których zamiast pełnego opisu konsekwencji Xij używa się miary wartości konsekwencji v(Xij ) oznaczanej dalej przez vij dla i = 1, . . . , m; j = 1, . . . , n i nazywanej użytecznością. Miara ta powinna spełniać warunek, że vij > vkl , gdy dla decydenta bardziej sprzyjające są konsekwencje Xij niż konsekwencje Xkl (mówi się również, że decydent preferuje konsekwencje Xij w stosunku do konsekwencji Xkl ). Tablica decyzyjna w której konsekwencje zostały zastąpione użytecznością (3): 4 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier Alternatywy 5 Stany natury decyzyjne θ1 θ2 ... θ a1 v11 v12 ... v1n a2 .. . v21 .. . v22 .. . ... .. . v2n .. . am vm1 vm2 ... vmn Tab. 3: Postać ogólna tablicy decyzyjnej, w której konsekwencje zastąpiono użytecznością A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 1.1 Typy problemów decyzyjnych • Problemy decyzyjne w warunkach pewności. Występuje tylko jeden stan natury, którego wystąpienie jest pewne - tablica decyzyjna ma tylko jedną kolumnę. • Problemy decyzyjne w warunkach ryzyka. Znane jest prawdopodobieństwo wystąpienia każdego stanu natury. Dla dyskretnych stanów natury θ1 , θ2 , . . . , θn prawdopodobieństwa ich wystąpienia oznaczamy przez P (θ1 ), P (θ2 ), . . . , P (θn ). • Problemy decyzyjne w warunkach niepewności. Znane są sposoby postępowania decydenta i potrafimy zidentyfikować wszystkie możliwe stany natury ale nie wiemy nic o prawdziwym stanie natury. 6 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 1.1.1 7 Problemy w warunkach pewności Optymalną jest alternatywa o najbardziej sprzyjającej dla decydenta wartości użyteczności. 1.1.2 Problemy w warunkach ryzyka Racjonalne kryterium wyboru optymalnej decyzji polega na wyborze takiej alternatywy decyzyjnej ak , która maksymalizuje (lub minimalizuje, gdy użyteczność jest kosztem) wartość średnią użyteczności tj. n X j=1 m P (θj )vkj = max i=1 n X j=1 P (θj )vij A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier Przykład 2. Sprzedawca truskawek kupuje na plantacji koszyczek truskawek za 3zł. a sprzedaje za 8zł. Sprzedany koszyk przynosi mu zatem 5zł. zysku a nie sprzedany stratę 3zł. Z doświadczenia wie, że dzienny popyt może wynosić 10, 11, 12 lub 13 koszyczków. Z 90 obserwacji, które zgromadził wie, że w 18 przypadkach dzienny popyt kształtował się na poziomie 10 , w 36 na poziomie 11, w 27 na poziomie 12 i w 9 na poziomie 13 koszyczków. ai - zakup na plantacji 10 + (i − 1) koszyczków truskawek, θi - popyt dzienny na poziomie 10 + (i − 1) (i = 1, 2, 3, 4) koszyczków a użytecznością będzie dzienny zysk sprzedawcy, to tablicą decyzyjną jest tablica 4. 8 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 9 Zysk θ1 θ2 θ3 θ4 EV (ai ) a1 50 50 50 50 50 a2 47 55 55 55 53.4 a3 44 52 60 60 53.6 a4 41 49 57 65 51.4 Rozkład 0.2 0.4 0.3 0.1 Tab. 4: Tablica decyzyjna sprzedawcy truskawek W tej tablicy EV (ai ) oznacza wartość średnią użyteczności alternatywy ai . Decyzją optymalną jest wybór alternatywy a3 , która daje maksymalny oczekiwany zysk wynoszący EV (a3 ) = 53.6. Niech X będzie dyskretną zmienną losową rozkładu stanów natury (tj. wielkości popytu na truskawki) przyjmującą wartości q, q + 1, . . . , Q o rozkładzie P (x) dla x = q, q + 1, . . . , Q i dystrybuancie F (x) = P (X ≤ x). Wartość średnia A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier użyteczności alternatywy ai , jest wartością średnią funkcji zmiennej losowej X. Niech d(z), z = q, q + 1, . . . , Q - wartość średnia zysku sprzedawcy, gdy zakupił na plantacji z koszyczków truskawek(tj. EV (ai ) = d(z), gdzie z = 10 + i − 1, i = 1, 2, 3, 4 ), a - zysk jaki osiąga sprzedawca z jednego sprzedanego koszyczka, b strata na jednym nie sprzedanym koszyczku (dla rozpatrywanego przykładu a = 5, b = 3). Załóżmy, że sprzedawca zakupił z − 1 koszyczków (jego średni zysk wynosi d(z − 1)). Dokupienie dodatkowo jednego koszyczka truskawek przyniesie stratę b jeśli popyt x będzie x ≤ z − 1. Prawdopodobieństwo tego zdarzenia wynosi P (X ≤ z − 1). Natomiast przyniesie zysk a jeśli popyt x będzie x > z − 1. To zdarzenie ma prawdopodobieństwo 1 − F (z − 1). Mamy zatem rekurencyjny wzór: d(z) = d(z − 1) + a[1 − F (z − 1)] − bF (z − 1) = d(z − 1) + a − (a + b)F (z − 1) (z = q + 1, q + 2, . . . , Q.) Dla z = q mamy d(q) = aq. 10 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 11 Dla sprzedawcy truskawek mamy: EV (a1 ) = d(z = 10) = 5 ∗ 10 = 50 EV (a2 ) = d(11) = d(10) + 5 − (5 + 3)F (10) = 50 + 5 − 8 2 = 53.4 10 6 = 53.6 10 9 = 51.4 EV (a4 ) − d(13) = d(12) + 5 − 8F (12) = 58.6 − 8 10 Optymalną strategię można również wyznaczyć wzorem analitycznym. Jeśli strategią optymalną jest wybór alternatywy polegającej na zakupie k∗ koszyczków, to z własności maksimum lokalnego mamy, że a d(k∗ ) ≥ d(k∗ − 1) ⇒ F (k∗ − 1) ≤ a+b a ≤ F (k∗ ) d(k∗ ) ≥ d(k∗ + 1) ⇒ a+b EV (a3 ) = d(12) = d(11) + 5 − 8F (11) = 58.4 − 8 Stąd mamy a ≤ F (k∗ ) a+b Wartość k∗ spełniająca tę nierówność jest optymalną decyzją. Ten ostatni sposób wyznaczania alternatywy optymalnej jest najoszczędniejszy. Dla sprzedawcy F (k∗ − 1) ≤ A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier truskawek mamy a 5 = = 0.425 i 0.4 = F (11) ≤ 0.625 ≤ F (12) = 0.9, a+b 3+5 czyli optymalną alternatywą jest zakup 12 koszyczków (k∗ = 12). Oczekiwana wartość pewnej informacji (EVPI). Załóżmy, że sprzedawca może z całą pewnością przewidzieć zajście danego stanu natury (ma pewną prognozę odnośnie stanów natury). Wtedy powinien wybierać alterntywę a1 dla stanu θ1 , a2 dla θ2 , a3 dla θ3 i a4 dla θ4 . Ponieważ zna rozkład prawdopodobieństwa stanów natury, to wartość oczekiwana użyteczności wyniesie wtedy: 50 ∗ 0.2 + 55 ∗ 0.4 + 60 ∗ 0.3 + 65 ∗ 0.1 = 56, 5. Bez znajomości tej prognozy wartość oczekiwana zysku wynosi 53,6. Różnica 56.5-53.6=2.9 definiuje oczekiwaną wartość pewnej informacji, czyli EVPI=2.9. Wartość tę możemy interpretować jako maksymalną kwotę, którą można wydać za pewną prognozę. 12 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 1.1.3 13 Kryteria wyboru decyzji w warunkach niepewności Dana jest tablica decyzyjna dla problemu z funkcją użyteczności vij (funkcją tą może być zysk lub koszt). Kryterium Walda - wybór alternatywy dla której najmniej sprzyjający rezultat jest dla decydenta najkorzystniejszy (maksymalizacja minimalnego zysku, gdy użyteczność vij jest zyskiem). Dla każdej alternatywy ai , i = 1, . . . , m wyznacza się dwie wielkości: najbardziej sprzyjający dla decydenta rezultat oi oraz najmniej sprzyjający rezultat si . Jeśli użyteczność vij jest zyskiem , to oi = max{vij } oraz si = min{vij } j j A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 14 natomiast, gdy użyteczność vij jest kosztem, to oi = min{vij } oraz si = max{vij }. j j Decyzją optymalną jest alternatywa ak taka, że sk = max si = max min{vij } jeśli vij jest np. zyskiem i i j lub sk = min si = min max{vij } jeśli vij jest np. kosztem i i j Kryterium to jest najbardziej konserwatywne - decydent wybiera alternatywę, w której najgorszy (najmniej sprzyjający) rezultat będzie dla niego najkorzystniejszy spośród wszystkich alternatyw. Nie wszyscy decydenci wykazują taką postawę względem ryzyka. Niektórzy decydenci mogą preferować alternatywy dla których najbardziej sprzyjający rezultat jest A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 15 najkorzystniejszy tj, wybierać alternatywę ak dla której ok = max oi = max max{vij .} i i j Kryterium Hurwicza - wybór alternatywy o najkorzystniejszej dla decydenta średniej ważonej z najmniej i najbardziej sprzyjającego rezultatu (maksymalizacja - gdy vij jest zyskiem średniej ważonej z najmniej i najbardziej sprzyjającego rezultatu). Jeśli vij jest zyskiem, to decyzją optymalną jest alternatywa ak taka, że αsk +(1−α)ok = max{αsi +(1−α)oi } = max{α min{vij }+(1−α) max{vij }}, i i j gdzie α jest współczynnikiem charakteryzującym decydenta. Dla α = 1 kryterium jest identyczne z kryterium Walda, czyli jest najbardziej zachowawczym, dla α = 0 mamy najbardziej optymistyczne kryterium. Wartości α z przedziału (0,1) j A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 16 pozwalają na modelowanie postaw pośrednich. Jeśli vij jest kosztem, to decyzją optymalną jest alterntywa ak taka, że αsk +(1−α)ok = min{αsi +(1−α)oi } = min{α max{vij }+(1−α) min{vij }}. i i j Kryterium Savage’a - minimalizacja maksymalnego ”żalu”. Na podstawie tablicy decyzyjnej [vij ] konstruuje się nową tablicę [rij ] następująco: maxm {v } − v ij l=1 ij rij = vij − minm {vij } l=1 jeśli vij jest zyskiem, jeśli vij jest kosztem. Element rij tej tablicy jest różnicą pomiędzy użytecznością najlepszej decyzji jaką należałoby podjąć przy wystąpieniu stanu θj a podjętą decyzją (dla vij zysku) i może być interpretowany jako ”‘żal”’ z niepodjęcia najlepszej decyzji. W tablicy rij do wyboru decyzji optymalnej stosuje się kryterium Walda (dla j A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 17 kosztów). Decyzją optymalną jest ak takie, że sk = min{si } = min{max{rij }}. i i j Kryterium Laplace’a(1825) - maksymalizacja (lub minimalizacja, gdy użyteczność jest kosztem) wartości średniej. Optymalną decyzją jest wybór takiej alternatywy ak , że n n X X 1 1 m vkj = max{ vij }. i=1 n n j=1 j=1 Przykład 3. Ośrodek wczasowy przygotowuje zapasy żywności na nadchodzący weekend. Możliwe stany natury θ1 , θ2 , θ3 , θ4 odpowiadają odpowiednio przyjazdowi 100, 150, 200 i 250 turystów. Alternatywy decyzyjnyme a1 , a2 , a3 , a4 to przygotowanie (zakup) zapasów dla odpowiednio 100, 150, 200 i 250 turystów. Użyteczność vij będąca kosztem związanym z podjęciem alternatywy ai i wystąpieniem stanu A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 18 θj podana jest w tablicy 5. vij θ1 θ2 θ3 θ4 si oi a1 5 10 18 25 25 5 a2 8 7 8 23 23 7 a3 21 18 12 21 21 12 a4 30 22 19 15 30 15 Tab. 5: Tablica decyzyjna dla ośrodka wczasowego Optymalną decyzją stosując kryterium Walda jest wybór alternatywy a3 , dla kryterium Hurwicza, gdy współczynnik α = 0.5 alternatywą optymalną jest a1 lub a2 . Dla kryterium Savage’a musimy najpierw wyznaczyć tablicę rij , którą podano w tablicy 6. A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 19 rij θ1 θ2 θ3 θ4 si a1 0 3 10 10 10 a2 3 0 0 8 8 a3 16 8 4 6 16 a4 25 12 11 0 25 Tab. 6: Tablica wartości [rij ] dla ośrodka wczasowego Decyzją optymalną jest w tym przypadku wybór alternatywy a2 . A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 2 Drzewa decyzyjne 3 Gry dwuosobowe o sumie zerowej W poprzednio rozpatrywanych sytuacjach decyzyjnych na efekty działań decydenta miały wpływ stany natury. Obecnie zajmiemy się sytuacjami, gdy na działania decydenta ma wpływ nie natura, którą możemy traktować jako pasywnego oponenta lecz inny racjonalnie działający decydent. W teorii gier obu decydentów nazywamy graczami. Zajmować się będziemy tylko grami dwuosobowymi o sumie zerowej. W takich grach podejmowane przez obu graczy decyzje nazywane sa strategiami. Efekt (użyteczność) podjęcia strategii i przez jednego gracza, gdy drugi gracz wybrał strategię j nazywa się wypłatą i oznaczamy przez [wij ], i = 1, . . . , m; j = 1, . . . , n. W grach o sumie zero wypłata (wygrana) dla jednego gracza jest równa przegranej drugiego. 20 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 21 Przykład 4. Mamy dwóch graczy: gracza 1 i gracza 2. Każdy z nich dysponuje trzema strategiami 1,2 i 3. Macierz wypłat podaje tabela 7 Macierz wypłat Gracz 2 Strategie 1 2 3 1 1 2 4 Gracz 1 2 1 0 5 3 0 1 -1 Tab. 7: Macierz wypłat gry 1 Macierz wypłat tej gry jest dość specyficzna i rozwiązanie otrzymamy wykorzystując koncepcję strategii zdominowanych. Mówimy, że strategia i jest zdominowana przez strategię k jeśli strategia k jest co najmniej tak dobra jak i(a czasami lepsza), bez względu na to, co zrobi oponent (drugi gracz). Formalnie A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 22 strategię i będziemy nazywać strategią zdominowaną przez strategię k, jeśli ∀j=1,...,n wij ≤ wkj oraz ∃l wil < wkl . Natomiast k nazywamy strategią dominującą, jeśli: ∀j=1,...,n wkj = max{wij }. i Strategie, które nie są zdominowane przez inne strategie nazywamy strategiami niezdominowanymi. Racjonalnie działający decydent będzie dokonywał wyboru spośród strategii niezdominowanych. Strategia 3 jest dla gracza 1 zdominowaną przez strategię 1, gdyż bez względu na to jaką strategię wybierze gracz 2 wypłata gracza 1 jest przy wyborze strategii 3 nie niższa niż wypłata przy wyborze strategii 1. Zatem wiersz trzeci odpowiadający strategii zdominowanej możemy skreślić z macierzy wypłat. Zredukowana macierz wypłat jest podana w tablicy 8. 1 2 3 1 1 2 4 2 1 0 5 Tab. 8: Zredukowana macierz gry11 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier Ponieważ zakładamy racjonalność obu graczy, to gracz 2 też ma strategię zdominowaną 3. Jest ona zdominowana zarówno przez strategię 1 jak i przez strategię 2. Eliminujemy strategię 3 gracza 2 co daje macierz wypłat 9: 1 2 1 1 2 2 1 0 Tab. 9: Zredukowana macierz gry12 Teraz strategia 2 dla gracza 1 jest zdominowana przez strategię 1. Eliminując zdominowaną strategię mamy macierz wypłat podaną w tablicy 10: 1 1 2 1 2 Tab. 10: Zredukowana macierz gry13 Strategia 2 dla gracza 2 jet zdominowana przez strategię 1 zatem powinna być 23 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier wyeliminowana. Ostatecznie obaj gracze powinni wybierać strategie 1. Gracz 1 otrzyma wtedy wypłatę 1, ta wartość jest przegraną gracza 2. Jest to wartość gry. Jeśli wartość gry jest 0, to nazywa się grą sprawiedliwą (rozważana gra nie jest grą sprawiedliwą, gdyż jej wartość wynosi 1). Koncepcja zdominowanych strategii pozwala na redukcję wymiaru macierzy wypłat i w niektórych przypadkach pozwala wyznaczyć rozwiązanie gry. Jednak w większości przypadków potrzebujemy innego podejścia, które zaprezentjemy na dwu kolejnych przykładach. 24 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 25 Przykład 5. Rozpatrzymy teraz grę o macierzy wypłat podanej w tablicy 11 Macierz wypłat Gracz 2 Strategie 1 2 3 Minimum 1 -3 -2 6 -3 Gracz 1 2 2 0 2 0← max 3 5 -2 -4 -4 Maximum 5 0 6 ↑ min Tab. 11: Macierz wypłat gry 2 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier W tej grze gracz 1 stosując strategię 1 może wygrać 6 ale może również przegrać 3(wypłata -3). Stosując strategię 3 może wygrać 5 ale może przegrać 4. Natomiast w strategii 2 jego wygrana bez względu na to co zrobi gracz 2 będzie co najmniej 0. Analizując strategie dla gracza 2 mamy, że w strategiach 1 i 3 jego maksymalna przegrana wynosi odpowiednio 5 i 6. natomiast w strategii 2 tylko zero. Obaj gracze powinni zatem wybrać strategię 2, gdyż każdemu z nich zapewnia ona w najgorszym przypadku najlepszy wynik. Jest to tzw. kryterium minimaksowe standardowo proponowane w teorii gier do wyboru strategii optymalnej. Według tego kryterium gracz 1 powinien wybrać strategię ,dla której minimalna wypłata jest największa (tj. maxi minj {wij }) a gracz 2 strategię dla której maksymalna wypłata gracza 1 jest jest najmniejsza (tj. mini maxj {wij }). W analizowanym przykładzie strategią max min jest strategia 2 gracza 1 a strategią min max jest strategia 2 dla gracza 2.Wartość gry jest równa 0, czyli jest to gra sprawiedliwa. W tej grze ten sam element macierzy wypłat(w22 = 0) jest jednocześnie wartością max min i wartością min max, czyli mamy element, który jest najmniejszy w wierzsu i jednocześnie największy w kolumnie. Taki punkt, jesli istnieje, nazywa 26 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier się punktem siodłowym. Jesli gra ma punkt siodłowy, to obaj gracza powinni do wyboru strategii optymalnej stosować odpowiednio max min i min max strategie. Jednak nie każda gra posiada punkt siodłowy - taką jest np. gra 3. 27 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 28 Macierz wypłat Gracz 2 Strategie 1 2 3 Minimum 1 0 -2 2 -2← max Gracz 1 2 5 4 -3 -3 3 2 3 -4 -4 Maximum 5 4 2 ↑ min Tab. 12: Gra 3 - nie ma punktu siodłowego W tej grze maxi minj wij = −2 6= 2 = mini maxj wij nie są równe co oznacza, że gra nie posiada punktu siodłowego. W tej grze informacja A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier o tym jaką strategię wybierze jeden z graczy pozwala drugiemu poprawić swoją pozycję. Koncepcja rozwiazania optymalnego w tego typu grach oparta jest na pojęciu strategii miesznych, które charakteryzują się tym, że żaden z graczy nie może wydedukować jaką strategię użyje oponent. 3.1 Strategie mieszane dla gry bez punktu siodłowego Dla gier nie posiadających punktu siodłowego dla każdego z graczy wyznacza się rozkłady prawdopodobieństwa na zbiorach ich strategii. Niech: xi = prawdopodobieństwo, że gracz 1 użyje strategii i (i = 1, . . . , m), yj = prawdopodobieństwo, że gracz 2 użyje strategii j (j = 1, . . . , n), 29 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier Pm 30 Pn gdzie i=1 xi = 1, j=1 yj = 1. Wartości xi , i = 1, . . . , m oraz yj , j = 1 . . . , n nazywamy strategiami mieszanymi natomiast oryginalne strategie strategiami czystymi. W trakcie gry każdy z graczy wybiera strategię czystą jednak powinien wybierać ją w pewien losowy sposób zgodny z rozkładem (x1 , x2 , . . . , xm ) dla gracza 1 i rozkładem (y1 , y2 , . . . , yn ) dla gracza 2. Np. jesli (x1 , x2 , x3 ) = ( 12 , 12 , 0) a (y1 , y2 , y3 ) = (0, 12 , 12 ), to gracz 1 nie powinien wybierać strategii czystej 3 a wybór strategii 2 lub 3 rozstrzygnąć rzucając monetą. Analogicznie gracz 2 nie powinien wybierać czystej strategii 1 a wybór pomiędzy strategiami 2 i 3 rozstrzygnąć rzucając monetą. Przy stosowaniu strategii mieszanych przez każdego z graczy oczekiwaną wygraną gracza 1 jest Oczekiwana wypłata gracza 1 = m X n X i=1 j=1 wij xi yj , A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 31 gdzie wij jest wypłatą jeśli gracz 1 używa czystej strategii i a gracz 2 używa czystej strategii j. W rozpatrywanej poprzednio grze 3 jeśli gracze 1 i 2 stosują odpowiednio strategie mieszane (x1 , x2 , x3 ) = ( 12 , 12 , 0) i (y1 , y2 , y3 ) = (0, 21 , 12 ) to oczekiwana wypłata gracza 1 wynosi 1 (−2 4 + 2 + 4 − 3) = 1 . 4 Minimaksowe (min max) ktyterium dla strategii mieszanych mówi, że gracz powinien wybierać strategię mieszaną, która minimalizuje jego maksymalne oczekiwane straty. Równoważnie, jeśli rozważamy wygraną gracza 1 (a nie przegraną gracza 2 co jest równoważne) to kryterium to jest maksyminowe (max min), tj. maksymalizuje się minimalną oczekiwaną wypłatę gracza 1. Przez minimalną oczekiwaną wypłatę rozumie się najmniejszą możliwą wypłatę, którę można uzyskać przy dowolnej strategii miesznej, podjętej przez oponenta. Zatem mieszna strategia dla gracza 1 jest optymalną, jeśli minimalna oczekiwana wypłata jest maksymalna. Wartość tą oznaczamy przez w. Dla gracza 2 podobnie optymalną strategią mieszaną jest strategia, która minimalizuje maksymalną oczekiwaną wartość przegranej. Wartość tę oznacza się przez w. Dla gier nie posiadających punktu siodłowego jeśli tylko rozpatruje się czyste strategie, to nie ma rozwiązania stabilnego. A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier Zachodzi wtedy nierówność w < w i gracze mogą zmieniać strategie, aby poprawić swoją pozycję. Dla strategii mieszanych koniecznym warunkiem, aby rozwiązanie optymalne było stabilne jest równość w = w. W grach o sumie zerowej ten warunek jest zawsze spełniony. Twierdzenie 1. Para strategii miesznych dla graczy jest optymalną dając stabilne rozwiązanie przy kryterium minimaksowym, (min max), gdy w = w = w. Stosując te strategie żaden z graczy nie może poprawić swojej pozycji zmieniając jednostronnie swoją strategię. 3.2 Zastosowanie programowania liniowego do wyznaczenia rozwiazania gry Rozwiązanie dowolnej gry w strategiach miesznych można wyznaczyć rozwiazując pewne zagadnienie programowania liniowego. 32 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 33 Wyznaczanie optymalnej strategii mieszanej gracza 1. Oczekiwana wypłata gracza 1 = n m X X wij xi yj , i=1 j=1 i strategia (x1 , x1 , . . . , xm ) jest optymalną jeśli m X n X wij xi yj ≥ w = w i=1 j=1 dla każdej strategii (y1 , y2 , . . . , yn ) gracza 2. Ta nierówność musi również zachodzić dla czystych strategii tj. (y1 , y2 , . . . , yn ) takich, że jedna współrzędna yj = 1 a reszta jest zerami. Zatem mamy: m X i=1 wij xi ≥ w dla j = 1, . . . , n. A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 34 Co więcej ten zbiór nierówności implikuje wyjściową nierówność: n X j=1 Pn n m X X yj w = w, wij xi ) ≥ yj ( i=1 i=1 ponieważ j=1 yj = 1. Spełnienie tych n nierówności jest równoważne spełnieniu wyjściowej nierówności dla każdej strategii y1 , y2 , . . . , yn . Wyznaczenie optymalnej strategii może być zatem sprowadzone do A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 35 rozwiązania następującego zagadnienia programowania liniowego: xm+1 → max w11 x1 + w21 x2 + · · · , +wm1 xm − xm+1 ≥ 0 w12 x1 + w22 x2 + · · · , +wm2 xm − xm+1 ≥ 0 ··· ··· ··· w1n x1 + w2n x2 + · · · , +wmn xm − xm+1 ≥ 0 x1 + x2 + · · · + xm = 1 xi ≥ 0, dla i = 1, 2, . . . , m. Zmienna xm+1 zastępuje nieznaną wartość w i w rozwiązaniu optymalnym będzie jej równa. Jednak na tę zmienną nie jest nałożony warunek nieujemności. Analogiczne rozumowanie prowadzi A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 36 do następującego modelu wyznaczania optymalnej strategii gracza2: yn+1 → max w11 y1 + w12 y2 + · · · , +w1n yn − yn+1 ≤ 0 w21 y1 + w22 y2 + · · · , +w2n yn − yn+1 ≤ 0 ··· ··· ··· wm1 y1 + wm2 y2 + · · · , +wmn yn − yn+1 ≤ 0 y1 + y2 + · · · + yn = 1 yi ≥ 0, dla i = 1, 2, . . . , n. Problem wyznaczenia optymalnej strategii mieszanej dla gracza 1 jest dualnym do problemu wyznaczania strategii optymalnej gracza 2. Z twierdzeń o dualności wiemy, że dla optymalnych rozwiązań x∗m+1 ∗ oraz yn+1 tych zagadnień mamy, że ∗ ∗ −x∗m+1 = −yn+1 czyli x∗m+1 = yn+1 . A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier ∗ = w skąd Z okreslenia w i w mamy, że w = x∗m+1 oraz yn+1 otrzymujemy równość w = w. Pozostaje jeszcze jeden element do rozpatrzenia. W podanych ∗ nie są nieujemne. Jeśli jest modelach liniowych zmienne x∗m+1 , yn+1 oczywiste, że w ≥ 0, to można stosować sympleks. Jeśli tak nie jest należy zastosować jedną z następujących modyfikacji: • zamienić zmienną dowolną różnicą dwu zmiennych nieujemnych, • zamienić rolami graczy tak, aby wypłata gracza 1 była nieujemna, • dodać do macierzy wypłat pewną stałą (równą np. maksymalnej wartości modułów ujemnych wartości macierzy wypłat), tak aby wartość gry w była nieujemną - dodanie stałej nie może zmienić optymalnych strategii, a po rozwiązaniu gry modyfikujemy jej wartość o tę wielkość. 37 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier Ostatni sposób jast najczęściej stosowany. Zastosujmy teraz programowanie liniowe do wyznaczenia optymalnych strategii mieszanych dla gry 3. Przyjmiemy, że wartość gry jest nieujemna tj. w ≥ 0 (okaże się że tak rzeczywiście jest) czyli nie będziemy stosować modyfikacji macierzy wypłat. Przykład 6. W tej grze strategia 3 dla gracza 1 jest zdominowaną zatem powinna być wyeliminowana. Macierz wypłat po usunieciu strategii 3 gracza 1 jest podana w tablicy 13 38 A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 39 Macierz wypłat Gracz 2 Strategie 1 2 3 1 0 -2 2 Gracz 1 2 5 4 -3 Tab. 13: Gra 3 po wyeliminowaniu zdominowanej strategii 3. A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier 40 Modele liniowe dla gracza 1 i gracza 2 są następujące: x3 → max 5x2 − x3 ≥ 0 −2x1 + 4x2 − x3 ≥ 0 2x1 − 3x2 − x3 ≥ 0 x1 + x2 = 1 x1 , x2 ≥ 0. y4 → min −2y2 + 2y3 − y4 ≤ 0 5y1 + 4y2 − 3y3 − y4 ≤ 0 y1 + y2 + y3 = 1 y 1 , y2 , y3 ≥ 0. Rozwiązując te modele otrzymujemy dla gracza 1 optymalną strategię 7 4 2 mieszaną x∗1 = 11 , x∗2 = 11 i wartość gry w = x∗3 = 11 . Dla gracza 2 6 2 5 mamy y1∗ = 0, y2∗ = 11 , y3∗ = 11 oraz w = y4∗ = 11 . To rozwiązanie można otrzymać z rozwiązania modelu dla gracza 1 dlatego wystarcza rozwiązać tylko jeden z tych modeli, aby otrzymać strategie optymalne dla obu graczy. Rozwiązania zostały otrzymane przy założeniu,że A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier w ≥ 0. Jeśli nie jest spełnione to założenie, to model może nie mieć rozwiązania dopuszczalnego. Aby tego uniknąć dodajemy do macierzy wypłat stałą 3 i odpowiednio modyfikujemy ograniczaenia. Po rozwiązaniu tylko wartość gry zmnieszamy o 3. 41