1 Analiza decyzji - tablica decyzyjna, klasyfikacja problemów

Transkrypt

A. Kasperski, M. Kulej - AD, drzewa decyzyjne, teoria gier
1
Analiza decyzji - tablica decyzyjna,
klasyfikacja problemów
Tablica decyzyjna.
Niech a1 , a2 , . . . , am - działania, strategie, alternatwy decyzyjne,
θ1 , θ2 , . . . , θn - stany natury,
Xij - pełny opis konsekwencji dla decydenta podjęcia działania ai ,
gdy zaistniał stan natury θj .
1
Alternatywy
2
Stany natury
decyzyjne
θ1
θ2
...
θ
a1
X11
X12
...
X1n
a2
..
.
X21
..
.
X22
..
.
...
..
.
X2n
..
.
am
Xm1
Xm2
...
Xmn
Tab. 1: Ogólna postać tablicy decyzyjnej
3
Przykład 1.
Alternatywy
Stan natury
decyzyjne
jajko dobre
jajko zepsute
zbić jajko do miski
omlet z 6 jaj
nie ma omletu
i 5 jajek zniszczonych
zbić jajko do
omlet z 6 jaj
omlet z 5 jajek
do innego naczynia
i naczynie do umycia
i naczynie do umycia
wyrzucić jajko
omlet z 6 jajek
omlet z 5 jajek
i jedno jajko zniszczone
Tab. 2: Pełny opis konsekwencji problemu decyzyjnego przygotowanie
omletu
W analizie decyzji stosuje się tablice decyzyjne w których zamiast
pełnego opisu konsekwencji Xij używa się miary wartości
konsekwencji v(Xij ) oznaczanej dalej przez vij dla
i = 1, . . . , m; j = 1, . . . , n i nazywanej użytecznością. Miara ta
powinna spełniać warunek, że vij > vkl , gdy dla decydenta bardziej
sprzyjające są konsekwencje Xij niż konsekwencje Xkl (mówi się
również, że decydent preferuje konsekwencje Xij w stosunku do
konsekwencji Xkl ). Tablica decyzyjna w której konsekwencje zostały
zastąpione użytecznością (3):
4
Alternatywy
5
Stany natury
decyzyjne
θ1
θ2
...
θ
a1
v11
v12
...
v1n
a2
..
.
v21
..
.
v22
..
.
...
..
.
v2n
..
.
am
vm1
vm2
...
vmn
Tab. 3: Postać ogólna tablicy decyzyjnej, w której konsekwencje zastąpiono użytecznością
1.1
Typy problemów decyzyjnych
• Problemy decyzyjne w warunkach pewności. Występuje
tylko jeden stan natury, którego wystąpienie jest pewne - tablica
decyzyjna ma tylko jedną kolumnę.
• Problemy decyzyjne w warunkach ryzyka. Znane jest
prawdopodobieństwo wystąpienia każdego stanu natury. Dla
dyskretnych stanów natury θ1 , θ2 , . . . , θn prawdopodobieństwa
ich wystąpienia oznaczamy przez P (θ1 ), P (θ2 ), . . . , P (θn ).
• Problemy decyzyjne w warunkach niepewności. Znane są
sposoby postępowania decydenta i potrafimy zidentyfikować
wszystkie możliwe stany natury ale nie wiemy nic o prawdziwym
stanie natury.
6
1.1.1
7
Problemy w warunkach pewności
Optymalną jest alternatywa o najbardziej sprzyjającej dla decydenta
wartości użyteczności.
1.1.2
Problemy w warunkach ryzyka
Racjonalne kryterium wyboru optymalnej decyzji polega na wyborze
takiej alternatywy decyzyjnej ak , która maksymalizuje (lub
minimalizuje, gdy użyteczność jest kosztem) wartość średnią
użyteczności tj.
n
X
j=1
m
P (θj )vkj = max
i=1
n
X
j=1
P (θj )vij
Przykład 2. Sprzedawca truskawek kupuje na plantacji koszyczek
truskawek za 3zł. a sprzedaje za 8zł. Sprzedany koszyk przynosi mu
zatem 5zł. zysku a nie sprzedany stratę 3zł. Z doświadczenia wie, że
dzienny popyt może wynosić 10, 11, 12 lub 13 koszyczków. Z 90
obserwacji, które zgromadził wie, że w 18 przypadkach dzienny popyt
kształtował się na poziomie 10 , w 36 na poziomie 11, w 27 na
poziomie 12 i w 9 na poziomie 13 koszyczków.
ai - zakup na plantacji 10 + (i − 1) koszyczków truskawek, θi - popyt
dzienny na poziomie 10 + (i − 1) (i = 1, 2, 3, 4) koszyczków a
użytecznością będzie dzienny zysk sprzedawcy, to tablicą decyzyjną
jest tablica 4.
8
9
Zysk
θ1
θ2
θ3
θ4
EV (ai )
a1
50
50
50
50
50
a2
47
55
55
55
53.4
a3
44
52
60
60
53.6
a4
41
49
57
65
51.4
Rozkład
0.2
0.4
0.3
0.1
Tab. 4: Tablica decyzyjna sprzedawcy truskawek
W tej tablicy EV (ai ) oznacza wartość średnią użyteczności
alternatywy ai . Decyzją optymalną jest wybór alternatywy a3 , która
daje maksymalny oczekiwany zysk wynoszący EV (a3 ) = 53.6.
Niech X będzie dyskretną zmienną losową rozkładu stanów natury (tj. wielkości
popytu na truskawki) przyjmującą wartości q, q + 1, . . . , Q o rozkładzie P (x) dla
x = q, q + 1, . . . , Q i dystrybuancie F (x) = P (X ≤ x). Wartość średnia
użyteczności alternatywy ai , jest wartością średnią funkcji zmiennej losowej X.
Niech d(z), z = q, q + 1, . . . , Q - wartość średnia zysku sprzedawcy, gdy zakupił na
plantacji z koszyczków truskawek(tj. EV (ai ) = d(z), gdzie
z = 10 + i − 1, i = 1, 2, 3, 4 ), a - zysk jaki osiąga sprzedawca z jednego
sprzedanego koszyczka, b strata na jednym nie sprzedanym koszyczku (dla
rozpatrywanego przykładu a = 5, b = 3). Załóżmy, że sprzedawca zakupił z − 1
koszyczków (jego średni zysk wynosi d(z − 1)). Dokupienie dodatkowo jednego
koszyczka truskawek przyniesie stratę b jeśli popyt x będzie x ≤ z − 1.
Prawdopodobieństwo tego zdarzenia wynosi P (X ≤ z − 1). Natomiast przyniesie
zysk a jeśli popyt x będzie x > z − 1. To zdarzenie ma prawdopodobieństwo
1 − F (z − 1). Mamy zatem rekurencyjny wzór:
d(z)
=
d(z − 1) + a[1 − F (z − 1)] − bF (z − 1)
=
d(z − 1) + a − (a + b)F (z − 1) (z = q + 1, q + 2, . . . , Q.)
Dla z = q mamy d(q) = aq.
10
11
Dla sprzedawcy truskawek mamy:
EV (a1 ) = d(z = 10)
=
5 ∗ 10 = 50
EV (a2 ) = d(11)
=
d(10) + 5 − (5 + 3)F (10) = 50 + 5 − 8
2
= 53.4
10
6
= 53.6
10
9
= 51.4
EV (a4 ) − d(13) = d(12) + 5 − 8F (12) = 58.6 − 8
10
Optymalną strategię można również wyznaczyć wzorem analitycznym. Jeśli
strategią optymalną jest wybór alternatywy polegającej na zakupie k∗
koszyczków, to z własności maksimum lokalnego mamy, że
a
d(k∗ ) ≥ d(k∗ − 1) ⇒ F (k∗ − 1) ≤
a+b
a
≤ F (k∗ )
d(k∗ ) ≥ d(k∗ + 1) ⇒
a+b
EV (a3 ) = d(12)
=
d(11) + 5 − 8F (11) = 58.4 − 8
Stąd mamy
a
≤ F (k∗ )
a+b
Wartość k∗ spełniająca tę nierówność jest optymalną decyzją. Ten ostatni sposób
wyznaczania alternatywy optymalnej jest najoszczędniejszy. Dla sprzedawcy
F (k∗ − 1) ≤
truskawek mamy
a
5
=
= 0.425 i 0.4 = F (11) ≤ 0.625 ≤ F (12) = 0.9,
a+b
3+5
czyli optymalną alternatywą jest zakup 12 koszyczków (k∗ = 12).
Oczekiwana wartość pewnej informacji (EVPI).
Załóżmy, że sprzedawca może z całą pewnością przewidzieć zajście danego stanu
natury (ma pewną prognozę odnośnie stanów natury). Wtedy powinien wybierać
alterntywę a1 dla stanu θ1 , a2 dla θ2 , a3 dla θ3 i a4 dla θ4 . Ponieważ zna rozkład
prawdopodobieństwa stanów natury, to wartość oczekiwana użyteczności wyniesie
wtedy:
50 ∗ 0.2 + 55 ∗ 0.4 + 60 ∗ 0.3 + 65 ∗ 0.1 = 56, 5.
Bez znajomości tej prognozy wartość oczekiwana zysku wynosi 53,6. Różnica
56.5-53.6=2.9 definiuje oczekiwaną wartość pewnej informacji, czyli EVPI=2.9.
Wartość tę możemy interpretować jako maksymalną kwotę, którą można wydać
za pewną prognozę.
12
1.1.3
13
Kryteria wyboru decyzji w warunkach niepewności
Dana jest tablica decyzyjna dla problemu z funkcją użyteczności vij
(funkcją tą może być zysk lub koszt).
Kryterium Walda - wybór alternatywy dla której najmniej
sprzyjający rezultat jest dla decydenta najkorzystniejszy
(maksymalizacja minimalnego zysku, gdy użyteczność vij jest
zyskiem). Dla każdej alternatywy ai , i = 1, . . . , m wyznacza się
dwie wielkości: najbardziej sprzyjający dla decydenta rezultat oi
oraz najmniej sprzyjający rezultat si . Jeśli użyteczność vij jest
zyskiem , to
oi = max{vij } oraz si = min{vij }
j
j
14
natomiast, gdy użyteczność vij jest kosztem, to
oi = min{vij } oraz si = max{vij }.
j
j
Decyzją optymalną jest alternatywa ak taka, że
sk = max si = max min{vij } jeśli vij jest np. zyskiem
i
i
j
lub
sk = min si = min max{vij } jeśli vij jest np. kosztem
i
i
j
Kryterium to jest najbardziej konserwatywne - decydent wybiera
alternatywę, w której najgorszy (najmniej sprzyjający) rezultat
będzie dla niego najkorzystniejszy spośród wszystkich
alternatyw. Nie wszyscy decydenci wykazują taką postawę
względem ryzyka. Niektórzy decydenci mogą preferować
alternatywy dla których najbardziej sprzyjający rezultat jest
15
najkorzystniejszy tj, wybierać alternatywę ak dla której
ok = max oi = max max{vij .}
i
i
j
Kryterium Hurwicza - wybór alternatywy o najkorzystniejszej dla
decydenta średniej ważonej z najmniej i najbardziej
sprzyjającego rezultatu (maksymalizacja - gdy vij jest zyskiem średniej ważonej z najmniej i najbardziej sprzyjającego
rezultatu). Jeśli vij jest zyskiem, to decyzją optymalną jest
alternatywa ak taka, że
αsk +(1−α)ok = max{αsi +(1−α)oi } = max{α min{vij }+(1−α) max{vij }},
i
i
j
gdzie α jest współczynnikiem charakteryzującym decydenta. Dla
α = 1 kryterium jest identyczne z kryterium Walda, czyli jest
najbardziej zachowawczym, dla α = 0 mamy najbardziej
optymistyczne kryterium. Wartości α z przedziału (0,1)
j
16
pozwalają na modelowanie postaw pośrednich. Jeśli vij jest
kosztem, to decyzją optymalną jest alterntywa ak taka, że
αsk +(1−α)ok = min{αsi +(1−α)oi } = min{α max{vij }+(1−α) min{vij }}.
i
i
j
Kryterium Savage’a - minimalizacja maksymalnego ”żalu”. Na
podstawie tablicy decyzyjnej [vij ] konstruuje się nową tablicę
[rij ] następująco:

 maxm {v } − v
ij
l=1 ij
rij =
 vij − minm {vij }
l=1
jeśli vij jest zyskiem,
jeśli vij jest kosztem.
Element rij tej tablicy jest różnicą pomiędzy użytecznością
najlepszej decyzji jaką należałoby podjąć przy wystąpieniu stanu
θj a podjętą decyzją (dla vij zysku) i może być interpretowany
jako ”‘żal”’ z niepodjęcia najlepszej decyzji. W tablicy rij do
wyboru decyzji optymalnej stosuje się kryterium Walda (dla
j
17
kosztów). Decyzją optymalną jest ak takie, że
sk = min{si } = min{max{rij }}.
i
i
j
Kryterium Laplace’a(1825) - maksymalizacja (lub minimalizacja,
gdy użyteczność jest kosztem) wartości średniej. Optymalną
decyzją jest wybór takiej alternatywy ak , że
n
n
X
X
1
1
m
vkj = max{
vij }.
i=1
n
n
j=1
j=1
Przykład 3. Ośrodek wczasowy przygotowuje zapasy żywności na
nadchodzący weekend. Możliwe stany natury θ1 , θ2 , θ3 , θ4 odpowiadają
odpowiednio przyjazdowi 100, 150, 200 i 250 turystów. Alternatywy
decyzyjnyme a1 , a2 , a3 , a4 to przygotowanie (zakup) zapasów dla
odpowiednio 100, 150, 200 i 250 turystów. Użyteczność vij będąca
kosztem związanym z podjęciem alternatywy ai i wystąpieniem stanu
18
θj podana jest w tablicy 5.
vij
θ1
θ2
θ3
θ4
si
oi
a1
5
10
18
25
25
5
a2
8
7
8
23
23
7
a3
21
18
12
21
21
12
a4
30
22
19
15
30
15
Tab. 5: Tablica decyzyjna dla ośrodka wczasowego
Optymalną decyzją stosując kryterium Walda jest wybór alternatywy
a3 , dla kryterium Hurwicza, gdy współczynnik α = 0.5 alternatywą
optymalną jest a1 lub a2 . Dla kryterium Savage’a musimy najpierw
wyznaczyć tablicę rij , którą podano w tablicy 6.
19
rij
θ1
θ2
θ3
θ4
si
a1
0
3
10
10
10
a2
3
0
0
8
8
a3
16
8
4
6
16
a4
25
12
11
0
25
Tab. 6: Tablica wartości [rij ] dla ośrodka wczasowego
Decyzją optymalną jest w tym przypadku wybór alternatywy a2 .
2
Drzewa decyzyjne
3
Gry dwuosobowe o sumie zerowej
W poprzednio rozpatrywanych sytuacjach decyzyjnych na efekty działań
decydenta miały wpływ stany natury. Obecnie zajmiemy się sytuacjami, gdy na
działania decydenta ma wpływ nie natura, którą możemy traktować jako
pasywnego oponenta lecz inny racjonalnie działający decydent. W teorii gier obu
decydentów nazywamy graczami. Zajmować się będziemy tylko grami
dwuosobowymi o sumie zerowej. W takich grach podejmowane przez obu graczy
decyzje nazywane sa strategiami. Efekt (użyteczność) podjęcia strategii i przez
jednego gracza, gdy drugi gracz wybrał strategię j nazywa się wypłatą i
oznaczamy przez [wij ], i = 1, . . . , m; j = 1, . . . , n. W grach o sumie zero wypłata
(wygrana) dla jednego gracza jest równa przegranej drugiego.
20
21
Przykład 4. Mamy dwóch graczy: gracza 1 i gracza 2. Każdy z nich
dysponuje trzema strategiami 1,2 i 3. Macierz wypłat podaje tabela 7
Macierz wypłat
Gracz 2
Strategie
1
2
3
1
1
2
4
Gracz 1 2
1
0
5
3
0
1
-1
Tab. 7: Macierz wypłat gry 1
Macierz wypłat tej gry jest dość specyficzna i rozwiązanie otrzymamy
wykorzystując koncepcję strategii zdominowanych. Mówimy, że strategia i jest
zdominowana przez strategię k jeśli strategia k jest co najmniej tak dobra jak i(a
czasami lepsza), bez względu na to, co zrobi oponent (drugi gracz). Formalnie
22
strategię i będziemy nazywać strategią zdominowaną przez strategię k, jeśli
∀j=1,...,n wij ≤ wkj oraz ∃l wil < wkl .
Natomiast k nazywamy strategią dominującą, jeśli:
∀j=1,...,n wkj = max{wij }.
i
Strategie, które nie są zdominowane przez inne strategie nazywamy strategiami
niezdominowanymi. Racjonalnie działający decydent będzie dokonywał wyboru
spośród strategii niezdominowanych. Strategia 3 jest dla gracza 1 zdominowaną
przez strategię 1, gdyż bez względu na to jaką strategię wybierze gracz 2 wypłata
gracza 1 jest przy wyborze strategii 3 nie niższa niż wypłata przy wyborze
strategii 1. Zatem wiersz trzeci odpowiadający strategii zdominowanej możemy
skreślić z macierzy wypłat. Zredukowana macierz wypłat jest podana w tablicy 8.
1
2
3
1
1
2
4
2
1
0
5
Tab. 8: Zredukowana macierz gry11
Ponieważ zakładamy racjonalność obu graczy, to gracz 2 też ma strategię
zdominowaną 3. Jest ona zdominowana zarówno przez strategię 1 jak i przez
strategię 2. Eliminujemy strategię 3 gracza 2 co daje macierz wypłat 9:
1
2
1
1
2
2
1
0
Teraz strategia 2 dla gracza 1 jest zdominowana przez strategię 1. Eliminując
zdominowaną strategię mamy macierz wypłat podaną w tablicy 10:
1
1
2
1
2
Strategia 2 dla gracza 2 jet zdominowana przez strategię 1 zatem powinna być
23
wyeliminowana. Ostatecznie obaj gracze powinni wybierać strategie 1. Gracz 1
otrzyma wtedy wypłatę 1, ta wartość jest przegraną gracza 2. Jest to wartość
gry. Jeśli wartość gry jest 0, to nazywa się grą sprawiedliwą (rozważana gra
nie jest grą sprawiedliwą, gdyż jej wartość wynosi 1). Koncepcja zdominowanych
strategii pozwala na redukcję wymiaru macierzy wypłat i w niektórych
przypadkach pozwala wyznaczyć rozwiązanie gry. Jednak w większości
przypadków potrzebujemy innego podejścia, które zaprezentjemy na dwu
kolejnych przykładach.
24
25
Przykład 5. Rozpatrzymy teraz grę o macierzy wypłat podanej w
tablicy 11
Macierz wypłat
Gracz 2
Strategie
1
2
3
Minimum
1
-3
-2
6
-3
Gracz 1 2
2
0
2
0← max
3
5
-2
-4
-4
Maximum
5
0
6
↑
min
Tab. 11: Macierz wypłat gry 2
W tej grze gracz 1 stosując strategię 1 może wygrać 6 ale może również przegrać
3(wypłata -3). Stosując strategię 3 może wygrać 5 ale może przegrać 4. Natomiast
w strategii 2 jego wygrana bez względu na to co zrobi gracz 2 będzie co najmniej
0. Analizując strategie dla gracza 2 mamy, że w strategiach 1 i 3 jego maksymalna
przegrana wynosi odpowiednio 5 i 6. natomiast w strategii 2 tylko zero. Obaj
gracze powinni zatem wybrać strategię 2, gdyż każdemu z nich zapewnia ona w
najgorszym przypadku najlepszy wynik. Jest to tzw. kryterium minimaksowe
standardowo proponowane w teorii gier do wyboru strategii optymalnej. Według
tego kryterium gracz 1 powinien wybrać strategię ,dla której minimalna wypłata
jest największa (tj. maxi minj {wij }) a gracz 2 strategię dla której maksymalna
wypłata gracza 1 jest jest najmniejsza (tj. mini maxj {wij }). W analizowanym
przykładzie strategią max min jest strategia 2 gracza 1 a strategią min max jest
strategia 2 dla gracza 2.Wartość gry jest równa 0, czyli jest to gra sprawiedliwa.
W tej grze ten sam element macierzy wypłat(w22 = 0) jest jednocześnie wartością
max min i wartością min max, czyli mamy element, który jest najmniejszy w
wierzsu i jednocześnie największy w kolumnie. Taki punkt, jesli istnieje, nazywa
26
się punktem siodłowym. Jesli gra ma punkt siodłowy, to obaj gracza powinni
do wyboru strategii optymalnej stosować odpowiednio max min i min max
strategie. Jednak nie każda gra posiada punkt siodłowy - taką jest np. gra 3.
27
28
Macierz wypłat
Gracz 2
Strategie
1
2
3
Minimum
1
0
-2
2
-2← max
Gracz 1 2
5
4
-3
-3
3
2
3
-4
-4
Maximum
5
4
2
↑
min
Tab. 12: Gra 3 - nie ma punktu siodłowego
W tej grze maxi minj wij = −2 6= 2 = mini maxj wij nie są równe co
oznacza, że gra nie posiada punktu siodłowego. W tej grze informacja
o tym jaką strategię wybierze jeden z graczy pozwala drugiemu
poprawić swoją pozycję. Koncepcja rozwiazania optymalnego w tego
typu grach oparta jest na pojęciu strategii miesznych, które
charakteryzują się tym, że żaden z graczy nie może wydedukować
jaką strategię użyje oponent.
3.1
Strategie mieszane dla gry bez punktu
siodłowego
Dla gier nie posiadających punktu siodłowego dla każdego z graczy
wyznacza się rozkłady prawdopodobieństwa na zbiorach ich strategii.
Niech:
xi
=
prawdopodobieństwo, że gracz 1 użyje strategii i (i = 1, . . . , m),
yj
=
prawdopodobieństwo, że gracz 2 użyje strategii j (j = 1, . . . , n),
29
Pm
30
Pn
gdzie i=1 xi = 1,
j=1 yj = 1. Wartości xi , i = 1, . . . , m oraz
yj , j = 1 . . . , n nazywamy strategiami mieszanymi natomiast
oryginalne strategie strategiami czystymi. W trakcie gry każdy z
graczy wybiera strategię czystą jednak powinien wybierać ją w
pewien losowy sposób zgodny z rozkładem (x1 , x2 , . . . , xm ) dla gracza
1 i rozkładem (y1 , y2 , . . . , yn ) dla gracza 2. Np. jesli
(x1 , x2 , x3 ) = ( 12 , 12 , 0) a (y1 , y2 , y3 ) = (0, 12 , 12 ), to gracz 1 nie
powinien wybierać strategii czystej 3 a wybór strategii 2 lub 3
rozstrzygnąć rzucając monetą. Analogicznie gracz 2 nie powinien
wybierać czystej strategii 1 a wybór pomiędzy strategiami 2 i 3
rozstrzygnąć rzucając monetą. Przy stosowaniu strategii mieszanych
przez każdego z graczy oczekiwaną wygraną gracza 1 jest
Oczekiwana wypłata gracza 1 =
m X
n
X
i=1 j=1
wij xi yj ,
31
gdzie wij jest wypłatą jeśli gracz 1 używa czystej strategii i a gracz 2 używa
czystej strategii j. W rozpatrywanej poprzednio grze 3 jeśli gracze 1 i 2 stosują
odpowiednio strategie mieszane (x1 , x2 , x3 ) = ( 12 , 12 , 0) i (y1 , y2 , y3 ) = (0, 21 , 12 ) to
oczekiwana wypłata gracza 1 wynosi
1
(−2
4
+ 2 + 4 − 3) =
1
.
4
Minimaksowe
(min max) ktyterium dla strategii mieszanych mówi, że gracz powinien wybierać
strategię mieszaną, która minimalizuje jego maksymalne oczekiwane straty.
Równoważnie, jeśli rozważamy wygraną gracza 1 (a nie przegraną gracza 2 co jest
równoważne) to kryterium to jest maksyminowe (max min), tj. maksymalizuje się
minimalną oczekiwaną wypłatę gracza 1. Przez minimalną oczekiwaną wypłatę
rozumie się najmniejszą możliwą wypłatę, którę można uzyskać przy dowolnej
strategii miesznej, podjętej przez oponenta. Zatem mieszna strategia dla gracza 1
jest optymalną, jeśli minimalna oczekiwana wypłata jest maksymalna. Wartość tą
oznaczamy przez w. Dla gracza 2 podobnie optymalną strategią mieszaną jest
strategia, która minimalizuje maksymalną oczekiwaną wartość przegranej.
Wartość tę oznacza się przez w. Dla gier nie posiadających punktu siodłowego
jeśli tylko rozpatruje się czyste strategie, to nie ma rozwiązania stabilnego.
Zachodzi wtedy nierówność w < w i gracze mogą zmieniać strategie, aby
poprawić swoją pozycję. Dla strategii mieszanych koniecznym warunkiem, aby
rozwiązanie optymalne było stabilne jest równość w = w. W grach o sumie
zerowej ten warunek jest zawsze spełniony.
Twierdzenie 1. Para strategii miesznych dla graczy jest optymalną
dając stabilne rozwiązanie przy kryterium minimaksowym, (min max),
gdy w = w = w. Stosując te strategie żaden z graczy nie może
poprawić swojej pozycji zmieniając jednostronnie swoją strategię.
3.2
Zastosowanie programowania liniowego do
wyznaczenia rozwiazania gry
Rozwiązanie dowolnej gry w strategiach miesznych można wyznaczyć
rozwiazując pewne zagadnienie programowania liniowego.
32
33
Wyznaczanie optymalnej strategii mieszanej gracza 1.
Oczekiwana wypłata gracza 1 =
n
m X
X
wij xi yj ,
i=1 j=1
i strategia (x1 , x1 , . . . , xm ) jest optymalną jeśli
m X
n
X
wij xi yj ≥ w = w
i=1 j=1
dla każdej strategii (y1 , y2 , . . . , yn ) gracza 2. Ta nierówność musi
również zachodzić dla czystych strategii tj. (y1 , y2 , . . . , yn ) takich, że
jedna współrzędna yj = 1 a reszta jest zerami. Zatem mamy:
m
X
i=1
wij xi ≥ w dla j = 1, . . . , n.
34
Co więcej ten zbiór nierówności implikuje wyjściową nierówność:
n
X
j=1
Pn
n
m
X
X
yj w = w,
wij xi ) ≥
yj (
i=1
i=1
ponieważ j=1 yj = 1. Spełnienie tych n nierówności jest równoważne
spełnieniu wyjściowej nierówności dla każdej strategii y1 , y2 , . . . , yn .
Wyznaczenie optymalnej strategii może być zatem sprowadzone do
35
rozwiązania następującego zagadnienia programowania liniowego:
xm+1
→
max
w11 x1 + w21 x2 + · · · , +wm1 xm − xm+1
≥
0
w12 x1 + w22 x2 + · · · , +wm2 xm − xm+1
≥
0
··· ··· ···
w1n x1 + w2n x2 + · · · , +wmn xm − xm+1
≥
0
x1 + x2 + · · · + xm
=
1
xi ≥ 0, dla i = 1, 2, . . . , m.
Zmienna xm+1 zastępuje nieznaną wartość w i w rozwiązaniu
optymalnym będzie jej równa. Jednak na tę zmienną nie jest
nałożony warunek nieujemności. Analogiczne rozumowanie prowadzi
36
do następującego modelu wyznaczania optymalnej strategii gracza2:
yn+1
→
max
w11 y1 + w12 y2 + · · · , +w1n yn − yn+1
≤
0
w21 y1 + w22 y2 + · · · , +w2n yn − yn+1
≤
0
··· ··· ···
wm1 y1 + wm2 y2 + · · · , +wmn yn − yn+1
≤
0
y1 + y2 + · · · + yn
=
1
yi ≥ 0, dla i = 1, 2, . . . , n.
Problem wyznaczenia optymalnej strategii mieszanej dla gracza 1 jest
dualnym do problemu wyznaczania strategii optymalnej gracza 2. Z
twierdzeń o dualności wiemy, że dla optymalnych rozwiązań x∗m+1
∗
oraz yn+1
tych zagadnień mamy, że
∗
∗
−x∗m+1 = −yn+1
czyli x∗m+1 = yn+1
.
∗
= w skąd
Z okreslenia w i w mamy, że w = x∗m+1 oraz yn+1
otrzymujemy równość w = w.
Pozostaje jeszcze jeden element do rozpatrzenia. W podanych
∗
nie są nieujemne. Jeśli jest
modelach liniowych zmienne x∗m+1 , yn+1
oczywiste, że w ≥ 0, to można stosować sympleks. Jeśli tak nie jest
należy zastosować jedną z następujących modyfikacji:
• zamienić zmienną dowolną różnicą dwu zmiennych nieujemnych,
• zamienić rolami graczy tak, aby wypłata gracza 1 była
nieujemna,
• dodać do macierzy wypłat pewną stałą (równą np. maksymalnej
wartości modułów ujemnych wartości macierzy wypłat), tak aby
wartość gry w była nieujemną - dodanie stałej nie może zmienić
optymalnych strategii, a po rozwiązaniu gry modyfikujemy jej
wartość o tę wielkość.
37
Ostatni sposób jast najczęściej stosowany. Zastosujmy teraz
programowanie liniowe do wyznaczenia optymalnych strategii
mieszanych dla gry 3. Przyjmiemy, że wartość gry jest nieujemna tj.
w ≥ 0 (okaże się że tak rzeczywiście jest) czyli nie będziemy stosować
modyfikacji macierzy wypłat.
Przykład 6. W tej grze strategia 3 dla gracza 1 jest zdominowaną
zatem powinna być wyeliminowana. Macierz wypłat po usunieciu
strategii 3 gracza 1 jest podana w tablicy 13
38
39
Macierz wypłat
Gracz 2
Strategie
1
2
3
1
0
-2
2
Gracz 1 2
5
4
-3
Tab. 13: Gra 3 po wyeliminowaniu zdominowanej strategii 3.
40
Modele liniowe dla gracza 1 i gracza 2 są następujące:
x3
→
max
5x2 − x3
≥
0
−2x1 + 4x2 − x3
≥
0
2x1 − 3x2 − x3
≥
0
x1 + x2
=
1
x1 , x2
≥
0.
y4
→
min
−2y2 + 2y3 − y4
≤
0
5y1 + 4y2 − 3y3 − y4
≤
0
y1 + y2 + y3
=
1
y 1 , y2 , y3
≥
0.
Rozwiązując te modele otrzymujemy dla gracza 1 optymalną strategię
7
4
2
mieszaną x∗1 = 11
, x∗2 = 11
i wartość gry w = x∗3 = 11
. Dla gracza 2
6
2
5
mamy y1∗ = 0, y2∗ = 11
, y3∗ = 11
oraz w = y4∗ = 11
. To rozwiązanie
można otrzymać z rozwiązania modelu dla gracza 1 dlatego wystarcza
rozwiązać tylko jeden z tych modeli, aby otrzymać strategie optymalne
dla obu graczy. Rozwiązania zostały otrzymane przy założeniu,że
w ≥ 0. Jeśli nie jest spełnione to założenie, to model może nie mieć
rozwiązania dopuszczalnego. Aby tego uniknąć dodajemy do macierzy
wypłat stałą 3 i odpowiednio modyfikujemy ograniczaenia. Po
rozwiązaniu tylko wartość gry zmnieszamy o 3.
41

1 Analiza decyzji - tablica decyzyjna, klasyfikacja problemów

Transkrypt

Podobne dokumenty

Pracownika Myjni Samochodowej

Podejmowanie decyzji i techniki decyzyjne

Pracownik Sprzątający

Doradca Handlowy Klienta Flotowego (B2B)

spis treśœci - e

Program „Symulator kasyna”

Powiatowy Turniej Scrabble w Garwolinie – 4

Gra jako łańcuch Markowa

„LOGO SZKOŁY” z okazji 70-lecia SP nr 25 we Wrocławiu