1.1 Analiza decyzji - tablica decyzyjna, klasyfi

Transkrypt

1.1 Analiza decyzji - tablica decyzyjna, klasyfi
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier1
ANALIZA DECYZJI (AD)
1.1
Analiza decyzji - tablica decyzyjna, klasyfikacja problemów
W celu formalizacji i klasyfikacji problemów decyzyjnych wprowadzimy tzw tablicę decyzyjną. Niech decydent (lub grupa decydentów) ma osiągnąć pewien cel (np.
zysk z uprawy swojego pola). Aby go osiągnąć podjmuje pewne działania, które
nazywamy strategiami, alternatywami decyzyjnymi lub decyzjami. Zakładamy,
że ilość tych działań jest m i działania te oznaczymy a1 , a2 , . . . , am . Podejmując
dane działanie jego wynik zależy od zewnętrznych dla decydenta n czynników,
które nazywamy stanami natury i oznaczamy przez θ1 , θ2 , . . . , θn . Pełny opis konsekwencji dla decydenta podjęcia działania ai w sytuacji, gdy wystąpi stan natury
θj oznaczać będziemy przez Xij i zapisuje się w postaci następującej tablicy decyzyjnej :
Alternatywy
decyzyjne
a1
a2
..
.
am
Stany natury
θ1
θ2
...
θ
X11 X12 . . . X1n
X21 X22 . . . X2n
..
..
..
...
.
.
.
Xm1 Xm2 . . . Xmn
Tab. 1.1: Ogólna postać tablicy decyzyjnej
Przykład 1.1. Rozważmy osobę, która ma przygotować omlet z 6 jajek. Właśnie
wbiła już do miski 5 jaj, które okazały się dobrymi i zastanawia się co zrobić
z szóstym jajkiem, które może być albo dobre albo zepsute. Tablica 1.2 podaje
możliwe sposoby działania i opis konsekwencji tych działań.
Alternatywy
decyzyjne
zbić jajko do miski
Stan natury
jajko zepsute
nie ma omletu
i 5 jajek zniszczonych
zbić jajko do
omlet z 6 jaj
omlet z 5 jajek
do innego naczynia i naczynie do umycia
i naczynie do umycia
wyrzucić jajko
omlet z 6 jajek
omlet z 5 jajek
i jedno jajko zniszczone
jajko dobre
omlet z 6 jaj
Tab. 1.2: Pełny opis konsekwencji problemu decyzyjnego przygotowanie omletu
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier2
W analizie decyzji stosuje się tablice decyzyjne w których zamiast pełnego
opisu konsekwencji Xij używa się miary wartości konsekwencji v(Xij ) oznaczanej
dalej przez vij dla i = 1, . . . , m; j = 1, . . . , n i nazywanej dalej użytecznością.
Miara ta powinna spełniać warunek, że vij > vkl , gdy dla decydenta bardziej
sprzyjające są konsekwencje Xij niż konsekwencje Xkl (mówi się również, że decydent preferuje konsekwencje Xij w stosunku do konsekwencji Xkl ). Dlatego
dalej będą używane tablice decyzyjne w których konsekwencje zostaną zastąpione użytecznością. Postać taką podano w tablicy 1.3.
Alternatywy
decyzyjne
a1
a2
..
.
am
Stany natury
θ1
θ2 . . .
θ
v11 v12 . . . v1n
v21 v22 . . . v2n
..
..
..
...
.
.
.
vm1 vm2 . . . vmn
Tab. 1.3: Postać ogólna tablicy decyzyjnej, w której konsekwencje zastąpiono
użytecznością
Wyróżnia się trzy typy problemów decyzyjnych:
• Problemy decyzyjne w warunkach pewności. Występuje tylko jeden
stan natury, którego wystąpienie jest pewne - tablica decyzyjna ma tylko
jedną kolumnę.
• Problemy decyzyjne w warunkach ryzyka. Znane jest prawdopodobieństwo wystąpienia każdego stanu natury. Dla dyskretnych stanów natury θ1 , θ2 , . . . , θn prawdopodobieństwa ich wystąpienia oznaczamy przez
P (θ1 ), P (θ2 ), . . . , P (θn ).
• Problemy decyzyjne w warunkach niepewności. Znane są sposoby
postępowania decydenta i potrafimy zidentyfikować wszystkie możliwe stany natury ale nie wiemy nic o prawdziwym stanie natury.
W zależności od typu problemu decyzyjnego stosowane są różne kryteria wyboru
decyzji optymalnej (rozwiązania optymalnego). W problemach w warunkach pewności decyzją optymalną jest alternatywa o najbardziej sprzyjającej dla decydenta
wartości użyteczności (co sprowadza się do wyboru elementu maksymalnego lub
minimalnego w tablicy decyzyjnej o jednej kolumnie).
W problemach w warunkach ryzyka racjonalne kryterium wyboru optymalnej
decyzji polega na wyborze takiej alternatywy decyzyjnej ak , która maksymalizuje
(lub minimalizuje, gdy użyteczność jest kosztem) wartość średnią użyteczności tj.
n
X
j=1
m
P (θj )vkj = max
i=1
n
X
j=1
P (θj )vij
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier3
Przykład 1.2. Sprzedawca truskawek kupuje na plantacji koszyczek truskawek
za 3zł. a sprzedaje za 8zł. Sprzedany koszyk przynosi mu zatem 5zł. zysku a nie
sprzedany stratę 3zł. Z doświadczenia wie, że dzienny popyt może wynosić 10,
11, 12 lub 13 koszyczków. Z 90 obserwacji, które zgromadził wie, że w 18 przypadkach dzienny popyt kształtował się na poziomie 10 , w 36 na poziomie 11, w
27 na poziomie 12 i w 9 na poziomie 13 koszyczków. Jeśli przez ai oznaczymy
alternatywę zakup na plantacji 10 + (i − 1) koszyczków truskawek, przez θi - popyt
dzienny na poziomie 10 + (i − 1) (i = 1, 2, 3, 4) koszyczków a użytecznością będzie dzienny zysk sprzedawcy, to tablicą decyzyjną jest tablica 1.4. W tej tablicy
Zysk
a1
a2
a3
a4
Rozkład
θ1
50
47
44
41
0.2
θ2
50
55
52
49
0.4
θ3
50
55
60
57
0.3
θ4
50
55
60
65
0.1
EV (ai )
50
53.4
53.6
51.4
Tab. 1.4: Tablica decyzyjna sprzedawcy truskawek
EV (ai ) oznacza wartość średnią użyteczności alternatywy ai . Decyzją optymalną jest wybór alternatywy a3 , która daje maksymalny oczekiwany zysk wynoszący
EV (a3 ) = 53.6.
Dla problemów decyzyjnych o dużej liczbie alternatyw i stanów natury wypisywanie całej tablicy decyzyjnej możne być uciążliwe. Można podać metodę
rekurencyjną wyznaczania wartości średniej użyteczności dla kolejnych alternatyw. Opiszemy jej idę i pokażemy jej zastosowanie dla rozpatrywanego przykładu.
Niech X będzie dyskretną zmienną losową rozkładu stanów natury (tj. wielkości popytu na truskawki w problemie sprzedawcy truskawek) przyjmującą wartości q, q + 1, . . . , Q o rozkładzie P (x) dla x = q, q + 1, . . . , Q i dystrybuancie
F (x) = P (X ≤ x). Wartość średnia użyteczności alternatywy ai , jest wartością
średnią funkcji zmiennej losowej X. Oznaczmy przez d(z), z = q, q + 1, . . . , Q
wartość średnią zysku sprzedawcy, gdy zakupił na plantacji z koszyczków truskawek(tj. EV (ai ) = d(z), gdzie z = 10+i−1, i = 1, 2, 3, 4 ). Oznaczmy przez a zysk
jaki osiąga sprzedawca z jednego sprzedanego koszyczka a przez b stratę na jednym nie sprzedanym koszyczku (dla rozpatrywanego przykładu a = 5, b = 3). Załóżmy, że sprzedawca zakupił z −1 koszyczków (jego średni zysk wynosi d(z −1)).
Dokupienie dodatkowo jednego koszyczka truskawek przyniesie stratę b jeśli popyt
x będzie x ≤ z − 1. Prawdopodobieństwo tego zdarzenia wynosi P (X ≤ z − 1).
Natomiast przyniesie zysk a jeśli popyt x będzie x > z − 1. To zdarzenie ma
prawdopodobieństwo 1 − F (z − 1). Mamy zatem rekurencyjny wzór:
d(z) = d(z − 1) + a[1 − F (z − 1)] − bF (z − 1)
= d(z − 1) + a − (a + b)F (z − 1) (z = q + 1, q + 2, . . . , Q.)
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier4
Dla z = q mamy d(q) = aq.
Dla sprzedawcy truskawek mamy:
EV (a1 ) = d(z = 10) = 5 ∗ 10 = 50
EV (a2 ) = d(11) = d(10) + 5 − (5 + 3)F (10) = 50 + 5 − 8
2
= 53.4
10
6
= 53.6
10
9
EV (a4 ) − d(13) = d(12) + 5 − 8F (12) = 58.6 − 8 = 51.4
10
Optymalną strategię można również wyznaczyć wzorem analitycznym. Jeśli strategią optymalną jest wybór alternatywy polegającej na zakupie k ∗ koszyczków,
to z własności maksimum lokalnego mamy, że
a
d(k ∗ ) ≥ d(k ∗ − 1) ⇒ F (k ∗ − 1) ≤
a+b
a
∗
∗
∗
≤ F (k )
d(k ) ≥ d(k + 1) ⇒
a+b
EV (a3 ) = d(12) = d(11) + 5 − 8F (11) = 58.4 − 8
Stąd mamy
a
≤ F (k ∗ )
a+b
Wartość k ∗ spełniająca tę nierówność jest optymalną decyzją. Ten ostatni sposób wyznaczania alternatywy optymalnej jest najoszczędniejszy. Dla sprzedawcy
truskawek mamy
F (k ∗ − 1) ≤
a
5
=
= 0.425 i 0.4 = F (11) ≤ 0.425 ≤ F (12) = 0.9,
a+b
3+5
czyli optymalną alternatywą jest zakup 12 koszyczków (k ∗ = 12).
W problmach w warunkach ryzyka wprowadza się pojęcie oczekiwanej wartości pewnej informacji (EVPI). Sposób jej obliczania podamy na przykładzie
problemu sprzedawcy truskawek. Załóżmy, że sprzedawca może z całą pewnością
przewidzieć zajście danego stanu natury (ma pewną prognozę odnośnie stanów
natury). Wtedy powinien wybierać alterntywę a1 dla stanu θ1 , a2 dla θ2 , a3 dla θ3
i a4 dla θ4 . Ponieważ zna rozkład prawdopodobieństwa stanów natury, to wartość
oczekiwana użyteczności wyniesie wtedy:
50 ∗ 0.2 + 55 ∗ 0.4 + 60 ∗ 0.3 + 65 ∗ 0.1 = 56, 5.
Bez znajomości tej prognozy wartość oczekiwana zysku wynosi 53,6. Różnica
56.5-53.6=2.9 definiuje oczekiwaną wartość pewnej informacji, czyli EVPI=2.9.
Wartość tę możemy interpretować jako maksymalną kwotę, którą można wydać
za pewną prognozę.
Kryteria wyboru decyzji w warunkach niepewności
Dana jest tablica decyzyjna dla problemu z funkcją użyteczności vij (funkcją tą
może być zysk lub koszt).
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier5
1. Kryterium Walda - wybór alternatywy dla której najmniej sprzyjający
rezultat jest dla decydenta najkorzystniejszy (maksymalizacja minimalnego
zysku, gdy użyteczność vij jest zyskiem). Dla każdej alternatywy ai , i =
1, . . . , m wyznacza się dwie wielkości: najbardziej sprzyjający dla decydenta
rezultat oi oraz najmniej sprzyjający rezultat si . Jeśli użyteczność vij jest
zyskiem , to
oi = max{vij } oraz si = min{vij }
j
j
natomiast, gdy użyteczność vij jest kosztem, to
oi = min{vij } oraz si = max{vij }.
j
j
Decyzją optymalną jest alternatywa ak taka, że
sk = max si = max min{vij } jeśli vij jest np. zyskiem
i
i
j
lub
sk = min si = min max{vij } jeśli vij jest np. kosztem
i
i
j
Kryterium to jest najbardziej konserwatywne - decydent wybiera alternatywę, w której najgorszy (najmniej sprzyjający) rezultat będzie dla niego
najkorzystniejszy spośród wszystkich alternatyw. Nie wszyscy decydenci
wykazują taką postawę względem ryzyka. Niektórzy decydenci mogą preferować alternatywy dla których najbardziej sprzyjający rezultat jest najkorzystniejszy tj, wybierać alternatywę ak dla której
ok = max oi = max max{vij }
i
i
j
Większość decydentów wykazuje mniej skrajne postawy. Kryterium następne (Hurwicza) zakłada, że postawę decydenta wykazywaną we wszystkich
problemach można scharakteryzować przez pewien współczynnik (nazywany współczynnikiem ostrożności).
2. Kryterium Hurwicza - wybór alternatywy o najkorzystniejszej dla decydenta średniej ważonej z najmniej i najbardziej sprzyjającego rezultatu
(maksymalizacja - gdy vij jest zyskiem - średniej ważonej z najmniej i najbardziej sprzyjającego rezultatu). Jeśli vij jest zyskiem, to decyzją optymalną jest alternatywa ak taka, że
αsk +(1−α)ok = max{αsi +(1−α)oi } = max{α min{vij }+(1−α) max{vij }},
i
i
j
j
gdzie α jest współczynnikiem charakteryzującym decydenta. Dla α = 1
kryterium jest identyczne z kryterium Walda, czyli jest najbardziej zachowawczym, dla α = 0 mamy najbardziej optymistyczne kryterium. Wartości
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier6
α z przedziału (0,1) pozwalają na modelowanie postaw pośrednich. Jeśli vij
jest kosztem, to decyzją optymalną jest alterntywa ak taka, że
αsk +(1−α)ok = min{αsi +(1−α)oi } = min{α max{vij }+(1−α) min{vij }}.
i
i
j
j
3. Kryterium Savage’a - minimalizacja maksymalnego ”żalu”. Na podstawie tablicy decyzyjnej [vij ] konstruuje się nową tablicę [rij ] następująco:
rij =
maxm
l=1 {vij } − vij
vij − minm
l=1 {vij }
jeśli vij jest zyskiem,
jeśli vij jest kosztem.
Element rij tej tablicy jest różnicą pomiędzy użytecznością najlepszej decyzji jaką należałoby podjąć przy wystąpieniu stanu θj a podjętą decyzją (dla
vij zysku) i może być interpretowany jako ”‘żal”’ z niepodjęcia najlepszej
decyzji. W tablicy rij do wyboru decyzji optymalnej stosuje się kryterium
Walda (dla kosztów). Decyzją optymalną jest ak takie, że
sk = min{si } = min{max{rij }}.
i
i
j
4. Kryterium Laplace’a(1825) - maksymalizacja (lub minimalizacja, gdy
użyteczność jest kosztem) wartości średniej. Optymalną decyzją jest wybór
takiej alternatywy ak , że
n
n
X
X
1
1
m
vkj = max{
vij }.
i=1
n
n
j=1
j=1
Przykład 1.3. Ośrodek wczasowy przygotowuje zapasy żywności na nadchodzący
weekend. Możliwe stany natury θ1 , θ2 , θ3 , θ4 odpowiadają odpowiednio przyjazdowi
100, 150, 200 i 250 turystów. Alternatywy decyzyjnyme a1 , a2 , a3 , a4 to przygotowanie (zakup) zapasów dla odpowiednio 100, 150, 200 i 250 turystów. Użyteczność
vij będąca kosztem związanym z podjęciem alternatywy ai i wystąpieniem stanu
θj podana jest w tablicy 1.5. Optymalną decyzją stosując kryterium Walda jest
vij
a1
a2
a3
a4
θ1 θ2 θ3 θ4
5 10 18 25
8 7 8 23
21 18 12 21
30 22 19 15
si oi
25 5
23 7
21 12
30 15
Tab. 1.5: Tablica decyzyjna dla ośrodka wczasowego
wybór alternatywy a3 , dla kryterium Hurwicza, gdy współczynnik α = 0.5 alternatywą optymalną jest a4 . Dla kryterium Savage’a musimy najpierw wyznaczyć
tablicę rij , którą podano w tablicy 1.6. Decyzją optymalną jest w tym przypadku
wybór alternatywy a2 .
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier7
rij
a1
a2
a3
a4
θ1
0
3
16
25
θ2 θ3 θ4
3 10 10
0 0 8
8 4 6
12 11 0
si
10
8
16
25
Tab. 1.6: Tablica wartości [rij ] dla ośrodka wczasowego
1.2
Drzewa decyzyjne
1.3
Gry dwuosobowe o sumie zerowej
W poprzednio rozpatrywanych sytuacjach decyzyjnych na efekty działań decydenta miały wpływ stany natury. Obecnie zajmiemy się sytuacjami, gdy na działania decydenta ma wpływ nie natura, którą możemy traktować jako pasywnego
oponenta lecz inny racjonalnie działający decydent. W teorii gier obu decydentów nazywamy graczami. Zajmować się będziemy tylko grami dwuosobowymi
o sumie zerowej. W takich grach podejmowane przez obu graczy decyzje nazywane sa strategiami. Efekt (użyteczność) podjęcia strategii i przez jednego gracza, gdy drugi gracz wybrał strategię j nazywa się wypłatą i oznaczamy przez
[wij ], i = 1, . . . , m; j = 1, . . . , n. W grach o sumie zero wypłata (wygrana) dla
jednego gracza jest równa przegranej drugiego.
Przykład 1.4. Mamy dwóch graczy: gracza 1 i gracza 2. Każdy z nich dysponuje
trzema strategiami 1,2 i 3. Macierz wypłat podaje tabela 1.7
Strategie
1
Gracz 1 2
3
Macierz wypłat
Gracz 2
1 2
3
1 2
4
1 0
5
0 1
-1
Tab. 1.7: Macierz wypłat gry 1
Macierz wypłat tej gry jest dość specyficzna i rozwiązanie otrzymamy wykorzystując koncepcję strategii zdominowanych. Mówimy, że strategia i jest
zdominowana przez strategię k jeśli strategia k jest co najmniej tak dobra jak i(a
czasami lepsza), bez względu na to, co zrobi oponent (drugi gracz). Formalnie
strategię i będziemy nazywać strategią zdominowaną przez strategię k, jeśli
∀j=1,...,n wij ≤ wkj oraz ∃l wil < wkl .
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier8
Natomiast k nazywamy strategią dominującą, jeśli:
∀j=1,...,n wkj = max{wij }.
i
Strategie, które nie są zdominowane przez inne strategie nazywamy strategiami
niezdominowanymi. Racjonalnie działający decydent będzie dokonywał wyboru spośród strategii niezdominowanych. Strategia 3 jest dla gracza 1 zdominowaną
przez strategię 1, gdyż bez względu na to jaką strategię wybierze gracz 2 wypłata gracza 1 jest przy wyborze strategii 3 nie niższa niż wypłata przy wyborze
strategii 1. Zatem wiersz trzeci odpowiadający strategii zdominowanej możemy
skreślić z macierzy wypłat. Zredukowana macierz wypłat jest podana w tablicy
1.8. Ponieważ zakładamy racjonalność obu graczy, to gracz 2 też ma strategię zdo1
1 1
2 1
2
2
0
3
4
5
Tab. 1.8: Zredukowana macierz gry11
minowaną 3. Jest ona zdominowana zarówno przez strategię 1 jak i przez strategię
2. Eliminujemy strategię 3 gracza 2 co daje macierz wypłat 1.9: Teraz strategia 2
1 2
1 1 2
2 1 0
Tab. 1.9: Zredukowana macierz gry12
dla gracza 1 jest zdominowana przez strategię 1. Eliminując zdominowaną strategię mamy macierz wypłat podaną w tablicy 1.10: Strategia 2 dla gracza 2 jet
1 2
1 1 2
Tab. 1.10: Zredukowana macierz gry13
zdominowana przez strategię 1 zatem powinna być wyeliminowana. Ostatecznie
obaj gracze powinni wybierać strategie 1. Gracz 1 otrzyma wtedy wypłatę 1, ta
wartość jest przegraną gracza 2. Jest to wartość gry. Jeśli wartość gry jest 0,
to nazywa się grą sprawiedliwą (rozważana gra nie jest grą sprawiedliwą, gdyż
jej wartość wynosi 1). Koncepcja zdominowanych strategii pozwala na redukcję
wymiaru macierzy wypłat i w niektórych przypadkach pozwala wyznaczyć rozwiązanie gry. Jednak w większości przypadków potrzebujemy innego podejścia,
które zaprezentjemy na dwu kolejnych przykładach.
Przykład 1.5. Rozpatrzymy teraz grę o macierzy wypłat podanej w tablicy 1.11
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier9
Strategie
1
Gracz 1 2
3
Maximum
Macierz wypłat
Gracz 2
1
2
3
-3 -2
6
2
0
2
5
-2
-4
5
0
6
↑
min
Minimum
-3
0← max
-4
Tab. 1.11: Macierz wypłat gry 2
W tej grze gracz 1 stosując strategię 1 może wygrać 6 ale może również przegrać 3(wypłata -3). Stosując strategię 3 może wygrać 5 ale może przegrać 4.
Natomiast w strategii 2 jego wygrana bez względu na to co zrobi gracz 2 będzie co najmniej 0. Analizując strategie dla gracza 2 mamy, że w strategiach 1
i 3 jego maksymalna przegrana wynosi odpowiednio 5 i 6. natomiast w strategii 2 tylko zero. Obaj gracze powinni zatem wybrać strategię 2, gdyż każdemu z
nich zapewnia ona w najgorszym przypadku najlepszy wynik. Jest to tzw. kryterium minimaksowe standardowo proponowane w teorii gier do wyboru strategii
optymalnej. Według tego kryterium gracz 1 powinien wybrać strategię ,dla której
minimalna wypłata jest największa (tj. maxi minj {wij }) a gracz 2 strategię dla
której maksymalna wypłata gracza 1 jest jest najmniejsza (tj. mini maxj {wij }).
W analizowanym przykładzie strategią max min jest strategia 2 gracza 1 a strategią min max jest strategia 2 dla gracza 2.Wartość gry jest równa 0, czyli jest to
gra sprawiedliwa. W tej grze ten sam element macierzy wypłat(w22 = 0) jest jednocześnie wartością max min i wartością min max, czyli mamy element, który jest
najmniejszy w wierzsu i jednocześnie największy w kolumnie. Taki punkt, jesli
istnieje, nazywa się punktem siodłowym. Jesli gra ma punkt siodłowy, to obaj
gracza powinni do wyboru strategii optymalnej stosować odpowiednio max min i
min max strategie. Jednak nie każda gra posiada punkt siodłowy - taką jest np.
gra 3.
W tej grze maxi minj wij = −2 6= 2 = mini maxj wij nie są równe co oznacza,
że gra nie posiada punktu siodłowego. W tej grze informacja o tym jaką strategię
wybierze jeden z graczy pozwala drugiemu poprawić swoją pozycję. Koncepcja
rozwiazania optymalnego w tego typu grach oparta jest na pojęciu strategii
miesznych, które charakteryzują się tym, że żaden z graczy nie może wydedukować jaką strategię użyje oponent.
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier10
Strategie
1
Gracz 1 2
3
Maximum
Macierz wypłat
Gracz 2
1 2
3
0 -2
2
5 4
-3
2 3
-4
5 4
2
↑
min
Minimum
-2← max
-3
-4
Tab. 1.12: Gry 3 - nie ma punktu siodłowego
1.3.1
Strategie mieszane dla gry bez punktu siodłowego
Dla gier nie posiadających punktu siodłowego dla każdego z graczy wyznacza się
rozkłady prawdopodobieństwa na zbiorach ich strategii. Niech:
xi = prawdopodobieństwo, że gracz 1 użyje strategii i (i = 1, . . . , m),
yj = prawdopodobieństwo, że gracz 2 użyje strategii j (j = 1, . . . , n),
P
Pn
gdzie m
i=1 xi = 1,
j=1 yj = 1. Wartości xi , i = 1, . . . , m oraz yj , j = 1 . . . , n
nazywamy strategiami mieszanymi natomiast oryginalne strategie strategiami czystymi. W trakcie gry każdy z graczy wybiera strategię czystą jednak powinien wybierać ją w pewien losowy sposób zgodny z rozkładem (x1 , x2 , . . . , xm ) dla
gracza 1 i rozkładem (y1 , y2 , . . . , yn ) dla gracza 2. Np. jesli (x1 , x2 , x3 ) = ( 12 , 12 , 0)
a (y1 , y2 , y3 ) = (0, 12 , 21 ), to gracz 1 nie powinien wybierać strategii czystej 3 a
wybór strategii 2 lub 3 rozstrzygnąć rzucając monetą. Analogicznie gracz 2 nie
powinien wybierać czystej strategii 1 a wybór pomiędzy strategiami 2 i 3 rozstrzygnąć rzucając monetą. Przy stosowaniu strategii mieszanych przez każdego
z graczy oczekiwaną wygraną gracza 1 jest
Oczekiwana wypłata gracza 1 =
m X
n
X
wij xi yj ,
i=1 j=1
gdzie wij jest wypłatą jeśli gracz 1 używa czystej strategii i a gracz 2 używa
czystej strategii j. W rozpatrywanej poprzednio grze 3 jeśli gracze 1 i 2 stosują odpowiednio strategie mieszane (x1 , x2 , x3 ) = ( 12 , 21 , 0) i (y1 , y2 , y3 ) = (0, 21 , 21 )
to oczekiwana wypłata gracza 1 wynosi 14 (−2 + 2 + 4 − 3) = 41 . Minimaksowe
(min max) ktyterium dla strategii mieszanych mówi, że gracz powinien wybierać strategię mieszaną, która minimalizuje jego maksymalne oczekiwane straty.
Równoważnie, jeśli rozważamy wygraną gracza 1 (a nie przegraną gracza 2 co jest
równoważne) to kryterium to jest maksyminowe (max min), tj. maksymalizuje się
minimalną oczekiwaną wypłatę gracza 1. Przez minimalną oczekiwaną wypłatę
rozumie się najmniejszą możliwą wypłatę, którę można uzyskać przy dowolnej
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier11
strategii miesznej, podjętej przez oponenta. Zatem mieszna strategia dla gracza
1 jest optymalną, jeśli minimalna oczekiwana wypłata jest maksymalna. Wartość
tą oznaczamy przez w. Dla gracza 2 podobnie optymalną strategią mieszaną jest
strategia, która minimalizuje maksymalną oczekiwaną wartość przegranej. Wartość tę oznacza się przez w. Dla gier nie posiadających punktu siodłowego jeśli
tylko rozpatruje się czyste strategie, to nie ma rozwiązania stabilnego. Zachodzi
wtedy nierówność w < w i gracze mogą zmieniać strategie, aby poprawić swoją
pozycję. Dla strategii mieszanych koniecznym warunkiem, aby rozwiązanie optymalne było stabilne jest równość w = w. W grach o sumie zerowej ten warunek
jest zawsze spełniony.
Twierdzenie 1.1. Para strategii miesznych dla graczy jest optymalną dając stabilne rozwiązanie przy kryterium minimaksowym, (min max), gdy w = w = w.
Stosując te strategie żaden z graczy nie może poprawić swojej pozycji zmieniając
jednostronnie swoją strategię.
Zastosowanie programowania liniowego do wyznaczenia rozwiazania gry
Rozwiązanie dowolnej gry w strategiach miesznych można wyznaczyć rozwiazując
pewne zagadnienie programowania liniowego. Rozważymy najpierw jak wyznaczyć optymalną strategię mieszaną gracza 1.
Oczekiwana wypłata gracza 1 =
m X
n
X
wij xi yj ,
i=1 j=1
i strategia (x1 , x1 , . . . , xm ) jest optymalną jeśli
m X
n
X
wij xi yj ≥ w = w
i=1 j=1
dla każdej strategii (y1 , y2 , . . . , yn ) gracza 2. Ta nierówność musi również zachodzić
dla czystych strategii tj. (y1 , y2 , . . . , yn ) takich, że jedna współrzędna yj = 1 a
reszta jest zerami. Zatem mamy:
m
X
wij xi ≥ w dla j = 1, . . . , n.
i=1
Co więcej ten zbiór nierówności implikuje wyjściową nierówność:
n X
m
n
X
X
(
wij xi ) ≥
yj w = w,
j=1 i=1
i=1
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier12
P
ponieważ nj=1 yj = 1. Spełnienie tych n nierówności jest równoważne spełnieniu
wyjściowej nierówności dla każdej strategii y1 , y2 , . . . , yn . Wyznaczenie optymalnej
strategii może być zatem sprowadzone do rozwiązania następującego zagadnienia
programowania liniowego:
xm+1 → max
w11 x1 + w21 x2 + · · · , +wm1 xm − xm+1 ≥ 0
w12 x1 + w22 x2 + · · · , +wm2 xm − xm+1 ≥ 0
··· ··· ···
w1n x1 + w2n x2 + · · · , +wmn xm − xm+1 ≥ 0
x1 + x2 + · · · + xm = 1
xi ≥ 0, dla i = 1, 2, . . . , m.
Zmienna xm+1 zastępuje nieznaną wartość w i w rozwiązaniu optymalnym będzie
jej równa. Jednak na tę zmienną nie jest nałożony warunek nieujemności. Analogiczne rozumowanie prowadzi do następującego modelu wyznaczania optymalnej
strategii gracza2:
yn+1 → max
w11 y1 + w12 y2 + · · · , +w1n yn − yn+1 ≤ 0
w21 y1 + w22 y2 + · · · , +w2n yn − yn+1 ≤ 0
··· ··· ···
wm1 y1 + wm2 y2 + · · · , +wmn yn − yn+1 ≤ 0
y1 + y2 + · · · + yn = 1
yi ≥ 0, dla i = 1, 2, . . . , n.
Problem wyznaczenia optymalnej strategii mieszanej dla gracza 1 jest dualnym
do problemu wyznaczania strategii opotymalnej gracza 2. Z teierdzeń o dualności
∗
wiemy, że dla optymalnych rozwiązań x∗m+1 oraz yn+1
tych zagadnień mamy, że
∗
∗
−x∗m+1 = −yn+1
czyli x∗m+1 = yn+1
.
∗
= w skąd otrzymujemy równość
Z okreslenia w i w mamy, że w = x∗m+1 oraz yn+1
w = w.
Pozostaje jeszcze jeden element do rozpatrzenia. W podanych modelach li∗
niowych zmienne x∗m+1 , yn+1
nie są nieujemne. Jeśli jest oczywiste, że w ≥ 0, to
można stosować sympleks. Jeśli tak nie jest należy zastosować jedną z następujących modyfikacji:
• zamienić zmienną dowolną różnicą dwu zmiennych nieujemnych,
• zamienić rolami graczy tak, aby wypłata gracza 1 była nieujemna,
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier13
• dodać do macierzy wypłat pewną stałą (równą np. maksymalnej wartości
modułów ujemnych wartości macierzy wypłat), tak aby wartość gry w była
nieujemną - dodanie stałej nie może zmienić optymalnych strategii, a po
rozwiązaniu gry modyfikujemy jej wartość o tę wielkość.
Ostatni sposób jast najczęściej stosowany. Zastosujmy teraz programowanie liniowe do wyznaczenia optymalnych strategii mieszanych dla gry 3. Przyjmiemy,
że wartość gry jest nieujemna tj. w ≥ 0 (okaże się że tak rzeczywiście jest) czyli
nie będziemy stosować modyfikacji macierzy wypłat.
Przykład 1.6. W tej grze strategia 3 dla gracza 1 jest zdominowaną zatem powinna być wyeliminowana. Macierz wypłat po usunieciu strategii 3 gracza 1 jest
podana w tablicy 1.13 Modele liniowe dla gracza 1 i gracza 2 są następujące:
Macierz wypłat
Gracz 2
Strategie 1 2
3
1 0 -2
2
Gracz 1 2 5 4
-3
Tab. 1.13: Gra 3 po wyeliminowaniu zdominowanej strategii 3.
x3
5x2 − x3
−2x1 + 4x2 − x3
2x1 − 3x2 − x3
x1 + x2
x1 , x2
→
≥
≥
≥
=
≥
max
0
0
0
1
0.
y4
−2y2 + 2y3 − y4
5y1 + 4y2 − 3y3 − y4
y1 + y2 + y3
y1 , y2 , y3
→
≤
≤
=
≥
min
0
0
1
0.
Rozwiązując te modele otrzymujemy dla bgracza 1 optymalne strategie mieszane
7
4
2
x∗1 = 11
, x∗2 = 11
i wartość gry w = x∗3 = 11
. Dla gracza 2 mamy y1∗ = 0, y2∗ =
5
6
2
∗
∗
, y3 = 11 oraz w = y4 = 11 . To rozwiązanie można otrzymać z rozwiązania
11
modelu dla gracza 1 dlatego wystarcza rozwiązać tylko jeden z tych modeli, aby
otrzymać strategie optymalne dla obu graczy. Rozwiązania zostały otrzymane przy
założeniu,że w ≥ 0. Jeśli nie jest spełnione to założenie, to model może nie mieć
rozwiązania dopuszczalnego. Aby tego uniknąć dodajemy do macierzy wypłat stałą
3 i odpowiednio modyfikujemy ograniczaenia. Po rozwiązaniu wartość tylko gry
zmnieszamy o 3.