(1-q).

Transkrypt

(1-q).

STRATEGIA PRZYBLIŻONA
Ogólna strategia rozwiązywania gier NxN może być trudna obliczeniowo.
Np. sprawdzenie otrzymanej mieszanej strategii wyrównującej : czy
wszystkie strategie przeciwnika dają te same wypłaty?
Jeśli tak, OK. Jeśli nie, sprawdzamy wszystkie możliwe podgry.
Ale: dla N=10 jest np. [10!/4!/6!]2 = 44100 podgier typu 4x4. Sporo!
Inna propozycja: szukanie optymalnej strategii
metodą iteracyjną.
1. Rozwiązanie nie jest optymalne, ale jest bliskie optymalnemu.
2. Można stosować ten sposób do dowolnej gry w postaci
macierzowej.
Przykład: gra 4x4 o sumie zerowej (wypłaty Wiersza).
Zacznijmy od dowolnego wiersza, np. A.
A
B
C
D
A
2
3
1
4
B
1
2
5
4
C
2
3
4
1
D
4
2
2
2
Zaznaczamy wiersz A jedynką i przepisujemy go pod tabelką.
1
A
B
C
D
A
2
3
1
4
B
1
2
5
4
C
2
3
4
1
D
4
2
2
2
2
3
1
4
Znajdujemy w przepisanym wierszu najmniejszą liczbę: tu jest nią 1 w kolumnie C.
Zaznaczamy kolumnę C jedynką i przepisujemy ją obok tabelki.
1
1
A
B
C
D
A
2
3
1
4
B
1
2
5
4
C
2
3
4
1
D
4
2
2
2
2
3
1
4
1
5
4
2
Znajdujemy w przepisanej kolumnie największą liczbę: tu jest nią 5 w wierszu B.
Zaznaczamy wiersz B jedynką i dodajemy ją do wiersza przepisanego przedtem.
1
A
B
C
D
1
A
2
3
1
4
1
B
1
2
5
4
C
2
3
4
1
D
4
2
2
2
2
3
1
4
2+1
=3*
3+2
=5
1+5
=6
4+4
=8
1
5
4
2
Znajdujemy w otrzymanym wierszu najmniejszą liczbę: tu jest nią 3 w kolumnie A.
Zaznaczamy kolumnę A jedynką i dodajemy ją do kolumny przepisanej przedtem.
1
1
A
B
C
D
1
A
2
3
1
4
1
B
1
2
5
4
C
2
3
4
1
D
4
2
2
2
2
3
3
5
1
6
4
8
1
5
4
2
3
6
6
6
Największą liczbą w przepisanej kolumnie może być 6 w wierszu B. Zwiększamy
indeks wiersza B o jeden i dodajemy go do wiersza przepisanego przedtem.
1
1
A
B
C
D
1
A
2
3
1
4
2
B
1
2
5
4
C
2
3
4
1
D
4
2
2
2
2
3
4
3
5
7
1 4
6 8
11 12
1
5
4
2
3
6
6
6
I tak dalej. Indeksy wierszy i kolumn dają częstości gry poszczególnych strategii.
2
1
A
B
C
D
1
A
2
3
1
4
2
B
1
2
5
4
C
2
3
4
1
D
4
2
2
2
2
3
4
3
5
7
1 4
6 8
11 12
1
5
4
2
3
6
6
6
5
7
8
10
Uśredniając z tymi częstościami liczby w ostatnio otrzymanym
wierszu i kolumnie otrzymujemy średni wynik gry.
Np. do tego momentu strategia Wiersza to (A+2B)/3, a strategia
Kolumny to (2A+C)/3.
Wynik Wiersza można obliczyć, średniując wartości z tabelki po
strategiach mieszanych: W(Wiersza) = (2*2+1*1+4*1+2*5)/9 = 19/9.
W miarę, jak rośnie ilość iteracji, wynik zdąża do prawdziwej wartości.
Tu strategią Wiersza jest (8A+3B+7C+9D)/27, a wynikiem 23/9.
Strategia Kolumny to (5A+7B+3C+3D)/18, a wynik: -23/9.
GRA O NIEPEŁNEJ INFORMACJI
Przykład: gra „kefir i piwo”. Założenia:
1. Mężczyźni dzielą się na Twardzieli (T) i Mięczaków (M).
2. T wolą piwo (1) i umieją robić awantury.
3. M wolą kefir (1) i nie umieją robić awantur.
4. W kiosku pracuje wiedźma (W), która lubi wrzeszczeć na M
i grzecznie traktować T (3).
5. Każdy lubi jak na niego nie wrzeszczeć (3).
M
T
A
PA
KA
G
P
0,3
0,3
3,0
3,0
K
1,3
4,0
1,3
4,0
P
K
A
1,0
0,0
PA
1,0
3,3
KA
4,3
0,0
G
4,3
3,3
A – agresywna
G – grzeczna
AK – agresywna
gdy kefir
AP – agresywna
gdy piwo
Problem W: Jak grać?
Nie wie, czy gra z T,
czy z M.
Rozwiązanie Johna Harsanyi (Nobel 1994): Wiedźma ma grać tak,
jakby gość miał strategię mieszaną qT+(1-q)M.
Gość wie kim jest, ona może tylko szacować p-stwo i obliczać
wypłaty.
A
AP
AK
G
P
q+0,3(1-q)
q+0,3(1-q)
q+3,3q
q+3,3q
K
1-q+0,3(1-q)
1-q+3,3q
1-q+0,3(1-q)
1-q+3,3q
TP
1+0,3(1-q)
1+3(1-q),0
1+3q,3
1+3,3q
MP
0+0,3(1-q)
0+3q,3
0+3(1-q),0
0+3,3q
Kolumna A: W wrzeszczy, X nie dostaje 3. W dostaje 3 gdy X=M (p-stwo 1-q).
Piwo smakuje gdy X=T (p-stwo q).
Kefir smakuje, gdy X=M (p-stwo 1-q).
Smakuje.
Nie smakuje.
A
AP
AK
G
P
q+0,3(1-q)
q+0,3(1-q)
q+3,3q
q+3,3q
K
1-q+0,3(1-q)
1-q+3,3q
1-q+0,3(1-q)
1-q+3,3q
TP
1+0,3(1-q)
1+3(1-q),0
1+3q,3
1+3,3q
MP
0+0,3(1-q)
0+3q,3
0+3(1-q),0
0+3,3q
Piwo smakuje, gdy X=T. W wrzeszczy; zadowolona, gdy X=M.
Kefir smakuje, gdy X=M. W grzeczna; zadowolona, gdy X=T.
Smakuje. W grzeczna, gdy K. Nie trafiła.
Nie smakuje. W grzeczna, gdy X wziął K i okazał się T. Trafiła!
A
AP
AK
G
P
q+0,3(1-q)
q+0,3(1-q)
q+3,3q
q+3,3q
K
1-q+0,3(1-q)
1-q+3,3q
1-q+0,3(1-q)
1-q+3,3q
TP
1+0,3(1-q)
1+3(1-q),0
1+3q,3
1+3,3q
MP
0+0,3(1-q)
0+3q,3
0+3(1-q),0
0+3,3q
Piwo smakuje, gdy X=T. W nie wrzeszczy; zadowolona, gdy X=T.
Kefir smakuje, gdy X=M. W wrzeszczy; zadowolona, gdy X=M.
Smakuje. Jeśli X=T, to wziął P. W trafia; zadowolona.
Nie smakuje. Jeśli X=M, to wziął P. W nie trafia.
A
AP
AK
G
P
q+0,3(1-q)
q+0,3(1-q)
q+3,3q
q+3,3q
K
1-q+0,3(1-q)
1-q+3,3q
1-q+0,3(1-q)
1-q+3,3q
TP
1+0,3(1-q)
1+3(1-q),0
1+3q,3
1+3,3q
MP
0+0,3(1-q)
0+3q,3
0+3(1-q),0
0+3,3q
Kolumna G: W nie wrzeszczy; X dostaje 3. W dostaje 3 gdy X=T.
Reszta jak w kolumnie A.
Równowaga w grze zależy od tego, czy według W q>1/2, czy nie.
Jeśli W uważa większość gości za mięczaków, będzie wrzeszczała na
wszystkich gości zamawiających K i będzie miła dla co trzeciego
piwosza. Wszyscy twardziele będą pili P. P-stwo r, że M weźmie P,
będzie takie aby smak K zrównoważyła mu szansa, że zostanie o..ny,
czyli r=q/(1-q). Jest to więc strategia mieszana.
Jeśli W uważa większość gości za twardzieli, zawsze jest grzeczna.
Mamy wtedy dwie równowagi. Jedna spodziewana: (P,AK). Druga
paradoksalna: (K,AP).
Żeby wglądnąć w ten paradoks, rozpatrzmy np. q=2/3.
P
A
AP
2/3, 1
2/3, 1
AK
G
11/3, 2 11/3, 2
TP dominuje nad MP
K
1/3, 1 10/3, 2 1/3, 1 10/3, 2
TP
1, 1
3, 0
3, 3
4, 2
MP
0, 1
2, 3
1, 0
3, 2
G dominuje nad A
Żeby wglądnąć w ten paradoks, rozpatrzmy np. q=2/3.
P
A
AP
2/3, 1
2/3, 1
AK
G
11/3, 2 11/3, 2
TP dominuje nad MP
K
1/3, 1 10/3, 2 1/3, 1 10/3, 2
TP
1, 1
3, 0
3, 3
4, 2
MP
0, 1
2, 3
1, 0
3, 2
G dominuje nad A
Morał: nie dajcie na siebie wrzeszczeć.

(1-q).

Transkrypt

Podobne dokumenty

Altruizm, współpraca a idea doboru grupowego

Smak gruszki Jadłeś kiedyś gruszkę? Jak smakuje? Ziarnisty miąższ

Regulamin szkolnego konkursu plastycznego dla uczniów klas I

Wojciech Wojtasiok „Świat smaków w stołówce szkolnej i nie tylko