(1-q).
Transkrypt
(1-q).
STRATEGIA PRZYBLIŻONA Ogólna strategia rozwiązywania gier NxN może być trudna obliczeniowo. Np. sprawdzenie otrzymanej mieszanej strategii wyrównującej : czy wszystkie strategie przeciwnika dają te same wypłaty? Jeśli tak, OK. Jeśli nie, sprawdzamy wszystkie możliwe podgry. Ale: dla N=10 jest np. [10!/4!/6!]2 = 44100 podgier typu 4x4. Sporo! Inna propozycja: szukanie optymalnej strategii metodą iteracyjną. 1. Rozwiązanie nie jest optymalne, ale jest bliskie optymalnemu. 2. Można stosować ten sposób do dowolnej gry w postaci macierzowej. Przykład: gra 4x4 o sumie zerowej (wypłaty Wiersza). Zacznijmy od dowolnego wiersza, np. A. A B C D A 2 3 1 4 B 1 2 5 4 C 2 3 4 1 D 4 2 2 2 Zaznaczamy wiersz A jedynką i przepisujemy go pod tabelką. 1 A B C D A 2 3 1 4 B 1 2 5 4 C 2 3 4 1 D 4 2 2 2 2 3 1 4 Znajdujemy w przepisanym wierszu najmniejszą liczbę: tu jest nią 1 w kolumnie C. Zaznaczamy kolumnę C jedynką i przepisujemy ją obok tabelki. 1 1 A B C D A 2 3 1 4 B 1 2 5 4 C 2 3 4 1 D 4 2 2 2 2 3 1 4 1 5 4 2 Znajdujemy w przepisanej kolumnie największą liczbę: tu jest nią 5 w wierszu B. Zaznaczamy wiersz B jedynką i dodajemy ją do wiersza przepisanego przedtem. 1 A B C D 1 A 2 3 1 4 1 B 1 2 5 4 C 2 3 4 1 D 4 2 2 2 2 3 1 4 2+1 =3* 3+2 =5 1+5 =6 4+4 =8 1 5 4 2 Znajdujemy w otrzymanym wierszu najmniejszą liczbę: tu jest nią 3 w kolumnie A. Zaznaczamy kolumnę A jedynką i dodajemy ją do kolumny przepisanej przedtem. 1 1 A B C D 1 A 2 3 1 4 1 B 1 2 5 4 C 2 3 4 1 D 4 2 2 2 2 3 3 5 1 6 4 8 1 5 4 2 3 6 6 6 Największą liczbą w przepisanej kolumnie może być 6 w wierszu B. Zwiększamy indeks wiersza B o jeden i dodajemy go do wiersza przepisanego przedtem. 1 1 A B C D 1 A 2 3 1 4 2 B 1 2 5 4 C 2 3 4 1 D 4 2 2 2 2 3 4 3 5 7 1 4 6 8 11 12 1 5 4 2 3 6 6 6 I tak dalej. Indeksy wierszy i kolumn dają częstości gry poszczególnych strategii. 2 1 A B C D 1 A 2 3 1 4 2 B 1 2 5 4 C 2 3 4 1 D 4 2 2 2 2 3 4 3 5 7 1 4 6 8 11 12 1 5 4 2 3 6 6 6 5 7 8 10 Uśredniając z tymi częstościami liczby w ostatnio otrzymanym wierszu i kolumnie otrzymujemy średni wynik gry. Np. do tego momentu strategia Wiersza to (A+2B)/3, a strategia Kolumny to (2A+C)/3. Wynik Wiersza można obliczyć, średniując wartości z tabelki po strategiach mieszanych: W(Wiersza) = (2*2+1*1+4*1+2*5)/9 = 19/9. W miarę, jak rośnie ilość iteracji, wynik zdąża do prawdziwej wartości. Tu strategią Wiersza jest (8A+3B+7C+9D)/27, a wynikiem 23/9. Strategia Kolumny to (5A+7B+3C+3D)/18, a wynik: -23/9. GRA O NIEPEŁNEJ INFORMACJI Przykład: gra „kefir i piwo”. Założenia: 1. Mężczyźni dzielą się na Twardzieli (T) i Mięczaków (M). 2. T wolą piwo (1) i umieją robić awantury. 3. M wolą kefir (1) i nie umieją robić awantur. 4. W kiosku pracuje wiedźma (W), która lubi wrzeszczeć na M i grzecznie traktować T (3). 5. Każdy lubi jak na niego nie wrzeszczeć (3). M T A PA KA G P 0,3 0,3 3,0 3,0 K 1,3 4,0 1,3 4,0 P K A 1,0 0,0 PA 1,0 3,3 KA 4,3 0,0 G 4,3 3,3 A – agresywna G – grzeczna AK – agresywna gdy kefir AP – agresywna gdy piwo Problem W: Jak grać? Nie wie, czy gra z T, czy z M. Rozwiązanie Johna Harsanyi (Nobel 1994): Wiedźma ma grać tak, jakby gość miał strategię mieszaną qT+(1-q)M. Gość wie kim jest, ona może tylko szacować p-stwo i obliczać wypłaty. A AP AK G P q+0,3(1-q) q+0,3(1-q) q+3,3q q+3,3q K 1-q+0,3(1-q) 1-q+3,3q 1-q+0,3(1-q) 1-q+3,3q TP 1+0,3(1-q) 1+3(1-q),0 1+3q,3 1+3,3q MP 0+0,3(1-q) 0+3q,3 0+3(1-q),0 0+3,3q Kolumna A: W wrzeszczy, X nie dostaje 3. W dostaje 3 gdy X=M (p-stwo 1-q). Piwo smakuje gdy X=T (p-stwo q). Kefir smakuje, gdy X=M (p-stwo 1-q). Smakuje. Nie smakuje. A AP AK G P q+0,3(1-q) q+0,3(1-q) q+3,3q q+3,3q K 1-q+0,3(1-q) 1-q+3,3q 1-q+0,3(1-q) 1-q+3,3q TP 1+0,3(1-q) 1+3(1-q),0 1+3q,3 1+3,3q MP 0+0,3(1-q) 0+3q,3 0+3(1-q),0 0+3,3q Piwo smakuje, gdy X=T. W wrzeszczy; zadowolona, gdy X=M. Kefir smakuje, gdy X=M. W grzeczna; zadowolona, gdy X=T. Smakuje. W grzeczna, gdy K. Nie trafiła. Nie smakuje. W grzeczna, gdy X wziął K i okazał się T. Trafiła! A AP AK G P q+0,3(1-q) q+0,3(1-q) q+3,3q q+3,3q K 1-q+0,3(1-q) 1-q+3,3q 1-q+0,3(1-q) 1-q+3,3q TP 1+0,3(1-q) 1+3(1-q),0 1+3q,3 1+3,3q MP 0+0,3(1-q) 0+3q,3 0+3(1-q),0 0+3,3q Piwo smakuje, gdy X=T. W nie wrzeszczy; zadowolona, gdy X=T. Kefir smakuje, gdy X=M. W wrzeszczy; zadowolona, gdy X=M. Smakuje. Jeśli X=T, to wziął P. W trafia; zadowolona. Nie smakuje. Jeśli X=M, to wziął P. W nie trafia. A AP AK G P q+0,3(1-q) q+0,3(1-q) q+3,3q q+3,3q K 1-q+0,3(1-q) 1-q+3,3q 1-q+0,3(1-q) 1-q+3,3q TP 1+0,3(1-q) 1+3(1-q),0 1+3q,3 1+3,3q MP 0+0,3(1-q) 0+3q,3 0+3(1-q),0 0+3,3q Kolumna G: W nie wrzeszczy; X dostaje 3. W dostaje 3 gdy X=T. Reszta jak w kolumnie A. Równowaga w grze zależy od tego, czy według W q>1/2, czy nie. Jeśli W uważa większość gości za mięczaków, będzie wrzeszczała na wszystkich gości zamawiających K i będzie miła dla co trzeciego piwosza. Wszyscy twardziele będą pili P. P-stwo r, że M weźmie P, będzie takie aby smak K zrównoważyła mu szansa, że zostanie o..ny, czyli r=q/(1-q). Jest to więc strategia mieszana. Jeśli W uważa większość gości za twardzieli, zawsze jest grzeczna. Mamy wtedy dwie równowagi. Jedna spodziewana: (P,AK). Druga paradoksalna: (K,AP). Żeby wglądnąć w ten paradoks, rozpatrzmy np. q=2/3. P A AP 2/3, 1 2/3, 1 AK G 11/3, 2 11/3, 2 TP dominuje nad MP K 1/3, 1 10/3, 2 1/3, 1 10/3, 2 TP 1, 1 3, 0 3, 3 4, 2 MP 0, 1 2, 3 1, 0 3, 2 G dominuje nad A Żeby wglądnąć w ten paradoks, rozpatrzmy np. q=2/3. P A AP 2/3, 1 2/3, 1 AK G 11/3, 2 11/3, 2 TP dominuje nad MP K 1/3, 1 10/3, 2 1/3, 1 10/3, 2 TP 1, 1 3, 0 3, 3 4, 2 MP 0, 1 2, 3 1, 0 3, 2 G dominuje nad A Morał: nie dajcie na siebie wrzeszczeć.