średnia wypłata
Transkrypt
średnia wypłata
Wzajemność bezpośrednia (direct reciprocity) Karl Sigmund, The Calculus of Selfishness, Princeton UP 2010 Gra w Datek (Donation game)– przykład: Dawca decyduje czy dać złotówkę aby Biorca dostał 3 złote (wypłata Wiersza) C D C b-c b D -c 0 Gra jest szczególnym przypadkiem Dylematu Więźnia : Dla porównania: w grze w Zaspę (Snowdrift game) C D C R S D T U C D C b-c/2 b-c D b 0 T>R>U>S T>R>S>U Gry iterowane Założenia: -gracze nie wiedzą ile będzie rund. 1-wsza ronda ma numer 0 - po każdej rundzie następna runda nastąpi z stałym p-stwem r Stąd: - p-stwo przynajmniej n iteracji = rn - p-stwo dokładnie n iteracji p(n) = rn(1-r) - średnia ilość rund 1(1 r ) 2 r (1 r ) ... nr n 1 (1 r ) ... 1 1 r Jeśli A(n) – wypłata w n-tej rundzie, to średnia całkowita wypłata A p ( n )[ A(0) ... A( n )] n 0 a średnia wypłata na rundę p ( n ) A( n ) n 0 (1 r n A( n ) r) n 0 Przypadek 3 strategii: ZawszeWspółpracuj (ZW), Zawsze Zdradzaj (ZZ), Wet za Wet (WzW). ZZ w każdym spotkaniu z ZZ dostaje 0 ZW w każdym spotkaniu z ZZ dostaje -c WzW w pierwszym spotkaniu z ZZ dostaje –c, potem 0; na 1 rundę dostaje –c(1-r) … ZZ w w pierwszym spotkaniu z WzW dostaje b, potem 0; na 1 rundę dostaje b(1-r) … b c Więc macierz wypłat aˆ b c b c 0 b c b(1 r ) c(1 r ) b c Równania replikatorów x x (Wx W ) y y (Wy W ) z z (Wz W ) Wx gdzie c b( x z ) Wy bx bz (1 r ) b( x z ) bzr Wz Wx W xWx cry yWy zWz Odejmując dla wygody Wy od wszystkich wypłat, mamy Wx Wtedy w szczególności Wy 0 Wz Wx cry W xWx Wz W yg (z ) gdzie g( z) zr (b c) c(1 r ) Funkcja g(z) = 0 dla z z* ZZ (x,y,z)=(0,1,0) yWy zWz WzW (0,0,1) Wewnątrz sympleksu nie ma punktów stałych c(1 r ) r (b c ) z rośnie dla z>z* z maleje dla z<z* c bzr z = z* z=0 z* maleje z ilością rund. Gdy r -> 1, z* -> 0 ZW (1,0,0) Boki trójkąta są zbiorami niezmienniczymi: trajektoria z nich nie wyprowadza. Do osi x = 0 stosuje się reguła: „z rośnie dla z > z*, z maleje dla z < z*” Na osi z = 0 mamy dz/dt=0 , Wx= -c , Wy= 0 , Wz= -c(1-ry), dx/dt = x(-c + cx) = -cx(1-x) < 0 Na osi y = 0 mamy dy/dt = 0, dz/dt = zyg(z) =0 ; każdy punkt osi jest punktem stałym (współpraca ZW z WzW nie wymaga zmian) Które z tych punktów stałych są stabilne ? Kiedy trajektoria nie odjedzie od osi? Te, dla których stabilne Wy W 0 (0,0,1) Wy W z xWx zWz c rb ( x z )( c rbz ) c rbz z = z* niestabilne z=0 (0,1,0) (1,0,0) Mamy więc na osi y = 0 (koegzystencja ZW i WzW) trzy obszary: - punkty stałe niestabilne z < z* inwazja ZZ skuteczna - punkty stałe niestabilne z* < z < c/(rb) inwazja ZZ w końcu nieskuteczna, ale po drodze rośnie liczba WzW - punkty stałe stabilne z > c/(rb) inwazja ZZ nieskuteczna WzW Karl Sigmund: ZZ powinni czekać z inwazją, aż szum przeprowadzi układ w dół po osi y = 0 poniżej z*. Zbyt częste próby są szkodliwe dla agresora (immunizacja). ZZ(0,1,0) stabilne (0,0,1) z z = z* z=0 c rb niestabilne ZW (1,0,0) Probabilistyka i strategie reaktywne Strategia reaktywna określa reakcję na grę partnera w poprzedniej rundzie. Probabilistyczna strategia reaktywna = (f,p,q), gdzie f - p-stwo współpracy w 1-wszej rundzie p - p-stwo współpracy jeżeli partner współpracował w poprzedniej rundzie q - p-stwo współpracy jeżeli partner zdradził w poprzedniej rundzie Np. ZZ = (0,0,0), TFT = (1,1,0) Wprowadzając wektor stanu p(CC ' ) x1 p(CD' ) x2 p( DC ' ) x3 x4 p( DD ' ) x mamy macierz przejścia x (t 1) Px (t ) P pp ' qp ' pq ' qq ' p (1 p ' ) q (1 p' ) p (1 q ' ) q (1 q ' ) (1 p) p' (1 q ) p ' (1 p)q ' (1 q )q ' (1 p )(1 p ' ) (1 q)(1 p ' ) (1 p )(1 q ' ) (1 q )(1 q ' ) Dygresja o macierzy przejścia Przykład: „domek myszy” A C m w k V d j c z r p 1 B 0 0 V 0 2/3 V 1 0 1/ 3 0 0 stąd V 2/3 2/3 0 1/ 3 2 / 3 1/ 2 0 1/ 3 1/ 3 0 1/ 2 V 0 1/ 2 1 3/8 1/ 2 3/8 0 2/8 0 ff ' f (1 Stan początkowy (1 (1 x1 (eq ) f ') f)f' f )(1 x2 (eq ) dąży do x3 (eq ) f ') dla t -> , chyba że strategie są deterministyczne. x4 (eq ) wektor własny P do wartości własnej 1. W szczególności miara korelacji* między strategiami partnerów dąży do zera eksponencjalnie: D (t 1) D x1 x4 x2 x3 ( p q)( p' q' ) D (t ) Oznacza to, że D(t ) ( p q)t ( p' q' )t D(0) 4 Dowód przez podstawienie: xi (t 1) pij x j (t ) j 1 *Dowód, że dla strategii niezależnych D=0: P-stwo że gracz 1 gra C jest x1 + x2 P-stwo że gracz 2 gra C jest x1 + x3 P-stwo że obaj gracze grają C jest x1 Dla strategii niezależnych x1 = (x1 + x2) (x1 + x3) 2 x1 x1 x1 x2 x1 (1 x1 x2 x1 x4 x2 x3 x1 x3 x3 ) x2 x3 x2 x3 Zdefiniujmy zmienne = p – q, ’ = p’ – q’. Na ogół < 1. Jeżeli gracz II gra C z p-stwem y = x1 + x2, to w następnej rundzie gracz I gra C z p-stwem ( y) py q(1 y ) q y Jeżeli więc gracz I gra C w rundzie t z p-stwem y(t), to w rundzie t+2 gra C z p-stwem y ( t 2) q [ q' ' y (t )] W punkcie stałym tej transformacji W stanie stacjonarnym strategie są nieskorelowane: q q yI * 1 q' ' y (t ) q' ' y II * x1 (eq) y I * y II * x2 (eq ) y I * (1 y II *) x3 (eq ) x4 (eq ) (1 y I *) y II * (1 y I *)(1 y II *) q' 1 'q ' Gra w Datek (0,0,1) W notacji (f,p,q): ZW = (1- , 1- , 1- ) ZZ=(k , k , k ) WzW= (1- , 1- , k ) > 0, k > 0 z = z* z=0 (0,1,0) (1,0,0) Skończona ilość rund (r < 1), skończone prawdopodobieństwa błędów ( > 0) Gra w Datek (0,0,1) ZW = (1- , 1- , 1- ) ZZ=(k , k , k ) WzW= (1- , 1- , k ) z=0 (0,1,0) (1,0,0) Nieskończenie wiele rund (r = 1), skończone prawdopodobieństwa błędów ( > 0) Gra w Datek (0,0,1) ZW = (1, 1, 1) ZZ=(0,0,0) WzW= (1,1,0) z=0 (0,1,0) (1,0,0) Nieskończenie wiele rund (r = 1), brak błędów ( = 0) Gra w Datek (0,0,1) ZW = (1- , 1- , 1- ) ZZ=(0, 0, 0) WzW= (1- , 1- , 0) (0,1,0) z=0 (1,0,0) Nieskończenie wiele rund (r = 1), błędy tylko w współpracy (k = 0) Wzajemność pośrednia Zmienne i parametry: x – p-stwo ZW y - p-stwo ZW z - p-stwo WzW (indirect reciprocity) A B w przód: A B C wstecz: C A B - p-stwo błędu polegającego na braku współpracy 1h – procent z dobrą reputacją q – p-stwo że reputacja znana r – miara ilości rund Dobrą reputację ma ten kto współpracował: h b,c – parametry wypłat [ x z (1 q qh)] stąd h zna z dobrej strony [ x z (1 q )] 1 qz Gra w Datek Wypłaty … Wx c b [ x z (1 q C D q)] Wy C D b-c b -c 0 b [ x z (1 q )] WzW nie wiedział, komu daje Wz c (1 q qh) b {x z[1 q q(1 q qh)]} … do równań replikatorowych q q c /(rb ) nie ma informacji-> nie ma współpracy z* q=1 z* c /( rb ) c /( rb ) brak błędów, = 1 z* c /( rbq ) q = 1, = 1 z* c /( rb) c /( rbq )