średnia wypłata

Transkrypt

średnia wypłata
Wzajemność bezpośrednia
(direct reciprocity)
Karl Sigmund, The Calculus of Selfishness, Princeton UP 2010
Gra w Datek (Donation game)– przykład:
Dawca decyduje czy dać złotówkę aby Biorca dostał 3 złote
(wypłata Wiersza)
C
D
C
b-c
b
D
-c
0
Gra jest szczególnym przypadkiem Dylematu Więźnia :
Dla porównania: w grze w Zaspę
(Snowdrift game)
C
D
C
R
S
D
T
U
C
D
C
b-c/2
b-c
D
b
0
T>R>U>S
T>R>S>U
Gry iterowane
Założenia:
-gracze nie wiedzą ile będzie rund. 1-wsza ronda ma numer 0
- po każdej rundzie następna runda nastąpi z stałym p-stwem r
Stąd:
- p-stwo przynajmniej n iteracji = rn
- p-stwo dokładnie n iteracji p(n) = rn(1-r)
- średnia ilość rund
1(1 r )
2 r (1 r ) ...
nr
n 1
(1 r ) ...
1
1 r
Jeśli A(n) – wypłata w n-tej rundzie, to średnia całkowita wypłata
A
p ( n )[ A(0)
...
A( n )]
n 0
a średnia wypłata na rundę
p ( n ) A( n )
n 0
(1
r n A( n )
r)
n 0
Przypadek 3 strategii: ZawszeWspółpracuj (ZW), Zawsze Zdradzaj (ZZ), Wet za Wet (WzW).
ZZ w każdym spotkaniu z ZZ dostaje
0
ZW w każdym spotkaniu z ZZ dostaje -c
WzW w pierwszym spotkaniu z ZZ dostaje –c, potem 0; na 1 rundę dostaje –c(1-r)
…
ZZ w w pierwszym spotkaniu z WzW dostaje b, potem 0; na 1 rundę dostaje b(1-r)
…
b c
Więc macierz wypłat
aˆ
b
c
b c
0
b c
b(1 r )
c(1 r )
b c
Równania replikatorów
x
x (Wx W )
y
y (Wy W )
z
z (Wz W )
Wx
gdzie
c b( x z )
Wy
bx bz (1 r ) b( x z ) bzr
Wz
Wx
W
xWx
cry
yWy
zWz
Odejmując dla wygody Wy od wszystkich wypłat, mamy
Wx
Wtedy w szczególności
Wy
0
Wz
Wx cry
W
xWx
Wz W
yg (z )
gdzie
g( z)
zr (b c) c(1 r )
Funkcja g(z) = 0 dla
z
z*
ZZ
(x,y,z)=(0,1,0)
yWy
zWz
WzW
(0,0,1)
Wewnątrz sympleksu
nie ma punktów stałych
c(1 r )
r (b c )
z rośnie dla z>z*
z maleje dla z<z*
c bzr
z = z*
z=0
z* maleje z ilością rund.
Gdy r -> 1, z* -> 0
ZW
(1,0,0)
Boki trójkąta są zbiorami niezmienniczymi: trajektoria z nich nie wyprowadza.
Do osi x = 0 stosuje się reguła: „z rośnie dla z > z*, z maleje dla z < z*”
Na osi z = 0 mamy dz/dt=0 , Wx= -c , Wy= 0 , Wz= -c(1-ry), dx/dt = x(-c + cx) = -cx(1-x) < 0
Na osi y = 0 mamy dy/dt = 0, dz/dt = zyg(z) =0 ; każdy punkt osi jest punktem stałym
(współpraca ZW z WzW nie wymaga zmian)
Które z tych punktów stałych są stabilne ? Kiedy trajektoria nie odjedzie od osi?
Te, dla których
stabilne
Wy W 0
(0,0,1)
Wy W
z
xWx zWz
c
rb
( x z )( c rbz )
c rbz
z = z*
niestabilne
z=0
(0,1,0)
(1,0,0)
Mamy więc na osi y = 0 (koegzystencja ZW i WzW) trzy obszary:
- punkty stałe niestabilne
z < z*
inwazja ZZ skuteczna
- punkty stałe niestabilne
z* < z < c/(rb)
inwazja ZZ w końcu nieskuteczna,
ale po drodze rośnie liczba WzW
- punkty stałe stabilne
z > c/(rb)
inwazja ZZ nieskuteczna
WzW
Karl Sigmund:
ZZ powinni czekać z
inwazją, aż szum
przeprowadzi układ w dół
po osi y = 0 poniżej z*.
Zbyt częste próby są
szkodliwe dla agresora
(immunizacja).
ZZ(0,1,0)
stabilne
(0,0,1)
z
z = z*
z=0
c
rb
niestabilne
ZW
(1,0,0)
Probabilistyka i strategie reaktywne
Strategia reaktywna określa reakcję na grę partnera w poprzedniej rundzie.
Probabilistyczna strategia reaktywna = (f,p,q), gdzie
f - p-stwo współpracy w 1-wszej rundzie
p - p-stwo współpracy jeżeli partner współpracował w poprzedniej rundzie
q - p-stwo współpracy jeżeli partner zdradził w poprzedniej rundzie
Np. ZZ = (0,0,0), TFT = (1,1,0)
Wprowadzając wektor stanu
p(CC ' )
x1
p(CD' )
x2
p( DC ' )
x3
x4
p( DD ' )
x
mamy macierz przejścia
x (t 1)
Px (t )
P
pp '
qp '
pq '
qq '
p (1 p ' )
q (1 p' )
p (1 q ' )
q (1 q ' )
(1 p) p'
(1 q ) p '
(1 p)q '
(1 q )q '
(1 p )(1 p ' ) (1 q)(1 p ' ) (1 p )(1 q ' ) (1 q )(1 q ' )
Dygresja o macierzy przejścia
Przykład: „domek myszy”
A
C
m w k
V
d
j
c
z
r
p
1
B
0
0
V 0
2/3
V 1
0
1/ 3
0
0
stąd
V
2/3
2/3
0
1/ 3
2 / 3 1/ 2
0
1/ 3 1/ 3
0
1/ 2
V 0
1/ 2
1
3/8
1/ 2
3/8
0
2/8
0
ff '
f (1
Stan początkowy
(1
(1
x1 (eq )
f ')
f)f'
f )(1
x2 (eq )
dąży do
x3 (eq )
f ')
dla t -> , chyba że strategie są
deterministyczne.
x4 (eq )
wektor własny P
do wartości własnej 1.
W szczególności miara korelacji* między strategiami partnerów
dąży do zera eksponencjalnie:
D (t 1)
D
x1 x4
x2 x3
( p q)( p' q' ) D (t )
Oznacza to, że
D(t ) ( p q)t ( p' q' )t D(0)
4
Dowód przez podstawienie:
xi (t 1)
pij x j (t )
j 1
*Dowód, że dla strategii niezależnych D=0:
P-stwo że gracz 1 gra C jest x1 + x2
P-stwo że gracz 2 gra C jest x1 + x3
P-stwo że obaj gracze grają C jest x1
Dla strategii niezależnych x1 = (x1 + x2) (x1 + x3)
2
x1 x1
x1 x2
x1 (1 x1 x2
x1 x4
x2 x3
x1 x3
x3 )
x2 x3
x2 x3
Zdefiniujmy zmienne
= p – q, ’ = p’ – q’. Na ogół
< 1.
Jeżeli gracz II gra C z p-stwem y = x1 + x2, to w następnej rundzie gracz I gra C z p-stwem
( y)
py q(1 y )
q
y
Jeżeli więc gracz I gra C w rundzie t z p-stwem y(t), to w rundzie t+2 gra C z p-stwem
y ( t 2)
q
[ q'
' y (t )]
W punkcie stałym tej transformacji
W stanie stacjonarnym
strategie są nieskorelowane:
q
q
yI *
1
q'
' y (t )
q'
'
y II *
x1 (eq)
y I * y II *
x2 (eq )
y I * (1 y II *)
x3 (eq )
x4 (eq )
(1 y I *) y II *
(1 y I *)(1 y II *)
q'
1
'q
'
Gra w Datek
(0,0,1)
W notacji (f,p,q):
ZW = (1- , 1- , 1- )
ZZ=(k , k , k )
WzW= (1- , 1- , k )
> 0, k > 0
z = z*
z=0
(0,1,0)
(1,0,0)
Skończona ilość rund (r < 1), skończone prawdopodobieństwa błędów ( > 0)
Gra w Datek
(0,0,1)
ZW = (1- , 1- , 1- )
ZZ=(k , k , k )
WzW= (1- , 1- , k )
z=0
(0,1,0)
(1,0,0)
Nieskończenie wiele rund (r = 1), skończone prawdopodobieństwa błędów ( > 0)
Gra w Datek
(0,0,1)
ZW = (1, 1, 1)
ZZ=(0,0,0)
WzW= (1,1,0)
z=0
(0,1,0)
(1,0,0)
Nieskończenie wiele rund (r = 1), brak błędów ( = 0)
Gra w Datek
(0,0,1)
ZW = (1- , 1- , 1- )
ZZ=(0, 0, 0)
WzW= (1- , 1- , 0)
(0,1,0)
z=0
(1,0,0)
Nieskończenie wiele rund (r = 1), błędy tylko w współpracy (k = 0)
Wzajemność pośrednia
Zmienne i parametry:
x – p-stwo ZW
y - p-stwo ZW
z - p-stwo WzW
(indirect reciprocity)
A
B
w przód:
A
B
C
wstecz:
C
A
B
- p-stwo błędu
polegającego na braku
współpracy
1h – procent z dobrą reputacją
q – p-stwo że reputacja znana
r – miara ilości rund
Dobrą reputację ma ten kto współpracował:
h
b,c – parametry wypłat
[ x z (1 q qh)]
stąd
h
zna
z dobrej strony
[ x z (1 q )]
1 qz
Gra w Datek
Wypłaty …
Wx
c
b [ x z (1 q
C
D
q)]
Wy
C
D
b-c
b
-c
0
b [ x z (1 q )]
WzW nie wiedział, komu daje
Wz
c (1 q qh) b {x z[1 q
q(1 q qh)]}
… do równań replikatorowych
q
q c /(rb )
nie ma informacji->
nie ma współpracy
z*
q=1
z*
c /( rb )
c /( rb )
brak błędów, = 1
z*
c /( rbq )
q = 1, = 1
z*
c /( rb)
c /( rbq )