G D ( N , M )

Transkrypt

G D ( N , M )
i przegranych.
1
ślają ilość informacji dostępnych jednostkom oraz wysokość wygranych
i jednocześnie zminimalizować zysk pozostałych jednostek. Reguły gry okre-
sów),w której każda z jednostek stara się maksymalizować swój własny zysk
jednostek (graczy) znajdujących się w sytuacji konfliktowej (konflikt intere-
Gra składa się z zestawu reguł określających możliwości wyboru postępowania
DEFINICJA (VON NEUMANN, MORGENSTERN)
GRA
TEORIA GIER
każdy z graczy ma do wyboru pewną określoną liczbę sposo-
• strategie:
odpowiednie do wyniku przypadające każdemu graczowi
ustalone i niezmienne w trakcie całej gry
• wypłaty:
• zasady:
graczy
2
• wynik gry: determinowany przez kombinację strategii wybranych przez
bów rozgrywania przez niego gry
co najmniej dwóch (np. ludzie, firmy, państwa, gatunki)
• gracze:
ELEMENTY CHARAKTERYZUJĄCE GRĘ
papier-kamień-nożyce,
szachy, warcaby, domino, brydż
• wielochodowe
brydż, poker, chińczyk
• jednochodowe
ze względu na liczbę ruchów:
• wieloosobowe (ang. multi-player games)
• dwuosobowe (ang. two-player games) warcaby, szachy, backgammon,
• jednoosobowe (ang. one-player games) puzzle, pasjans,
• bezosobowe (ang. zero-player games) gra w życie Convay’s life,
ze względu na liczbę graczy:
PODZIAŁ GIER W ZALEZNOŚCI OD PRZYJĘTEGO KRYTERIUM (1)
3
gier nieantagonistycznych wchodzi w zakres teorii podejmowania decyzji]
4
najmniej jeden, nie dąży do maksymalizowania swojej wygranej [teoria
• nieantagonistyczne (czasem nazywane grami z przyrodą) – gracze, przy-
przeciwnika,
zowania swojej wygranej i, co za tym idzie, do minimalizowania wygranej
• antagonistyczne – cele graczy są przeciwstawne; dążą oni do maksymali-
ze względu na zainteresowanie graczy wynikiem gry:
PODZIAŁ GIER W ZALEZNOŚCI OD PRZYJĘTEGO KRYTERIUM (2)
• niekooperacyjne (ang. non-cooperative)
gracze współpracują ze sobą (gry ekonomiczne),
• kooperacyjne (ang. cooperative)
ze względu na rodzaj współpracy graczy:
• gry o sumie niezerowej (ang. non-zero-sum games)
wygrana jednego gracza oznacza przegraną drugiego [szachy, poker],
• gry o sumie zerowej (ang. zero-sum games)
ze względu na wygraną i przegraną:
PODZIAŁ GIER W ZALEZNOŚCI OD PRZYJĘTEGO KRYTERIUM (3)
5
o aktualnej sytuacji i możliwościach przeciwnika [domino, scrabble, brydż]
6
każdy gracz wybierając swój kolejny ruch pozbawiony jest pełnej informacji
• o niepełnej informacji
o aktualnej sytuacji oraz o możliwościach przeciwnika [szachy, chińczyk],
każdy gracz wybierając swój kolejny ruch posiada pełną informację
• o pełnej informacji
ze względu na posiadaną informację:
PODZIAŁ GIER W ZALEZNOŚCI OD PRZYJĘTEGO KRYTERIUM (4)
brydż, scrabble, domino,
warcaby, szachy, go
• częściowo losowe
• zdeterminowane
7
• ruletka: jednoosobowa, jednochodowa, nieantagonistyczna, o sumie zerowej, niekooperacyjna, o niepełnej informacji, całkowicie losowa
• szachy: dwuosobowa, wielochodowa, antagonistyczna, o sumie zerowej,
niekooperacyjna, o pełnej informacji, zdeterminowana
Każdą grę można scharakteryzować za pomocą kryteriów klasyfikacji:
ruletka, lotto,
• całkowicie losowe
ze względu na występowanie elementu losowości:
PODZIAŁ GIER W ZALEZNOŚCI OD PRZYJĘTEGO KRYTERIUM (5)
8
1. nie zawsze znana jest: liczba graczy, ich strategie, wyniki i odpowiadające im wypłaty
2. nie zawsze spełnione jest założenie teorii
gier o racjonalnym zachowaniu się graczy
3. trudno przewidzieć przebieg gry, w której interesy
graczy nie są dokładnie przeciwstawne i takich,
w których bierze udział więcej niż dwóch graczy
czy istnieje? niestety nie, ponieważ:
powinien zatem istnieć sposób właściwego postępowania w każdej sytuacji
konfliktu i kooperacji
w ogólnym ujęciu, możliwe jest opisywanie za pomocą pojęć z zakresu teorii
gier, sytuacji społecznych: strategie korporacyjne, kampanie wyborcze, natura
KOMPLETNA TEORIA RACJONALNEGO ROZGRYWANIA GIER
9
Zespół ruchów wykonywanych od początku gry określa sytuację/stan gry bj
∈ B, B = {b1, b2, …, bl}. W zbiorze B można wydzielić podzbiór B’ ⊆ B, którego elementami są sytuacje/stany końcowe. Wykonanie ruchu doprowadzają-
Załóżmy, że zadany jest pewien zbiór ruchów M = {m1, m2, …, mk}.
W zbiorze M można wyróżnić n podzbiorów M1, M2, …, Mn, które w ogólnym
przypadku nie muszą być rozłączne. Zbiór Mi jest zbiorem dopuszczalnych ruchów gracza Gi (i = 1, 2, …, n).
Gra polega na dowolnym wyborze przez graczy ruchów należących do zbioru
ruchów dopuszczalnych dla danego gracza.
Możliwe są dwa rodzaje ruchów:
• określone – gracz wybiera w danym posunięciu ruch według określonych
kryteriów,
• losowe – wybór ruchu następuje według jakiegokolwiek mechanizmu losowego.
*GRA N-OSOBOWA[5]
10
Aby gra była określona, zadane powinny być:
• zbiory Mi,
• funkcja f,
• reguły wydzielania podzbiorów Mi w dowolnej sytuacji bj z uwzględnie[porównaj
z
ELEMENTY
niem
możliwości
gracza
Gi.
CHARAKTERYZUJĄCE GRĘ]
W tę definicję wpisują się wszystkie podziały gier poczynione wcześniej.
Ruch gracza w każdym stanie jest przyporządkowany pewnym regułom (zależnym od sytuacji/stanu) oraz od możliwości gracza. Reguły te wyznaczają w
zbiorze ruchów gracza Gi wydzielenie podzbioru M’i ⊆ M ruchów dozwolonych w danej sytuacji.
ce do sytuacji końcowej jest równoznaczne z zakończeniem gry. Każda sytuacja końcowa określa jednoznacznie wygrane i przegrane graczy oraz odpowiadają jej wypłaty pomiędzy graczami. Przyporządkowanie to wyznacza
funkcję wypłat f, określoną na zbiorze sytuacji/stanów końcowych.
Rys.1. Drzewo gry [5]
1
i1
2
1
i1
2
i2
1
i2
1
i1
+2
1
2
i1
-10
1
+10
2
i1
1
-2
1
i1
*GRAFICZNE PRZEDSTAWIENIE GRY
2
i 1
1
i2
1
+6
2
i1
2
+2
1
i1
2
i2
1
-6
2
i1
-10
11
12
Strategia ruchu (np.: i11 , i21; góra – numer gracza; dół – numer strategii ruchu
w zbiorze strategii) gracza Gi to wybór jednego z możliwych w danej sytuacji/stanie ruchów.
Strategia gry (strategia pełna gry) gracza Gi to zespół wytycznych, na podstawie których wybiera on ruchy w dowolnej sytuacji/stanie lub dokładniej – niezależnie od posiadanej informacji o grze.
*STRATEGIA RUCHU I STRATEGIA PEŁNA GRY
Węzłom drzewa odpowiadają sytuacje/stany. Krawędzie opisane są elementami zbioru M’i. Przy węzłach kolorowych podane są wartości wypłat im odpowiadających.
Dowolna droga w drzewie gry reprezentuje partię gry (ciąg ruchów wykonywanych przez graczy). Liczba możliwych partii jest równa liczbie sytuacji/stanów końcowych [na rys.1. jest ich osiem 8].
13
Wybór strategii gry dokonywany jest w oparciu o pewną funkcję decyzyjną
określoną na zbiorze strategii, a opartą o informację, jaką gracz Gi posiada o
grze.
W przypadku gier jednochodowych strategie ruchu pokrywają się ze strategiami pełnymi.
2
1
i1
2
i2
i2
1
1
1
i1
+2
1
2
i1
-10
2
i1
1
-2
1
i1
2
i 1
1
i2
1
+6
2
i1
2
+2
1
i1
2
i2
1
-6
2
i1
-10
Rys.2. Drzewo gry z zaznaczonym zbiorem informacyjnym
1
i1
+10
14
Objętość informacyjna, jaką wykorzystuje gracz, wybierając kolejny ruch, to
liczba sytuacji/stanów, w których dana gra może aktualnie się znajdować.
*OBJETOŚĆ INFORMACYJNA I ZBIORY INFORMACYJNE
15
Rozpatrzmy grę, której drzewo gry pokazane jest na rys.2.
Zgodnie z zasadami gry ruch gracza G2 nie jest znany graczowi G1 zanim wykona on drugie posunięcie.
Liczba strategii ruchu gracza G1 = 2 w każdym posunięciu,
Liczba strategii ruchu gracza G2 = 2 w każdym posunięciu,
Liczba strategii pełnych dla gracza G1 = 4,
Liczba strategii pełnych dla gracza G2 = 4,
*MACIERZ GRY
Jeżeli gracz G1 wykonując ruch trzeci nie zna ruchu gracza G2 w poprzednim
posunięciu, nie może stwierdzić, w której z dwóch sytuacji (zaznaczone linią
przerywaną na rys.2.) znajduje się aktualnie gra.
Zbiorem informacyjnym nazywamy wszystkie sytuacje/stany wewnątrz zakreślonego (rys.2.) obszaru.
Jeżeli gra jest gra o pełnej informacji, wtedy wszystkie zbiory informacyjne
na drzewie gry składałyby się z jednej sytuacji.
16
Każda partia kończy się po trzech ruchach.
W każdym posunięciu gracze może wybrać jeden z dwóch możliwych ruchów.
Gracz G1 dysponuje czterema różnymi ciągami ruchów:
S11 = i11, i11; S12 = i11, i12; S13 = i12, i11; S14 = i12, i12.
Gracz G2 dysponuje dwoma różnymi ciągami ruchów:
S21 = i21; S22 = i22.
Jeżeli oznaczymy przez Sij j-ty ciąg ruchów gracza Gi w danej partii, to dla gry
dwuosobowej można zbudować macierz gry o wymiarach S1 x S2, gdzie S1 i S2
to liczby różnych ciągów ruchów gracza G1 i G2, możliwych do wykonania w
danej grze. Elementami macierzy niech będą wartości wypłat.
S
=
⎣
S14 ⎪ +2
S13 ⎪ +6
-6 ⎪
⎪
10
⎦
S12 ⎪ -10 -2 ⎪
S11
S21 S22
⎡
⎤
⎪ +10 +2 ⎪
Macierz gry S ma następującą postać:
17
18
Gracz G1 zainteresowany jest/dąży do znalezienia takiej strategii, która zapewni mu maksymalną wygraną (tu: wartości wypłat ze znakiem +) i jest to równoważne ze znalezieniem w macierzy takiego wiersza, którego najmniejszy
element jest największy w porównaniu ze wszystkimi najmniejszymi elementami pozostałych wierszy w macierzy.
Zatem,
*WYBÓR STRATEGII – STATEGIE MAKSYMINOWA I MINIMAKSOWA
19
Znaleziona w ten sposób strategia nazywa się strategią maksyminową [tu:
S11; α* = +2].
gdzie:
aij – element macierzy gry;
i = 1, 2, …, l;
j = 1, 2, …, m;
l – liczba strategii pełnych gracza G1;
m – liczba strategii pełnych gracza G2.
⎧
⎫
α* = max ⎨ min aij ⎬
i ⎩ j
⎭
strategia optymalna dla gracza G1 osiągnięta zostanie gdy:
*PUNKT SIODŁOWY I WARTOŚĆ GRY
20
Znaleziona w ten sposób strategia nazywa się strategią minimaksową [tu: S22;
β* = +2].
⎧
⎫
β* = min ⎨ max aij ⎬
j ⎩ i
⎭
Gracz G2 również zainteresowany jest/dąży do znalezienia takiej strategii, która zapewni mu maksymalną wygraną (tu: wartości wypłat ze znakiem -) i jest
to równoważne ze znalezieniem w macierzy takiej kolumny, której największy
element jest najmniejszym w porównaniu ze wszystkimi największymi elementami pozostałych wierszy w macierzy.
Zatem,
strategia optymalna dla gracza G2 osiągnięta zostanie gdy:
⎧
⎫
⎧
⎫
α* = max ⎨ min aij ⎬ = min ⎨ max aij ⎬ = β*
i ⎩ j
j ⎩ i
⎭
⎭
Gry posiadające punkt siodłowy [tu: +2] są grami o pełnej informacji.
21
wtedy, gra posiada punkt siodłowy, a element wyznaczony na podstawie powyższej równości nazywa się wartością gry [tu: α* = β* = +2].
Jeżeli
22
Strategia określona jako ciąg wyborów strategii pełnych na podstawie powyższego zestawienia nazywa się strategią mieszaną.
W przypadku, gdy gra nie posiada punktu siodłowego gracze wybierają swoje
strategii gry w sposób losowy, aby przeciwnik nie był w stanie odkryć prawidłowości przy wyborze strategii. Wybór taki może być dokonywany za pomocą prawa rozkładu dyskretnej zmiennej losowej ξ. Zmienna losowa ξ przyjmuje wartości całkowite odpowiadające numerom strategii pełnych, którymi dysponuje gracz (pl oznaczają prawdopodobieństwa wyboru w danym posunięciu
strategii i).
*STRATEGIE MIESZANE
S11
S12
⎡
⎤
⎪ +10 -5 ⎪
⎪ -10 +5 ⎪
⎣
⎦
S21 S22
prawdopodobieństwa wyboru strategii pełnych gracza G1: p1 i p2,
prawdopodobieństwa wyboru strategii pełnych gracza G2: q1 i q2.
Dla danych:
macierz gry
WYZNACZANIE STRATEGII MIESZANYCH
23
24
Aby znaleźć maksimum tej funkcji przyrównywane są do zera jej pochodne
cząstkowe i po rozwiązaniu otrzymanego układu równań otrzymywane są wartości:
p1 = 1/2 p2 = 1/2 q1 = 1/3 q2 = 2/3.
L(p1, p2, q1, q2, λ1, λ2) = (+10p1 – 10p2)q1 + (-5p1 + 5p2)q2 + λ1(p1 + p2 -1) +
λ2(q1 + q2 -1)
Wyznaczane są wartości p1, p2, q1 i q2, dla których wartość oczekiwana wygranej gracza G1 osiągnie maksimum. W celu znalezienia maksimum warunkowego określana jest funkcja Lagrange’a:
Wartość oczekiwana wygranej G1 wynosi dla wyboru przez G2:
S11: +10p1 – 10p2,
S12: -5p1 + 5p2.
zatem, wartość oczekiwana wygranej G1 wynosi:
(+10p1 – 10p2)q1 + (-5p1 + 5p2)q2
25
Następnie budowana jest funkcja Lagrange’a dla gracza G2 i poszukiwane są
wartości p1, p2, q1 i q2, dla których funkcja ta osiąga minimum [tu: wartości te
są takie same jak dla G1].
26
TW MINIMAKSOWE. W grze dwuosobowej określonej za pomocą macierzy
gry zawsze istnieją optymalne strategie mieszane graczy G1 i G2, przy czym
strategią optymalną gracza G1 jest jego maksyminowa strategia mieszana, zaś
strategią optymalną gracza G2 jest jego minimaksowa strategia mieszana.
W teorii gier dowodzi się, że zawsze istnieje możliwość znalezienia minimaksowych i maksyminowych strategii mieszanych dla graczy w grze. Stanowi to
podstawowe twierdzenie teorii gier – twierdzenie minimaksowe.
*TWIERDZENIE MINIMAKSOWE
27
• algorytm cięć αβ - opracowany przez Knutha i Moore’a w 1975r. [3] (polega na ograniczeniu przeszukiwania do najbardziej „obiecującej” części
drzewa; stanowił podstawę dla ProbCut),
• ProbCut (wartości funkcji heurystycznej dla kolejnych węzłów nie są niezależne od siebie (są wysoce skorelowane [1]); idea działania ProbCut polega na dokonywaniu przybliżeń wartości węzłów leżących niżej w drzewie poprzez wartości węzłów leżących wyżej (na mniejszej głębokości),
• Multi-ProbCut [2] (rozszerzona wersja ProbCut, w której usunięto część
wad ProbCut: zbyt „radykalny” w działaniu).
ROZWINIĘCIE ALGORYTMU MINIMAKSOWEGO[4]
28
[1] BURO M., ProbCut: An Effective Selective Extension of Alpha-Beta Algorithm. ICCA Journal 18(2), 1995, pp. 71-76.
[2] BURO M., Experiments with Multi-ProbCut and a New High-Quality Evaluation Function for Othello. Workshop on Game – Tree Search, NEC Research Institute, 1997.
[3] KNUTH D.E., MOORE R.W., An Analisys of Alpha-Beta Pruning. Artificial Intelligence. Vol. 6, 1975, pp. 293-326.
[4] KWAŚNICKA H., SPIRYDOWICZ A., Uczący się Komputer – Programowanie Gier Logicznych. Oficyna Wydawnicza Politechniki Wrocławskiej, 2004.
[5] POSPIEŁOW D.A., Gry i Automaty. WNT, 1968.
Literatura