G D ( N , M )
Transkrypt
G D ( N , M )
i przegranych. 1 ślają ilość informacji dostępnych jednostkom oraz wysokość wygranych i jednocześnie zminimalizować zysk pozostałych jednostek. Reguły gry okre- sów),w której każda z jednostek stara się maksymalizować swój własny zysk jednostek (graczy) znajdujących się w sytuacji konfliktowej (konflikt intere- Gra składa się z zestawu reguł określających możliwości wyboru postępowania DEFINICJA (VON NEUMANN, MORGENSTERN) GRA TEORIA GIER każdy z graczy ma do wyboru pewną określoną liczbę sposo- • strategie: odpowiednie do wyniku przypadające każdemu graczowi ustalone i niezmienne w trakcie całej gry • wypłaty: • zasady: graczy 2 • wynik gry: determinowany przez kombinację strategii wybranych przez bów rozgrywania przez niego gry co najmniej dwóch (np. ludzie, firmy, państwa, gatunki) • gracze: ELEMENTY CHARAKTERYZUJĄCE GRĘ papier-kamień-nożyce, szachy, warcaby, domino, brydż • wielochodowe brydż, poker, chińczyk • jednochodowe ze względu na liczbę ruchów: • wieloosobowe (ang. multi-player games) • dwuosobowe (ang. two-player games) warcaby, szachy, backgammon, • jednoosobowe (ang. one-player games) puzzle, pasjans, • bezosobowe (ang. zero-player games) gra w życie Convay’s life, ze względu na liczbę graczy: PODZIAŁ GIER W ZALEZNOŚCI OD PRZYJĘTEGO KRYTERIUM (1) 3 gier nieantagonistycznych wchodzi w zakres teorii podejmowania decyzji] 4 najmniej jeden, nie dąży do maksymalizowania swojej wygranej [teoria • nieantagonistyczne (czasem nazywane grami z przyrodą) – gracze, przy- przeciwnika, zowania swojej wygranej i, co za tym idzie, do minimalizowania wygranej • antagonistyczne – cele graczy są przeciwstawne; dążą oni do maksymali- ze względu na zainteresowanie graczy wynikiem gry: PODZIAŁ GIER W ZALEZNOŚCI OD PRZYJĘTEGO KRYTERIUM (2) • niekooperacyjne (ang. non-cooperative) gracze współpracują ze sobą (gry ekonomiczne), • kooperacyjne (ang. cooperative) ze względu na rodzaj współpracy graczy: • gry o sumie niezerowej (ang. non-zero-sum games) wygrana jednego gracza oznacza przegraną drugiego [szachy, poker], • gry o sumie zerowej (ang. zero-sum games) ze względu na wygraną i przegraną: PODZIAŁ GIER W ZALEZNOŚCI OD PRZYJĘTEGO KRYTERIUM (3) 5 o aktualnej sytuacji i możliwościach przeciwnika [domino, scrabble, brydż] 6 każdy gracz wybierając swój kolejny ruch pozbawiony jest pełnej informacji • o niepełnej informacji o aktualnej sytuacji oraz o możliwościach przeciwnika [szachy, chińczyk], każdy gracz wybierając swój kolejny ruch posiada pełną informację • o pełnej informacji ze względu na posiadaną informację: PODZIAŁ GIER W ZALEZNOŚCI OD PRZYJĘTEGO KRYTERIUM (4) brydż, scrabble, domino, warcaby, szachy, go • częściowo losowe • zdeterminowane 7 • ruletka: jednoosobowa, jednochodowa, nieantagonistyczna, o sumie zerowej, niekooperacyjna, o niepełnej informacji, całkowicie losowa • szachy: dwuosobowa, wielochodowa, antagonistyczna, o sumie zerowej, niekooperacyjna, o pełnej informacji, zdeterminowana Każdą grę można scharakteryzować za pomocą kryteriów klasyfikacji: ruletka, lotto, • całkowicie losowe ze względu na występowanie elementu losowości: PODZIAŁ GIER W ZALEZNOŚCI OD PRZYJĘTEGO KRYTERIUM (5) 8 1. nie zawsze znana jest: liczba graczy, ich strategie, wyniki i odpowiadające im wypłaty 2. nie zawsze spełnione jest założenie teorii gier o racjonalnym zachowaniu się graczy 3. trudno przewidzieć przebieg gry, w której interesy graczy nie są dokładnie przeciwstawne i takich, w których bierze udział więcej niż dwóch graczy czy istnieje? niestety nie, ponieważ: powinien zatem istnieć sposób właściwego postępowania w każdej sytuacji konfliktu i kooperacji w ogólnym ujęciu, możliwe jest opisywanie za pomocą pojęć z zakresu teorii gier, sytuacji społecznych: strategie korporacyjne, kampanie wyborcze, natura KOMPLETNA TEORIA RACJONALNEGO ROZGRYWANIA GIER 9 Zespół ruchów wykonywanych od początku gry określa sytuację/stan gry bj ∈ B, B = {b1, b2, …, bl}. W zbiorze B można wydzielić podzbiór B’ ⊆ B, którego elementami są sytuacje/stany końcowe. Wykonanie ruchu doprowadzają- Załóżmy, że zadany jest pewien zbiór ruchów M = {m1, m2, …, mk}. W zbiorze M można wyróżnić n podzbiorów M1, M2, …, Mn, które w ogólnym przypadku nie muszą być rozłączne. Zbiór Mi jest zbiorem dopuszczalnych ruchów gracza Gi (i = 1, 2, …, n). Gra polega na dowolnym wyborze przez graczy ruchów należących do zbioru ruchów dopuszczalnych dla danego gracza. Możliwe są dwa rodzaje ruchów: • określone – gracz wybiera w danym posunięciu ruch według określonych kryteriów, • losowe – wybór ruchu następuje według jakiegokolwiek mechanizmu losowego. *GRA N-OSOBOWA[5] 10 Aby gra była określona, zadane powinny być: • zbiory Mi, • funkcja f, • reguły wydzielania podzbiorów Mi w dowolnej sytuacji bj z uwzględnie[porównaj z ELEMENTY niem możliwości gracza Gi. CHARAKTERYZUJĄCE GRĘ] W tę definicję wpisują się wszystkie podziały gier poczynione wcześniej. Ruch gracza w każdym stanie jest przyporządkowany pewnym regułom (zależnym od sytuacji/stanu) oraz od możliwości gracza. Reguły te wyznaczają w zbiorze ruchów gracza Gi wydzielenie podzbioru M’i ⊆ M ruchów dozwolonych w danej sytuacji. ce do sytuacji końcowej jest równoznaczne z zakończeniem gry. Każda sytuacja końcowa określa jednoznacznie wygrane i przegrane graczy oraz odpowiadają jej wypłaty pomiędzy graczami. Przyporządkowanie to wyznacza funkcję wypłat f, określoną na zbiorze sytuacji/stanów końcowych. Rys.1. Drzewo gry [5] 1 i1 2 1 i1 2 i2 1 i2 1 i1 +2 1 2 i1 -10 1 +10 2 i1 1 -2 1 i1 *GRAFICZNE PRZEDSTAWIENIE GRY 2 i 1 1 i2 1 +6 2 i1 2 +2 1 i1 2 i2 1 -6 2 i1 -10 11 12 Strategia ruchu (np.: i11 , i21; góra – numer gracza; dół – numer strategii ruchu w zbiorze strategii) gracza Gi to wybór jednego z możliwych w danej sytuacji/stanie ruchów. Strategia gry (strategia pełna gry) gracza Gi to zespół wytycznych, na podstawie których wybiera on ruchy w dowolnej sytuacji/stanie lub dokładniej – niezależnie od posiadanej informacji o grze. *STRATEGIA RUCHU I STRATEGIA PEŁNA GRY Węzłom drzewa odpowiadają sytuacje/stany. Krawędzie opisane są elementami zbioru M’i. Przy węzłach kolorowych podane są wartości wypłat im odpowiadających. Dowolna droga w drzewie gry reprezentuje partię gry (ciąg ruchów wykonywanych przez graczy). Liczba możliwych partii jest równa liczbie sytuacji/stanów końcowych [na rys.1. jest ich osiem 8]. 13 Wybór strategii gry dokonywany jest w oparciu o pewną funkcję decyzyjną określoną na zbiorze strategii, a opartą o informację, jaką gracz Gi posiada o grze. W przypadku gier jednochodowych strategie ruchu pokrywają się ze strategiami pełnymi. 2 1 i1 2 i2 i2 1 1 1 i1 +2 1 2 i1 -10 2 i1 1 -2 1 i1 2 i 1 1 i2 1 +6 2 i1 2 +2 1 i1 2 i2 1 -6 2 i1 -10 Rys.2. Drzewo gry z zaznaczonym zbiorem informacyjnym 1 i1 +10 14 Objętość informacyjna, jaką wykorzystuje gracz, wybierając kolejny ruch, to liczba sytuacji/stanów, w których dana gra może aktualnie się znajdować. *OBJETOŚĆ INFORMACYJNA I ZBIORY INFORMACYJNE 15 Rozpatrzmy grę, której drzewo gry pokazane jest na rys.2. Zgodnie z zasadami gry ruch gracza G2 nie jest znany graczowi G1 zanim wykona on drugie posunięcie. Liczba strategii ruchu gracza G1 = 2 w każdym posunięciu, Liczba strategii ruchu gracza G2 = 2 w każdym posunięciu, Liczba strategii pełnych dla gracza G1 = 4, Liczba strategii pełnych dla gracza G2 = 4, *MACIERZ GRY Jeżeli gracz G1 wykonując ruch trzeci nie zna ruchu gracza G2 w poprzednim posunięciu, nie może stwierdzić, w której z dwóch sytuacji (zaznaczone linią przerywaną na rys.2.) znajduje się aktualnie gra. Zbiorem informacyjnym nazywamy wszystkie sytuacje/stany wewnątrz zakreślonego (rys.2.) obszaru. Jeżeli gra jest gra o pełnej informacji, wtedy wszystkie zbiory informacyjne na drzewie gry składałyby się z jednej sytuacji. 16 Każda partia kończy się po trzech ruchach. W każdym posunięciu gracze może wybrać jeden z dwóch możliwych ruchów. Gracz G1 dysponuje czterema różnymi ciągami ruchów: S11 = i11, i11; S12 = i11, i12; S13 = i12, i11; S14 = i12, i12. Gracz G2 dysponuje dwoma różnymi ciągami ruchów: S21 = i21; S22 = i22. Jeżeli oznaczymy przez Sij j-ty ciąg ruchów gracza Gi w danej partii, to dla gry dwuosobowej można zbudować macierz gry o wymiarach S1 x S2, gdzie S1 i S2 to liczby różnych ciągów ruchów gracza G1 i G2, możliwych do wykonania w danej grze. Elementami macierzy niech będą wartości wypłat. S = ⎣ S14 ⎪ +2 S13 ⎪ +6 -6 ⎪ ⎪ 10 ⎦ S12 ⎪ -10 -2 ⎪ S11 S21 S22 ⎡ ⎤ ⎪ +10 +2 ⎪ Macierz gry S ma następującą postać: 17 18 Gracz G1 zainteresowany jest/dąży do znalezienia takiej strategii, która zapewni mu maksymalną wygraną (tu: wartości wypłat ze znakiem +) i jest to równoważne ze znalezieniem w macierzy takiego wiersza, którego najmniejszy element jest największy w porównaniu ze wszystkimi najmniejszymi elementami pozostałych wierszy w macierzy. Zatem, *WYBÓR STRATEGII – STATEGIE MAKSYMINOWA I MINIMAKSOWA 19 Znaleziona w ten sposób strategia nazywa się strategią maksyminową [tu: S11; α* = +2]. gdzie: aij – element macierzy gry; i = 1, 2, …, l; j = 1, 2, …, m; l – liczba strategii pełnych gracza G1; m – liczba strategii pełnych gracza G2. ⎧ ⎫ α* = max ⎨ min aij ⎬ i ⎩ j ⎭ strategia optymalna dla gracza G1 osiągnięta zostanie gdy: *PUNKT SIODŁOWY I WARTOŚĆ GRY 20 Znaleziona w ten sposób strategia nazywa się strategią minimaksową [tu: S22; β* = +2]. ⎧ ⎫ β* = min ⎨ max aij ⎬ j ⎩ i ⎭ Gracz G2 również zainteresowany jest/dąży do znalezienia takiej strategii, która zapewni mu maksymalną wygraną (tu: wartości wypłat ze znakiem -) i jest to równoważne ze znalezieniem w macierzy takiej kolumny, której największy element jest najmniejszym w porównaniu ze wszystkimi największymi elementami pozostałych wierszy w macierzy. Zatem, strategia optymalna dla gracza G2 osiągnięta zostanie gdy: ⎧ ⎫ ⎧ ⎫ α* = max ⎨ min aij ⎬ = min ⎨ max aij ⎬ = β* i ⎩ j j ⎩ i ⎭ ⎭ Gry posiadające punkt siodłowy [tu: +2] są grami o pełnej informacji. 21 wtedy, gra posiada punkt siodłowy, a element wyznaczony na podstawie powyższej równości nazywa się wartością gry [tu: α* = β* = +2]. Jeżeli 22 Strategia określona jako ciąg wyborów strategii pełnych na podstawie powyższego zestawienia nazywa się strategią mieszaną. W przypadku, gdy gra nie posiada punktu siodłowego gracze wybierają swoje strategii gry w sposób losowy, aby przeciwnik nie był w stanie odkryć prawidłowości przy wyborze strategii. Wybór taki może być dokonywany za pomocą prawa rozkładu dyskretnej zmiennej losowej ξ. Zmienna losowa ξ przyjmuje wartości całkowite odpowiadające numerom strategii pełnych, którymi dysponuje gracz (pl oznaczają prawdopodobieństwa wyboru w danym posunięciu strategii i). *STRATEGIE MIESZANE S11 S12 ⎡ ⎤ ⎪ +10 -5 ⎪ ⎪ -10 +5 ⎪ ⎣ ⎦ S21 S22 prawdopodobieństwa wyboru strategii pełnych gracza G1: p1 i p2, prawdopodobieństwa wyboru strategii pełnych gracza G2: q1 i q2. Dla danych: macierz gry WYZNACZANIE STRATEGII MIESZANYCH 23 24 Aby znaleźć maksimum tej funkcji przyrównywane są do zera jej pochodne cząstkowe i po rozwiązaniu otrzymanego układu równań otrzymywane są wartości: p1 = 1/2 p2 = 1/2 q1 = 1/3 q2 = 2/3. L(p1, p2, q1, q2, λ1, λ2) = (+10p1 – 10p2)q1 + (-5p1 + 5p2)q2 + λ1(p1 + p2 -1) + λ2(q1 + q2 -1) Wyznaczane są wartości p1, p2, q1 i q2, dla których wartość oczekiwana wygranej gracza G1 osiągnie maksimum. W celu znalezienia maksimum warunkowego określana jest funkcja Lagrange’a: Wartość oczekiwana wygranej G1 wynosi dla wyboru przez G2: S11: +10p1 – 10p2, S12: -5p1 + 5p2. zatem, wartość oczekiwana wygranej G1 wynosi: (+10p1 – 10p2)q1 + (-5p1 + 5p2)q2 25 Następnie budowana jest funkcja Lagrange’a dla gracza G2 i poszukiwane są wartości p1, p2, q1 i q2, dla których funkcja ta osiąga minimum [tu: wartości te są takie same jak dla G1]. 26 TW MINIMAKSOWE. W grze dwuosobowej określonej za pomocą macierzy gry zawsze istnieją optymalne strategie mieszane graczy G1 i G2, przy czym strategią optymalną gracza G1 jest jego maksyminowa strategia mieszana, zaś strategią optymalną gracza G2 jest jego minimaksowa strategia mieszana. W teorii gier dowodzi się, że zawsze istnieje możliwość znalezienia minimaksowych i maksyminowych strategii mieszanych dla graczy w grze. Stanowi to podstawowe twierdzenie teorii gier – twierdzenie minimaksowe. *TWIERDZENIE MINIMAKSOWE 27 • algorytm cięć αβ - opracowany przez Knutha i Moore’a w 1975r. [3] (polega na ograniczeniu przeszukiwania do najbardziej „obiecującej” części drzewa; stanowił podstawę dla ProbCut), • ProbCut (wartości funkcji heurystycznej dla kolejnych węzłów nie są niezależne od siebie (są wysoce skorelowane [1]); idea działania ProbCut polega na dokonywaniu przybliżeń wartości węzłów leżących niżej w drzewie poprzez wartości węzłów leżących wyżej (na mniejszej głębokości), • Multi-ProbCut [2] (rozszerzona wersja ProbCut, w której usunięto część wad ProbCut: zbyt „radykalny” w działaniu). ROZWINIĘCIE ALGORYTMU MINIMAKSOWEGO[4] 28 [1] BURO M., ProbCut: An Effective Selective Extension of Alpha-Beta Algorithm. ICCA Journal 18(2), 1995, pp. 71-76. [2] BURO M., Experiments with Multi-ProbCut and a New High-Quality Evaluation Function for Othello. Workshop on Game – Tree Search, NEC Research Institute, 1997. [3] KNUTH D.E., MOORE R.W., An Analisys of Alpha-Beta Pruning. Artificial Intelligence. Vol. 6, 1975, pp. 293-326. [4] KWAŚNICKA H., SPIRYDOWICZ A., Uczący się Komputer – Programowanie Gier Logicznych. Oficyna Wydawnicza Politechniki Wrocławskiej, 2004. [5] POSPIEŁOW D.A., Gry i Automaty. WNT, 1968. Literatura